中国电商网 > 国内> 正文

注意力机制作用被高估了？苹果等机构新研究：把注意力矩阵替换成常数矩阵后，

2022-11-23 11:57来源：IT之家阅读量：15527

要说《变形金刚》的核心亮点，当然是注意力机制。

可是现在，一项新的研究突然提出了一个有些爆炸性的观点:

注意机制对于预训练变形金刚有多重要，需要打个问号。

来自希伯来大学，艾伦人工智能研究所，苹果公司和华盛顿大学的研究人员提出了一种新的方法来衡量预训练变压器模型中注意力机制的重要性。

结果表明，即使去掉注意机制，某些变压器的性能变化也不大，甚至与原模型相差不到十分之一！

这个结论让很多人惊讶，也有网友调侃:

你亵渎了这个领域的神！

那么，如何判断注意机制对变形金刚模型的重要性呢。

把注意力转向一个常数矩阵。

这种新的测试方法叫做PAPA，全称是预训练语言模型注意机制的检测与分析。

PAPA采用的方法是将预训练语言模型中依赖输入的注意矩阵替换为常数矩阵。

如下图所示，我们熟悉的关注机制是通过Q和K矩阵计算关注权重，然后作用于V，得到整体权重和输出。

现在，Q和K的部分直接用常数矩阵C代替:

常数矩阵c计算如下:

然后用6个下游任务对这些模型进行测试，比较PAPA前后模型的性能差距。

为了更好地检验注意机制的重要性，模型的注意矩阵并不是一次性完全用一个常数矩阵代替，而是逐渐减少注意头的数量。

如下图所示，研究中使用了BERT—BASE，RoBERTa—BASE和DeBERTa—BASE，其中Y轴代表性能，X轴代表与原始相比注意力头的下降:

然后，将BERT—LARGE，RoBERTa—LARGE和DeBERTa—LARGE用作实验:

通过对比结果，研究人员发现了一些有趣的现象:

首先，用常数矩阵代替一半的注意力矩阵对模型的性能影响不大，甚至在某些情况下可能会导致性能的提高。

其次，即使关注头数减少到零，平均性能也会下降8%，与原模型相比不超过20%。

人们认为，这一现象表明，预训练语言模型并不那么依赖于注意机制。

模型的性能越好，就越依赖于注意机制。

可是，即使在预先训练的变压器模型中，性能也不完全相同。

如下图所示，其中Y轴代表每个模型的平均性能，X轴代表当所有关注矩阵替换为常数矩阵时模型性能的相对降低分数:

可以看出，以前的模型性能越好，用常数矩阵代替注意力矩阵的损失就越高。

这说明模型本身的性能越好，利用注意机制的能力就越强。

对于这个研究，有网友觉得很棒:

听起来很酷现在很多架构过于关注各种计算和性能任务，却忽略了是什么改变了模型

但也有网友认为，单纯从数据上无法判断架构变化是否重要。

例如，在某些情况下，注意机制带来的隐藏空间中数据点的振幅变化仅为2—3%:

这种情况下还不够重要吗不一定

如何看待《变形金刚》中注意力机制的重要性。

论文地址:

参考链接:

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

责任编辑：牧晓

最新阅读

“深交所·创享荟”打造资本市场服务国企改革新典范

9月27日，深交所举办第九期“创享荟”国企专业化整合专场活动。“创享荟”是深交所着力打造的具有深市特色的市场服务品牌，目前已围绕热点主题举办了多期专场活动，影响力和吸引力不断增强。深交所相关负...
微软在GitHub上线开发工具包，助力开发者使用Rust语言编写Wind

，微软Azure首席技术官MarkRussinovich日前在X平台发文，公开微软最近宣布“扩大采用Rust语言的成果”，微软同时还在GitHub中发布了一系列开发工具包，让开发者可以使用Rust语言...
擦亮“金融为民”底色光大银行多维发力谱写“人民金融”新篇章

像这样面向听障人士的手语服务模式，光大银行已持续运行了四年。四年来，光大银行通过收集听障客群金融业务需求及沟通痛点，让金融服务更贴近听障人士的日常生活。而这，只是光大银行践行“金融为民”初心，努力提供...
云南信托联合多家金融机构进乡村开展金融知识普及教育

近日，为帮助广大农村群众进一步提升金融素养及金融风险防范意识，助力打造诚信、健康、安全、和谐的金融环境，在云南省农村信用社联合社、昆明市农村信用社联合社及昆明市西山区农村信用合作联社的共同协调组织下，...
“领头羊”计划走进广州番禺，超59家企业具备上市潜力

南方财经全媒体记者翁榕涛实习生曾日丽广州报道 9月26日下午，广州企业上市“领头羊”行动计划“番禺行动”启动仪式在番禺节能科技园交流中心举行。据南方财经全媒体记者了解，今年7月以来，广州市地方金...
算力牛股中际旭创股价“反攻”800G能否助三季度业绩惯性增长？

21世纪经济报道记者雷晨实习生原婷婷北京报道近期受国内外AI利好消息驱动，二级市场上，中际旭创股价重新抬头，9月26日、9月27日连续上涨。截至9月27日收盘，公司股价报收于114.07元/股，收...
索尼申请外置小型触摸屏专利，可“架在”PS5手柄上远程游玩游戏

，据外媒gamerant报道，索尼近日注册了一项新专利，从文件内容上来看，这项专利主要显示，外加可以使用一个“触摸屏”连接DualSense手柄，来游玩PS5游戏。图源索尼索尼于此前正式公布了...
14幅图看懂债市潮起潮落

超越城乡居民储蓄存款规模和A股总市值，拥有百万亿以上体量的债券。如同资产配置中的“米面粮油”，在投资中无处不在。相较于股票，您可能是更加委婉地参与其中，大部分人是通过银行理财、债券基金、保险、资管计划...
国庆黄金周运输今日启动，长三角铁路预计发送超250万人次

国庆黄金周运输启动。 9月27日，澎湃新闻记者从中国铁路上海局集团有限公司获悉，今天是铁路国庆黄金周运输首日，长三角铁路预计发送旅客逾250万人次，较2019年同期多发送60余万人次，增幅超三成。 ...
阿里拟分拆菜鸟在港上市菜鸟子公司已申请上百项物流专利

9月26日，阿里巴巴港交所公告，拟通过以菜鸟股份于香港联交所主板独立上市的方式分拆菜鸟。拟议分拆完成后，阿里巴巴将继续持有菜鸟50%以上的股份，菜鸟将仍为其子公司。天眼查App显示，菜鸟网络科技有...