微软亚洲研究院提出全新大模型基础架构:推理速度 8 倍提升,内存占用减少_虚拟币交易所平台,数字货币,NFT
: Microsoft Research Asia puts forward a brand-new big model, infrastructure reasoning speed doubles, memory usage decreases, Microsoft Research Asia puts forward a brand-new big model, infrastructure reasoning speed doubles, memory usage decreases, Qiu Xiangyu sources blockchain network. 比特币今日价格行情网_okx交易所app_永续合约_比特币怎么买卖交易_虚拟币交易所平台
据量子位报道,来自微软亚洲研究院(MSRA)的学者在“Retentive Network: A Successor to Transformer for Large Language Models”论文中提出新的大模型架构 Retentive Network(RetNet),这被视作大模型领域 Transformer 的继任者。实验数据显示,在语言建模任务上:RetNet 可以达到与 Transformer 相当的困惑度(perplexity),推理速度达 8.4 倍,内存占用减少 70%,具有良好的扩展性。并且当模型大小大于一定规模时,RetNet 表现会优于 Transformer。
原文链接
注册有任何问题请添加 微信:MVIP619 拉你进入群
打开微信扫一扫
添加客服
进入交流群
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。