击败Llama 2，抗衡GPT-3.5，Stability AI新模型登顶开源大模型排行榜_虚拟币交易所平台,数字货币,NFT

admin 阅读：33 2024-04-01 11:33:27 评论：0

美化布局示例

欧易(OKX)最新版本

【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费！

APP下载全球官网大陆官网

币安(Binance)最新版本

币安交易所app【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费！

APP下载官网地址

火币HTX最新版本

火币老牌交易所【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费！

APP下载官网地址

当前位置: > > 击败Llama 2，抗衡GPT-3.5，Stability AI新模型登顶开源大模型排行榜击败Llama 2，抗衡GPT-3.5，Stability AI新模型登顶开源大模型排行榜 2023-07-24 Model进化论来源：区块链网络

: beat the new model to the top of the open source big model list beat the new model to the top of the open source big model list evolutionary source blockchain network 比特币今日价格行情网_okx交易所app_永续合约_比特币怎么买卖交易_虚拟币交易所平台

原文来源：机器之心

图片来源：由无界 AI? 生成

一眨眼，开源大模型又进步了。谷歌、OpenAI真的没有护城河？

「我就午休了 30 分钟，我们的领域又变了？」在看到最新的开源大模型排行榜后，一位 AI 领域的创业者发出了灵魂追问。

排行榜链接：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型：FreeWilly 1 和 FreeWilly 2。刚刚，它们超越了 Meta 三天前发布的 Llama-2-70b-hf，成功登顶 HuggingFace 的 Open LLM 排行榜榜首。

更引人注目的是，FreeWilly 2 在很多基准上还击败了 ChatGPT（GPT-3.5），成为首个真正可以和 GPT-3.5 相抗衡的开源大模型，这是 Llama 2 都没有做到的事情。

FreeWilly 1 基于原始的 LLaMA 65B 基础模型构建，并且在标准 Alpaca 格式下，使用新的合成数据集进行了仔细的有监督微调（SFT）。FreeWilly2 则基于最新的 LLaMA 2 70B 基础模型构建。

从 Stability AI 发布的博客中，我们可以看到这两个新模型的一些细节：

数据来源

FreeWilly 模型的训练方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启发。虽然 FreeWilly 的数据生成过程与之相似，但二者在数据来源方面存在差异。

FreeWilly 的数据集包含了 60 万个数据点（大约是原始 Orca 论文使用的数据集大小的 10%），它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的：

COT Submix OriginalNIV2 Submix OriginalFLAN 2021 Submix OriginalT0 Submix Original

采用这种方法，研究者使用了一个较简单的 LLM 模型生成了 50 万个示例，并使用一个更复杂的 LLM 模型生成了额外的 10 万个示例。为了确保公平比较，他们仔细筛选了这些数据集，并删除了来源于评估基准测试的示例。尽管训练样本数量仅为原始 Orca 论文的 1/10（相比原始论文大大降低了训练模型的成本和碳排放），但由此产生的 FreeWilly 模型在各种基准测试中表现出色，验证了他们采用合成数据集的方法的有效性。

性能数据

为了对这些模型进行内部评估，研究者使用了 EleutherAI 的 lm-eval-harness 基准，并加入了 AGIEval。

其中，lm-eval-harness 基准由 EleutherAI 非盈利人工智能研究实验室创建，前面提到的 HuggingFace Open LLM 排行榜背后运行的就是该基准，它会在 Hugging Face 计算集群的空闲周期中运行评估，并将结果存储在数据集中，然后在在线排行榜空间上显示。

AGIEval 则由微软创建，专门用于评估基础模型在「以人为本」（human-centric）的标准化考试中的表现，比如数学竞赛、律师资格考试。

在许多方面，两个 FreeWilly 模型表现都非常出色，包括复杂的推理、理解语言的微妙之处，以及回答涉及专业领域（如法律和数学问题）的复杂问题。

两个模型在 lm-eval-harness 基准上的评估结果如下（这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的）：

二者在 AGIEval 基准上的表现如下（全部是 0-shot）：

此外，他们还在 GPT4ALL 基准上对两个模型进行了测试（全部是 0-shot）：

总体来看，这两个模型的性能表现都非常优秀，进一步缩小了与 ChatGPT 等顶级 AI 大模型的差距。想要获取模型的同学可以点击以下链接。

FreeWilly 1：https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly 2：https://huggingface.co/stabilityai/FreeWilly2

从各方反应来看，FreeWilly 模型的出现给大家带来了一点小小的震撼，因为它们来得实在是太快了，毕竟 Llama 2 才刚刚推出 3 天，排行榜位置都没坐热。有位研究者表示，他最近刚做了眼科手术，一个星期没看，但感觉自己已经昏迷了一年。所以，这是一段「不能眨眼」的时期。

不过，需要注意的是，虽然两个模型都是开放获取的，但和 Llama 2 不同，它们是以非商业许可的形式发布的，仅可用于研究目的。

然而，这样的做法引起了网友质疑。

对此，Stability AI的研究者回复说，这种情况（仅用于研究目的）只是暂时的，未来，FreeWilly 有望像 Llama 2 一样允许商用。

此外，也有人对测试采用的基准产生了质疑：

这也是当前一个比较棘手的问题。此前，Falcon 模型在 HuggingFace 排行榜上碾压 Llama 的事件备受争议，后来，该事件彻底反转，事实证明 Llama 并未被 Falcon 碾压，HuggingFace 也为此重写了排行榜代码。在大模型层出不穷的今天，如何有效地评估这些模型依然是一个值得讨论的问题。因此，对于这些登顶排行榜的模型，我们有必要保持更加谨慎的态度，等待更多的评测结果出炉。

参考链接：https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter utm_medium=website utm_campaign=announcement

文字格式和图片示例

注册有任何问题请添加微信：MVIP619 拉你进入群