GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型_虚拟币交易所平台,数字货币,NFT

admin 阅读：31 2024-04-01 11:40:23 评论：0

美化布局示例

欧易(OKX)最新版本

【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费！

APP下载全球官网大陆官网

币安(Binance)最新版本

币安交易所app【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费！

APP下载官网地址

火币HTX最新版本

火币老牌交易所【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费！

APP下载官网地址

当前位置: > > GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型 GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型 2023-07-13 东寻来源：区块链网络

The current location model architecture leak contains trillions of parameters. The hybrid expert model model architecture leak contains trillions of parameters. The hybrid expert model is used to find the source blockchain network. 比特币今日价格行情网_okx交易所app_永续合约_比特币怎么买卖交易_虚拟币交易所平台

据 IT 之家 7 月 13 日报道，外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘，其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型（Mixture of Experts）等具体的参数和信息。

外媒表示，GPT-4 在 120 层中总共包含了 1.8 万亿参数，而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本，OpenAI 采用混合专家模型来进行构建。

据悉，GPT-4 使用了 16 个混合专家模型（mixture of experts），每个有 1110 亿个参数，每次前向传递路由经过两个专家模型。此外，它有 550 亿个共享注意力参数，使用了包含 13 万亿 tokens 的数据集训练，tokens 不是唯一的，根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k，32k 版本是对 8k 微调的结果，训练成本相当高，外媒表示，8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型，因此训练该模型需要导致极高的推理成本，以 H100 物理机每小时 1 美元计算，那么一次的训练成本就高达 6300 万美元（约 4.51 亿元人民币）。

对此，OpenAI 选择使用云端的 A100 GPU 训练模型，将最终训练成本降至 2150 万美元（约 1.54 亿元人民币）左右，用稍微更长的时间，降低了训练成本。

原文链接

文字格式和图片示例

注册有任何问题请添加微信：MVIP619 拉你进入群