马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

2024-03-18 08:41:00 - 市场资讯

作者：机器之心

开源社区有福了。

说到做到，马斯克承诺的开源版大模型Grok终于来了！

今天凌晨，马斯克旗下大模型公司xAI宣布正式开源3140亿参数的混合专家（MoE）模型‘Grok-1’，以及该模型的权重和网络架构。

这也使得Grok-1成为当前参数量最大的开源大语言模型。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

封面图根据Grok提示使用Midjourney生成的：神经网络的3D插图，具有透明节点和发光连接，以不同粗细和颜色的连接线展示不同的权重。

这个时候，马斯克当然不会忘了嘲讽OpenAI一番，‘我们想了解更多OpenAI的开放部分’。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

回到模型本身，Grok-1从头开始训练，并且没有针对任何特定应用（如对话）进行微调。相对的，在X（原Twitter）上可用的Grok大模型是微调过的版本，其行为和原始权重版本并不相同。

Grok-1的模型细节包括如下：

基础模型基于大量文本数据进行训练，没有针对任何具体任务进行微调；

3140亿参数的MoE模型，在给定token上的激活权重为25%；

2023年10月，xAI使用JAX库和Rust语言组成的自定义训练堆栈从头开始训练。

xAI遵守Apache2.0许可证来开源Grok-1的权重和架构。Apache2.0许可证允许用户自由地使用、修改和分发软件，无论是个人还是商业用途。项目发布短短四个小时，已经揽获3.4k星标，热度还在持续增加。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

该存储库包含用于加载和运行Grok-1开放权重模型的JAX示例代码。使用之前，用户需要确保先下载checkpoint，并将ckpt-0目录放置在checkpoint中，然后，运行下面代码进行测试：

pipinstall-rrequirements.txt

pythonrun.py

项目说明中明确强调，由于Grok-1是一个规模较大（314B参数）的模型，因此需要有足够GPU内存的机器才能使用示例代码测试模型。此外，该存储库中MoE层的实现效率并不高，之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。

用户可以使用Torrent客户端和这个磁力链接来下载权重文件：

magnet：？xt=urn：btih：5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

看到这，有网友开始好奇314B参数的Grok-1到底需要怎样的配置才能运行。对此有人给出答案：可能需要一台拥有628GBGPU内存的机器（每个参数2字节）。这么算下来，8xH100（每个80GB）就可以了。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

知名机器学习研究者、《Python机器学习》畅销书作者SebastianRaschka评价道：‘Grok-1比其他通常带有使用限制的开放权重模型更加开源，但是它的开源程度不如Pythia、Bloom和OLMo，后者附带训练代码和可复现的数据集。’

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

DeepMind研究工程师AleksaGordié则预测，Grok-1的能力应该比LLaMA-2要强，但目前尚不清楚有多少数据受到了污染。另外，二者的参数量也不是一个量级。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

还有一位推特用户@itsandrewgao详细分析了Grok-1的架构细节，并做出了一下几点总结。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

首先Grok-1是8个专家的混合（2个活跃）、860亿激活参数（比Llama-270B还多），使用旋转嵌入而非固定位置嵌入。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

tokenizer词汇大小为131，072（类似于GPT-4）2^17，嵌入大小6，144（48*128），64个transformer层（sheesh），每层都有一个解码器层：多头注意力块和密集块，键值大小128。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

多头注意力块：48个head用于查询，8个用于键/值（KV）。KV大小为128。密集块（密集前馈块）：加宽因子8，隐藏层大小32768。每个token从8个专家中选择2个。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

旋转位置嵌入大小为6144，与输入嵌入大小相同。上下文长度为8192tokens，精度为bf16。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

此外还提供了一些权重的8bit量化内容。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

当然，我们还是希望xAI官方能够尽快公布Grok-1的更多模型细节。

Grok-1是个什么模型？能力如何？

Grok是马斯克xAI团队去年11月推出的一款大型语言模型。在去年11月的官宣博客中（参见《马斯克xAI公布大模型详细进展，Grok只训练了2个月》），xAI写道：

Grok是一款仿照《银河系漫游指南》设计的AI，可以回答几乎任何问题，更难能可贵的是，它甚至可以建议你问什么问题！

Grok在回答问题时略带诙谐和叛逆，因此如果你讨厌幽默，请不要使用它！

Grok的一个独特而基本的优势是，它可以通过X平台实时了解世界。它还能回答被大多数其他AI系统拒绝的辛辣问题。

Grok仍然是一个非常早期的测试版产品——这是我们通过两个月的训练能够达到的最佳效果——因此，希望在您的帮助下，它能在测试中迅速改进。

xAI表示，Grok-1的研发经历了四个月。在此期间，Grok-1经历了多次迭代。

在公布了xAI创立的消息之后，他们训练了一个330亿参数的LLM原型——Grok-0。这个早期模型在标准LM测试基准上接近LLaMA2（70B）的能力，但只使用了一半的训练资源。之后，他们对模型的推理和编码能力进行了重大改进，最终开发出了Grok-1，这是一款功能更为强大的SOTA语言模型，在HumanEval编码任务中达到了63.2%的成绩，在MMLU中达到了73%。

xAI使用了一些旨在衡量数学和推理能力的标准机器学习基准对Grok-1进行了一系列评估：

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

在这些基准测试中，Grok-1显示出了强劲的性能，超过了其计算类中的所有其他模型，包括ChatGPT-3.5和Inflection-1。只有像GPT-4这样使用大量训练数据和计算资源训练的模型才能超越它。xAI表示，这展示了他们在高效训练LLM方面取得的快速进展。

不过，xAI也表示，由于这些基准可以在网上找到，他们不能排除模型无意中在这些数据上进行了训练。因此，他们在收集完数据集之后，根据去年5月底（数据截止日期之后）公布的2023年匈牙利全国高中数学期末考试题，对他们的模型（以及Claude-2和GPT-4模型）进行了人工评分。结果，Grok以C级（59%）通过考试，Claude-2也取得了类似的成绩（55%），而GPT-4则以68%的成绩获得了B级。xAI表示，他们没有为应对这个考试而特别准备或调整模型。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载