千万美元就让最强开源模型易主？Databricks 开源 1320 亿参数大模型强势搅局，Grok 和 LLaMA 悉数落败！

作者 | 王启隆

出品 | CSDN（ID：CSDNnews）

数据是当前火爆全球的 AI 大模型至关重要的一环，有人把数据比作大模型的“血液”，而预训练数据的数量、质量、多样性是大模型能力表现的关键性因素。正因如此，很多人（曾）一度认为坐拥海量数据并孵化出 Google Brain 的谷歌公司会成为 AI 时代的领头羊。

昨晚，大数据和 AI 公司 Databricks 宣布开源他们的 132B 大模型 DBRX。目前，DBRX 的基础 (DBRX Base) 和微调 (DBRX Instruct) 版本皆允许在 GitHub 和 Hugging Face 上用于研究和商业用途，并且可以在公共、自定义或其他专有数据上运行和调整。

GitHub：

https://github.com/databricks/dbrx

Hugging Face 链接：

https://huggingface.co/databricks/dbrx-base（基础版）

https://huggingface.co/databricks/dbrx-instruct （微调版）

Databricks 源自加州大学伯克利分校的 AMPLab 项目，致力于研发一款基于 Scala 构建的开源分布式计算框架 Apache Spark。所谓的“湖仓一体”（data Lakehouse）就是这家公司首创的概念。2023 年 3 月的时候，Databricks 就跟着 ChatGPT 的风推出了开源语言模型 dolly，并在后续的 2.0 版本打出了「首个真正开放和商业可行的指令调优 LLM（大模型）」的口号。

所以，这是 Databricks 的「第二次搅局」。

这一次发布的 DBRX 耗时两个月、投入约 1000 万美元训练打造，宣称“超越了 GPT-3.5，与 Gemini 1.0 Pro 具有竞争力，在编程方面超越了 CodeLLaMA-70B 等专业模型”。Databricks 的首席神经网络架构师 & DBRX 团队负责人 Jonathan Frankle 还直接在 X 上放话：“树立开源 LLM 的新标准！”

Jonathan Frankle 曾经是生成式 AI 初创公司 MosaicML 的首席科学家，而 Databricks 在 2023 年 6 月以 14 亿美元的大手笔收购了 MosaicML，这一举动还让 Frankle 辞掉了哈佛大学的教授工作，专心开发 DBRX。

马斯克意气风发的宣告 3140 亿史上最大开源模型 Grok-1 诞生，这事就发生在 10 天前，还令人历历在目。难不成 DBRX 真的就这么轻松击溃了 LLaMA 和 Grok 两大开源模型？背景已经介绍完毕，下面我们就来看看 DBRX 的详细情况。

树立开源新标准？

首先，万物基于 Transformer，DBRX 也不例外。

除此之外，DBRX 还是一个混合专家模型（MoE），总计 1320 亿（132 B）参数，在 12T 文本和代码数据 tokens 上进行预训练。MoE 架构引入了一种模块化的体系结构，从一个巨大的神经网络里分解出多个子网络（“专家网络”）协同工作，处理输入数据。

相比法国的 Mixtral 和 Grok-1 等其他开源 MoE 模型，DBRX 有个“独门绝学”：它配置了 16 个专家网络，从中选择 4 个参与运算，并且仅使用 360 亿的参数。（Mixtral 和 Grok-1 则各有 8 个专家网络，选择其中 2 个参与）

Databricks 还发现，这种改进能有效提升模型质量。

不过 DBRX 和 Grok-1 有一个同款的毛病：贵。Databricks 在这两个月用了 3072 张 NVIDIA H100 GPU 训练 DBRX，而用户如果想在标准配置中运行 DBRX，则需要一台至少配备四张 H100（或 320GB 显存的任何其他 GPU 配置）的服务器或 PC。

在推理速度上，DBRX 比 LLaMA2-70B 快约 2 倍；从参数总数和激活参数数来看，DBRX 大约只有 Grok-1 的 40% 大小。Databricks 也提供了 API 服务，在 8 位量化（8-bit quantization）的情况下，DBRX 预计可以每秒处理高达 150 个 tokens 的吞吐量。

上图的表格体现了 DBRX 在语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K) 方面优于已建立的开源模型。

同样被 DBRX 击败的还有 ChatGPT 3.5，Databricks 认为这可以“加速企业内开源模型取代专有模型的趋势”。事实上，DBRX 也没有真的“避战”如日中天的 GPT-4，反而在 SQL 等应用程序中对 GPT-4 Turbo 构成了挑战。

能讲故事的 AI 电影
下面来看一些评测对比。

这张表格的主要对比对象是 DBRX 对标的一众开源模型：

1. 综合基准测试表现优异。

DBRX 的“微调版” Instruct 在 Hugging Face Open LLM Leaderboard 这一复合基准测试中取得了最高分，得分达到了 74.5%，远高于第二名 Mixtral Instruct 的 72.7%。

在 Databricks Model Gauntlet 这套包含超过 30 项任务、横跨六个领域的评估套件中，DBRX Instruct 再次领先，得分为 66.8%，相比第二名 Mixtral Instruct 的 60.7% 有显著优势。

2. 编程与数学能力突出。

在编程和数学相关的任务上，DBRX Instruct 展现了尤为强大的能力。例如，在 HumanEval 这一评估代码质量的任务上，其正确率达到 70.1%，比 Grok-1 高出约 7 个百分点，比 Mixtral Instruct 高出约 8 个百分点，并超过了所有被评估的 LLaMA2-70B 变体。

在 GSM8k 数学问题解决测试中，DBRX Instruct 也取得了最优成绩 66.9%，胜过 Grok-1 和 Mixtral Instruct 以及其他 LLaMA2-70B 变体。

值得注意的是，尽管 Grok-1 的参数数量是 DBRX Instruct 的 2.4 倍，但在上述编程和数学任务上，DBRX Instruct 仍能保持领先地位。甚至在针对编程任务专门设计的 CodeLLaMA-70B Instruct 模型之上，DBRX Instruct 在 HumanEval 上的表现依然出色。

3. 多语言理解能力最强。

在大规模多任务语言理解数据集（MMLU）上，DBRX Instruct 继续展示出顶级性能，得分高达 73.7%，超过了本次比较的所有其他模型。不过关于这点，在实测之前还是无法完全证明它的中文水平究竟如何。

DBRX 对阵开源模型确实占据上风，如果让它去打当前的“绝代双骄”GPT-4 和 Claude-3 呢？Databricks 针对几大闭源模型也做了相关测评，还很详尽：

上面这张表主要对比的是基准测试，DBRX 对比 GPT-3.5 在几乎所有的基准测试中都优于或至少持平对比。

DBRX 对比 Gemini 1.0 Pro 则胜了 Inflection Corrected MTBench、MMLU、HellaSwag 和 HumanEval这几个基准，但 Gemini 1.0 Pro 在 GSM8k 测试中表现更强，这意味着在某些特定类型的数学问题解决上，Gemini 1.0 Pro 可能更具优势。

DBRX 对比 Mistral Medium 在 HellaSwag 上的得分相似，两者的推理能力五五开；Winogrande 和 MMLU 这两项语言类的测试全都是 Mistral Medium 占据了优势；而在 HumanEval、GSM8k 以及 Inflection Corrected MTBench 这些基准上，DBRX Instruct 则获得了更高的分数，所以 DBRX 还是更擅长编程和数学推理一点。

紧接着上面这张表是针对上下文窗口的评测，GPT-4 Turbo 还是杀疯了，值得一提的是 DBRX Instruct 在所有上下文长度和序列的所有部分上都比 GPT-3.5 Turbo 表现更好。

上表显示，Databricks 还做了检索增强生成（RAG）技术相关的测试，这是当前最火的大模型应用方案，让大模型检索外部知识源来提供更多信息。这项也一样，除了 GPT-4 Turbo，都能打得过。

除此之外，上方是训练效率相关的基准评测表格。DBRX MoE-B 模型相较于 LLaMA2-13B 用更少 FLOPs 获得了更高的得分。

前文已经提到 DBRX 的推理效率高，其推理吞吐量比 132B 的非 MoE 模型还要高 2-3 倍。而上面这张图是 DBRX 在 NVIDIA TensorRT-LLM 的 16 位精度环境下，针对不同模型配置的吞吐量测试。使用了最优的优化标志，即尽可能地提升了模型运行效率。一言以蔽之就是：很稳。

GitHub：

https://github.com/databricks/dbrx

Hugging Face 链接：

https://huggingface.co/databricks/dbrx-base（基础版）

https://huggingface.co/databricks/dbrx-instruct （微调版）

本文链接：https://www.aixinzhijie.com/article/6845270
转载请注明文章出处