baichuan-7B开源发布，压力给到了另一边的二王

6月15日，搜狗创始人王小川于今年4月创办的百川智能，发布了首个大模型成果baichuan-7B。70亿的参数量，开源可商用，王小川和百川智能又凭实力上了次热搜。回想今年首次召开媒体见面会时，王小川对自家的百川大模型就极为自信，“年底争取发布国内最好的大模型”的话，在外界听来更像吹牛，特别是当时距离文心一言的亮相还只有半个月。

短短两个多月过去了，百川此次发布的baichuan-7B足够让很多人闭嘴，虽然最近的大模型令人眼花缭乱，宛如走马灯般“你方唱罢我登场”。baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上，以显著优势全面超过了ChatGLM-6B等其他大模型，并且在MMLU英文权威评测榜单上，也领先LLaMA-7B很多。目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平台发布。

一、当之无愧的7B

虽然大模型的好坏评价，各家企业至今尚未形成共识，但榜单跑分仍然是验证大模型能力相当重要的一个办法，而且此次baichuan-7B的表现也的确称得上令人印象深刻。在三个最具影响力的中文评估标准中，baichuan-7B在同等参数量级大模型中的综合评分十分引人注目：

1. 由微软研究院发起的评测标准AGI Eval中，baichuan-7B综合评分34.4，在国内的高考、司法考试、SAT、LSAT、GRE等考试中表现出色，比LLaMa-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等不少竞争对手都要领先；

2. 在英国爱丁堡大学、清华、上交三个顶级院校联合创建的C-Eval大模型评测体系下，baichuan-7B的发挥同样值得称道。在覆盖52个学科的测评中，baichuan-7B最终获评34.4分，在同量级产品中排名第一；

3. 复旦大学研究团队所创建的GAOKAO评测框架中，这个评测以国内各地的高考题为主，baichuan-7B在高考题目上的表现同样惊艳，不仅评分在同参数量级的模型中独占鳌头，而且第二名与之相比的差距近8分。

值得关注的是，在这次跑分中，baichuan-7B的表现甚至比一些参数量级更大的模型都要好，其中不乏一些参数比baichuan-7B高数倍的。在榜单上，比起130亿参数的GLM-130B上个月的评测结果， baichuan-7B的综合评分也仅比它低了1.2分。虽然在三个中文评测榜单上都名列前茅，而baichuan-7B却没有偏科，是个通才。在由美国诸多名校联合划定的MMLU英文评估基准上，baichuan-7B的得分也超过了多名先发者，包括ChatGLM-6B，LLaMA-7B等开源模型，在英文跨学科专业能力上同样可圈可点。

二、独门秘籍

baichuan-7B的成绩斐然，离不开百川智能在幕后的艰苦努力，虽然外界很多时候都更关注大模型的侃侃而谈。概括说来，百川智能的方法有以下几个：

1. 构建大规模且高质量的语料库。为了保证语料质量，百川智能使用了质量模型对数据打分，以保证对原始数据集的层层筛选，甚至是精确到“篇章级”，“句子级”；而在语料多样性方面，百川智能则专门为此研发了“超大规模局部敏感哈希聚类系统和语义聚类系统”，以完成对数据的多层次、多粒度聚类。经过这套双管齐下的努力加持，baichuan-7B，名义上是有70亿参数量级的大模型，但是背后还包含1.2万亿Token的高质量训练数据集，正所谓“重剑无锋，大巧不工”。

2. 强化训练效率。训练效率之于大模型，恰如学习方法之于考生，只有掌握了正确方法才可能事半功倍，否则往往会适得其反。距离百川智能成立仅寥寥数月，baichuan-7B能有现在的出彩表现，高效率的训练绝对是不能忽视的一个原因。据一些媒体报道，baichuan-7B深度整合了模型机制来加快计算流程，并针对任务负载和集群配置，自适应优化了模型并行策略以及重计算策略。通过高效的训练过程调度通信，baichuan-7B成功实现了计算与通信的高效重叠，进而达到了超线性的训练加速，在千卡集群上，训练吞吐量能达到180+的每秒浮点运算次数。同时，通过更好的训练流程设计和超参数选择，baichuan-7B的收敛速度也获得了明显改善，也就让其在困惑度（PPL）和训练损失（training loss）的表现上非常优秀。

3. 优化算法。算法可以类比为人的天赋，在很多时候，努力决定下限，天赋决定上限。此次baichuan-7B的算法优化，主要体现在更大的窗口长度上。为了能让大模型在训练和推理阶段捕捉更多的上下文信息，以更好的完成一些长文本任务，大模型能力受窗口长度的制约颇为明显。而基于高效的注意力机制优化，百川智能实现了“万级”的超长动态窗口扩张能力。两倍于现有开源模型的窗口长度，baichuan-7B把这个参数升级到了4k，理解能力相比过去有了巨大的提升。

概括一下百川智能的秘籍，就是更优质、更多样、更大规模的数据，更高效且收敛的训练，再辅以更强的上下文理解能力，因此baichuan-7B能有现在的抢眼表现绝非偶然。

地址：https://github.com/baichuan-inc/baichuan-7B/blob/main/README.md

三、海纳百川，百川战略

自王小川今年4月创办百川智能，进入大模型赛道以来，“海纳百川”就是他秉持的核心精神。也正因如此，baichuan-7B选择开源完全是意料之中。代码采用的是Apache-2.0协议，模型权重采用了免费商用协议，因此baichuan-7B如同一本打开的字典或辞海，开放给社会各界来使用，当然也包括商业领域或商业化用途。此外，baichuan-7B还开放了推理代码、INT4量化实现、微调代码，以及预训练模型的权重。这对帮助用户实现模型调优、降低成本应用部署，吸引新粉丝入局，以及其他研究者调用baichuan-7B完成自己的研究都有很大的助力，无形中也延长了baichuan-7B的产品寿命。开源也让baichuan-7B获得了清华和北大的青睐。据披露，两所高校均已表示，预计在未来与百川智能深入合作，来一起推动baichuan-7B的应用和发展。

面对baichuan-7B的亮眼表现，让人不由得有些怀疑王小川当时说的“年底争取做国内最好大模型”，可能真的不是豪言壮语。而这次成功的亮相，也让百川智能，乃至国内整个大模型业界都看到了新鲜的动力和希望。百川智能的此次首秀虽然亮眼但绝非终点，之后王小川的每一步都相当值得期待。

与王小川的惊艳首秀形成对比的，起步更早的“美团二王”，王慧文与王兴，最近几个月都没有什么动静，要知道当初“光年之外”引起的关注度可比百川智能只多不少的。毫无疑问，此番百川智能和baichuan-7B的后发先至以及出色表现，“二王”不可能不知道，但二人的社交平台上皆毫无反应。或许可以说他们也在专注于自己的大模型，亦或者也可以认为他们的内心已经拉响了“红色警报”。不论怎样，说现在的他们毫无压力，你相信吗？

本文链接：https://www.aixinzhijie.com/media/6822594
转载请注明文章出处