2023-08-14 19:21

国产大模型哪家强?新华社为你指南导航

在刚刚过去的周六12日,新华社研究院中国企业发展研究中心发布了《人工智能大模型体验报告2.0》(以下简称《报告》)。选取目前主流的八款国产大模型,如百度文心一言、科大讯飞星火、阿里通义千问等进行评测,根据基础能力、智商能力、情商能力、工具提取四个维度计算总分,最终再根据总分为其排名。最终的得分结果是星火得1013分位列榜首,文心一言得1010分紧随其后,此二者也是榜单中唯二超过1000分者,其余六家得分皆在其后。

《报告》在评测的同时也直言不讳的指出,当前国产大模型产品已有显著进步,但与接受过高等教育的人类相比,在智商、情商等方面仍存在一定程度差距。

一、关于《报告2.0》

最近半年多来大模型浪潮涌起,国内各家企业组织与高校科研机构纷纷加入大模型赛道。据不完全统计,在此轮截至目前的大模型热潮中,国内的大模型产品已经有上百个之多。另据天眼查的数据显示,仅今年上半年,与大模型直接相关的投融资事件就有超过20起。以上这些数据都表明大模型浪潮的热度依然没有退去,下半年的相关表现值得期待。

今年6月,新华社曾发布《人工智能大模型体验报告》,即《报告1.0》。当时就提出四项测评维度,即题目设计、对标人类、打分标准、专家测评团队。而此次的《报告2.0》的考量,在于直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点,因此对评测维度进行了全面升级。

具体来说,在题目设计方面,测评题目由300道扩展至500道,并细化、完善了题目分类;在对标人类方面,本次测评以接受过高等教育的人类作为基准,来评估大模型的真实能力;在打分标准上,本次测评根据对产业、学界、实际生活的应用价值,对基础能力、智商能力、情商能力和工具提效四项测评维度重新设计了权重;在测评团队方面,本次测评特别邀请北京大学文化与传播研究所,以及其他产学各界的专家全程参与。

二、四维测评下大模型的表现

针对各维度能力测评,《报告2.0》还给出了相应的案例展示和分析。课题组对每个测试维度中不同的指标都设置有不同的测评权重,综合在不同领域的表现后最终汇总得分。

1.在基础能力方面,人类与AI之间的差距并不显著。课题组设置语言能力(35%)、AI向善(10%)、跨模态(20%)和多轮对话(35%)四项指标。测评结果显示,八款大模型中百度文心一言表现最为抢眼,商汤商量、智谱AI-ChatGLM、360智脑表现优良。

大模型基础能力得分

2.在智商评估方面,人类在智商方面仍然具有明显优势。课题组分别从常识知识(20%)、逻辑能力(50%)和专业知识(30%)方面对科技企业大模型进行考量。这次的结果中讯飞星火、智谱AI-ChatGLM表现突出,百度文心一言、昆仑万维天工表现优良。

大模型智商指数得分

3.在情商方面,这是AI与人类之间的差距最为明显的领域之一。人类在情绪理解和处理方面通常具有更强的优势,处理能力也更灵活。通过对处理日常事项(35%)、一语双关(30%)、人际关系(35%)问题进行分析发现,科技企业大模型中,商汤商量表现亮眼,百度文心一言、澜舟科技Mchat、智谱AI-ChatGLM及360智脑均表现优良。

大模型情商指数得分

4.在工作效率提升方面,这是各家大模型普遍都在重点宣扬的地方。课题组重点在工具提效(50%)和生成创新(50%)方面进行考量,结果显示,讯飞星火表现最为抢眼,百度文心一言、商汤商量、智谱AI-ChatGLM表现优良。不过,尽管AI具有高速度和高效率的优势,但在某些复杂和具有创新性的任务中,人类的智慧和想象力仍然具有无法替代的作用。

大模型工具提效指数

三、大模型的前路

通过四项维度的测评可以看出,不同的大模型产品之间差距并不明显,而对比人类时则区分显著。《报告2.0》认为,虽然在不同领域中,AI和人类表现出不同的优劣势,但在整体上,AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响,大模型正在加速走进生活、走进产业。

最近半年多的大模型浪潮有目共睹,正在加速向社会生活中的各个领域渗透。同时在AI 2.0时代到来之际,从判别式AI到生成式AI就是生产力的变革,AI技术发展的重点已经从大模型的盲目追求参数量级,转向了实用性和可持续性的发展。相信在本次体验测评基础上,各家研究团队将继续深耕,加强在大模型安全可解释性、工作提效能力、实际落地情况、产业优秀案例等维度上的探索与研究。

未来已来,概念红利逐渐消失,回归实用更能行稳致远。

本文链接:https://www.8btc.com/media/6829606
转载请注明文章出处

评论
登录 账号发表你的看法,还没有账号?立即免费 注册
下载
分享
收藏
阅读
评论
点赞
上一篇
下一篇