白虎 国产大模子竞技场首超GPT-4o!零一万物GLM共同置身Top10

发布日期:2024-10-18 18:25    点击次数:92

白虎 国产大模子竞技场首超GPT-4o!零一万物GLM共同置身Top10

西风 发自 凹非寺白虎

量子位 | 公众号 QbitAI

国产大模子初度在公开榜单上高出GPT-4o!

就在刚刚,“大模子六小强”之一的零一万物持重对外发布新旗舰模子——Yi-Lightning(闪电)。

在大模子竞技场(Chatbot Arena)上,Yi-Lightning性能直冲总榜单并排第6,数学分榜并排第3,代码等其它分榜也名列三甲。

总获利实在与马斯克最新xAI大模子Grok-2-08-13抓平,杰出GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet等顶流。

同期,国内清华系大模子公司智谱AI的GLM-4-Plus也杀进了总榜,位居第9位。

该榜单收尾来兴盛众累积超千万次的东谈主类用户盲测投票。

前段时分大模子竞技场还刚刚更新了限定,新榜单对AI回复的长度和格调等特征作念了降权处理,分数更能反应模子信得过处分问题的智商。

此次Yi-Lightning杀出重围,Lmsys团队挑升发帖子,称这是竞技场上的大新闻:

大模子竞技场总榜第六、国产第一

细看大模子竞技场分类榜上的“赛况”,Yi-Lightning各项智商王人排在前头。

在汉文智商上,Yi-Lightning和GLM-4-Plus两个国产大模子王人名列前位。

Yi-Lightning跃居并排第二,和o1-mini进出无几。

数学智商,Yi-Lightning和Gemini-1.5-Pro-002并排第3,仅次于o1-preview、o1-mini。

代码智商Yi-Lightning排行并排第4。

另外皮Hard Prompts和Longer Query分榜,Yi-Lightning也王人排在第4位。

临了不异值得热心的是,竞技场新功能格调竣事过滤,确保分数反应模子信得过处分问题的智商,而不是用漂亮的神气、增多回复长度。

在对长度和格调等特征作念了降权处理后,扫数模子分数均有下跌,Yi-Lightning排行变化不大,全体还与GPT-4o、Grok-2吞并梯队。

发布会上,自拍街拍零一万物首创东谈主兼CEO李开复博士展示了Yi-Lightning在不同场景上的智商。

Yi-Lightning主打一个“推理速率更快,生成质料更好”。

比拟上半年Yi-Large,Yi-Lightning首包速率普及1倍,推理速率也普及了4成。

像是翻译底下这种文体作品,Yi-Lightning不仅速率更快:

况兼用词更精确,更具文体色调:

那么Yi-Lightning是怎样作念到的?

好用还得极速

Yi-Lightning接管MoE搀和民众模子架构。

底层本事上,Yi-Lightning在以下方面进行了普及。

最初是优化搀和重主见机制(Hybrid Attention),只在模子的部分头绪中将传统的全重主见(Full Attention)替换为滑动窗口重主见(Sliding Window Attention)。

由此以来,模子在保证处理长序列数据高性能发达的同期,还能大大责骂推理本钱。

Yi-Lightning还引入了跨层重主见(Cross-Layer Attention, CLA),允许模子在不同的头绪之间分享键(Key)和值(Value)头,减少对存储需求。

这使得Yi-Lightning能在不同头绪之间更灵验地分享信息。

总的来说,KV cache消弱了2-4倍,同期将筹谋的复杂度从O(L²)降至O(L)。

其次,Yi-Lightning还接管了动态Top-P路由机制。

也即是说,Yi-Lightning不错阐发任务的难度动态自动遴荐最适当的民众麇集组合——

傍观经由中会激活扫数民众麇集,使模子能学习到扫数民众常识;而推理阶段,阐发任务的难度,模子会遴荐性激活更匹配的民众麇集。

偷拍

另外,之前有一些传言称国内大模子“六小强”,有一些依然不作念预傍观了,李开复博士此次在发布会上径直“辟谣”:

零一万物毫不烧毁预傍观。

况兼在模子预傍观阶段,团队还鸠合了丰富的多阶段傍观步调,将通盘傍观分为两块,一块作念好以后就把它固定起来,然后在这个固定的模子上再作念后段傍观。

傍观前期,更珍视数据种种性,使得Yi-Lightning尽可能学习不同的常识;傍观后期更重执行更丰富、常识性更强的数据。

同期团队还在不同阶段接管不同的batch size和LR schedule保证傍观速率和舒适性。

李开复博士还暗示,零一万物诞生模子持重“模基共建”,也即是共建模子和基础架构。

模子的傍观、行状、推理策画,与底层的AIInfra架构和模子结构必须高度适配。

这么作念的办法,不仅是让模子更好,况兼让它在推理的时候约略更低廉。

再加上以上种种抬升“性价比”的本事加抓,是以Yi-Lightning此次亦然打到了白菜价——

0.99元每1M token

在汉文等方面,Yi-Lightning比肩OpenAI的o1-mini,o1-mini的订价是每百万输入3好意思元,每百万输出12好意思元。

Yi-Lightning每百万token只需0.99RMB亦然打到了骨折。

但李开复博士暗示,即便这么也:不亏钱。

除了发布新模子,零一万物此次还首发了AI2.0数字东谈主决策。

现在该数字东谈主已接入Yi-Lightning,及时互动收尾比拟以往更强更当然了,belike:

重播 播放 00:00 / 00:00 直播 00:00 干涉全屏 50 点击按住可拖动视频

临了谈起和海外头部大模子的差距,李开复博士暗示此次Yi-Lightning的排行讲授了国产大模子跟硅谷最顶尖模子的差距消弱到了五个月。

去跟追上好意思国最顶尖的模子,裁减这个时分差十分坚苦,要付出很大的用功和有独到的交代。在国内不少公司王人在用功,“模基共建”则是零一万物我方摸索的独到旅途。

参考运动:[1]https://x.com/lmarena_ai/status/1846245604890116457[2]https://x.com/01AI_Yi/status/1845776529185476613

— 完 —

量子位 QbitAI · 头条号签约

热心咱们白虎,第一时分获知前沿科技动态