全球观焦点：UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

首页>焦点 > 正文

2023-05-07 15:05:19

来源：中关村金融科技产业发展联盟

万万没想到，现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了！据说，那些闭源模型们很快也会被拉出来溜溜。

最近，来自LMSYS Org（UC伯克利主导）的研究人员又搞了个大新闻——大语言模型版排位赛！

(资料图)

顾名思义，「LLM排位赛」就是让一群大语言模型随机进行battle，并根据它们的Elo得分进行排名。

然后，我们就能一眼看出，某个聊天机器人到底是「嘴强王者」还是「最强王者」。

划重点：团队还计划把国内和国外的这些「闭源」模型都搞进来，是骡子是马溜溜就知道了！（GPT-3.5现在就已经在匿名竞技场里了）

匿名聊天机器人竞技场长下面这样：

很明显，模型B回答正确，拿下这局；而模型A连题都没读懂……

项目地址：https://arena.lmsys.org/

在当前的排行榜中，130亿参数的Vicuna以1169分稳居第一，同样130亿参数的Koala位列第二，LAION的Open Assistant排在第三。

清华提出的ChatGLM，虽然只有60亿参数，但依然冲进了前五，只比130亿参数的Alpaca落后了23分。

相比之下，Meta原版的LLaMa只排到了第八（倒数第二），而Stability AI的StableLM则获得了唯一的800+分，排名倒数第一。

团队表示，之后不仅会定期更新排位赛榜单，而且还会优化算法和机制，并根据不同的任务类型提供更加细化的排名。

目前，所有的评估代码以及数据分析均已公布。

拉着LLM打排位

在这次的评估中，团队选择了目前比较出名的9个开源聊天机器人。

每次1v1对战，系统都会随机拉两个上场PK。用户则需要同时和这两个机器人聊天，然后决定哪个聊天机器人聊的更好。

可以看到，页面下面有4个选项，左边（A）更好，右边（B）更好，一样好，或者都很差。

当用户提交投票之后，系统就会显示模型的名称。这时，用户可以继续聊天，或者选择新的模型重新开启一轮对战。

不过，团队在分析时，只会采用模型是匿名时的投票结果。在经过差不多一周的数据收集之后，团队共收获了4.7k个有效的匿名投票。

在开始之前，团队先根据基准测试的结果，掌握了各个模型可能的排名。

根据这个排名，团队会让模型去优先选择更合适的对手。

然后，再通过均匀采样，来获得对排名的更好总体覆盖。

在排位赛结束时，团队又引入了一种新模型fastchat-t5-3b。

以上这些操作最终导致了非均匀的模型频率。

每个模型组合的对战次数

从统计数据来看，大多数用户所用的都是英语，中文排在第二位。

排名前15的语言的对战次数

评估LLM，真的很难

自从ChatGPT爆火之后，经过指令跟随微调的开源大语言模型如雨后春笋一般大量涌现。可以说，几乎每周都有新的开源LLM在发布。

但问题是，评估这些大语言模型非常难。

具体来说，目前用来衡量一个模型好不好的东西基本都是基于一些学术的benchmark，比如在一个某个NLP任务上构建一个测试数据集，然后看测试数据集上准确率多少。

然而，这些学术benchmark（如HELM）在大模型和聊天机器人上就不好用了。其原因在于：

1. 由于评判聊天机器人聊得好不好这件事是非常主观的，因此现有的方法很难对其进行衡量。

2. 这些大模型在训练的时候就几乎把整个互联网的数据都扫了一个遍，因此很难保证测试用的数据集没有被看到过。甚至更进一步，用测试集直接对模型进行「特训」，如此一来表现必然更好。

3. 理论上我们可以和聊天机器人聊任何事情，但很多话题或者任务在现存的benchmark里面根本就不存在。

那如果不想采用这些benchmark的话，其实还有一条路可以走——花钱请人来给模型打分。

实际上，OpenAI就是这么搞的。但是这个方法明显很慢，而且更重要的是，太贵了……

为了解决这个棘手的问题，来自UC伯克利、UCSD、CMU的团队发明了一种既好玩又实用的全新机制——聊天机器人竞技场（Chatbot Arena）。

相比而言，基于对战的基准系统具有以下优势：

可扩展性（Scalability）

当不能为所有潜在的模型对收集足够的数据时，系统应能扩展到尽可能多的模型。

增量性（Incrementality）

系统应能够使用相对较少的试验次数评估新模型。

唯一顺序（Unique order）

系统应为所有模型提供唯一顺序。给定任意两个模型，我们应该能够判断哪个排名更高或它们是否并列。

Elo评分系统

Elo等级分制度（Elo rating system）是一种计算玩家相对技能水平的方法，广泛应用在竞技游戏和各类运动当中。其中，Elo评分越高，那么就说明这个玩家越厉害。

比如英雄联盟、Dota 2以及吃鸡等等，系统给玩家进行排名的就是这个机制。

举个例子，当你在英雄联盟里面打了很多场排位赛后，就会出现一个隐藏分。这个隐藏分不仅决定了你的段位，也决定了你打排位时碰到的对手基本也是类似水平的。

而且，这个Elo评分的数值是绝对的。也就是说，当未来加入新的聊天机器人时，我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。

具体来说，如果玩家A的评分为Ra，玩家B的评分为Rb，玩家A获胜概率的精确公式（使用以10为底的logistic曲线）为：

然后，玩家的评分会在每场对战后线性更新。

假设玩家A（评分为Ra）预计获得Ea分，但实际获得Sa分。更新该玩家评分的公式为：

1v1胜率

此外，作者还展示了排位赛中每个模型的对战胜率以及使用Elo评分估算的预测对战胜率。

结果显示，Elo评分确实可以相对准确地进行预测

所有非平局A对B战斗中模型A胜利的比例

在A对B战斗中，使用Elo评分预测的模型A的胜率

作者介绍

「聊天机器人竞技场」由前小羊驼作者机构LMSYS Org发布。

该机构由UC伯克利博士Lianmin Zheng和UCSD准教授Hao Zhang创立，目标是通过共同开发开放的数据集、模型、系统和评估工具，使每个人都能获得大型模型。

Lianmin Zheng

Lianmin Zheng是加州大学伯克利分校EECS系的博士生，他的研究兴趣包括机器学习系统、编译器和分布式系统。

Hao Zhang

Hao Zhang目前是加州大学伯克利分校的博士后研究员。他将于2023年秋季开始在加州大学圣地亚哥分校Halıcıoğlu数据科学研究所和计算机系担任助理教授。

参考资料： https://lmsys.org/blog/2023-05-03-arena/ 来源：新智元声明：此公号（ID： czfida）发布内容和图片的目的在于传播更多信息，版权归原作者所有，不为商业用途，如有侵犯，敬请作者与我们联系。

标签：

THE END

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表热讯制鞋网的观点和立场。

相关热点

针对密室逃脱、剧本杀上海将实施备案管理

新华社电上海市文化和旅游局近日发布《上海市密室剧本杀内容备案管理规定（征求意见稿）》，并截至12月8日面向社会公众广泛征求意见。这

2021-11-19 13:46:03

备战2022 基金经理调仓换股布新局

《中国证券报》17日刊发文章《备战2022 基金经理调仓换股布新局》。文章称，距离2021年结束仅剩一个多月，基金业绩分化明显。部分排名靠前

2021-11-19 13:46:03

注意！三部门发文：将ETC欠费行为纳入征信体系

交通运输部办公厅中国人民银行办公厅中国银行保险监督管理委员会办公厅关于进一步做好货车ETC发行服务有关工作的通知各省、自治区、直

2021-11-19 13:45:58

从10月份市场供需积极变化看中国经济韧性

新华社北京11月17日电题：从10月份市场供需积极变化看中国经济韧性新华社记者魏玉坤、丁乐读懂中国经济，一个直观的视角就是市场供需两端

2021-11-19 13:45:58

如何提高教育经费使用率

全国教育财务工作会议披露的消息称，2020年，中国国家财政性教育经费投入达4 29万亿元，占GDP总量的4 206%，我国国家财政性教育经费支出占G

2021-11-19 13:45:48

“种草平台”变“韭菜地” 好物分享为何变了味

如果你也热爱“种草”，前方高能预警！让你心心念念、“浏览”忘返的网络平台，可能早已成为一块块“韭菜地”。近日，据《半月谈》报道，有...

2021-11-19 13:45:48

工信部描绘未来5年信息通信业发展趋势

日前，工业和信息化部印发《“十四五”信息通信行业发展规划》（以下简称《规划》），描绘了未来5年信息通信行业的发展趋势。《规划》指出...

2021-11-19 13:45:40

快递业务旺季，保质保量战高峰

本报讯（中青报·中青网记者周围围）2021年快递业务旺季正式拉开帷幕。国家邮政局监测数据显示，仅11月1日当日，全国共揽收快递包裹5 69

2021-11-19 13:45:40

第七批中国援柬埔寨新冠疫苗抵达金边

人民网曼谷11月17日电（记者赵益普）17日上午，中国援柬埔寨第七批200万剂科兴新冠疫苗抵达金边国际机场。当天，柬埔寨政府在机场举行了

2021-11-19 13:45:35

用废弃盐穴打造绿色“充电宝”

金坛压缩空气储能国家试验示范项目主体工程一角受访者供图依托清华大学非补燃压缩空气储能技术，金坛压缩空气储能项目申请专利百余项，建立

2021-11-19 13:45:35

“煤老大”再显底气山西煤、电、气协同发力保供应

视觉中国供图42亿立方米据有关部门预计，今年山西煤炭产量有望突破12亿吨，12月份山西外送电能力将超过900万千瓦，今冬明春煤层气产量将达4

2021-11-19 13:44:34

14省份发布2021年企业工资指导线向基层劳动者倾斜

14省份相继发布2021年企业工资指导线——引导企业合理提高职工工资今年以来，天津、新疆、内蒙古、陕西、西藏、山东、江西、山西、福建、四

2021-11-19 13:44:34

“药业大佬”一审被判12年，还需赔股民24.59亿

中新网客户端北京11月18日电 (记者谢艺观)“一条路海角天涯，两颗心相依相伴，风吹不走誓言，雨打不湿浪漫，意济苍生苦与痛，情牵天下喜

2021-11-19 13:44:31

三部门：ETC欠费行为将纳入征信体系

近日，交通运输部等三部门发布《关于进一步做好货车ETC发行服务有关工作的通知》。通知提到，对不具备授信条件的用户，商业银行可在依法合

2021-11-19 13:44:31

欧莱雅面膜陷优惠“年度最大”风波

欧莱雅面膜陷优惠“年度最大”风波涉及该事件集体投诉超6000人次美妆大牌双十一促销翻车？近日，因预售价格比双十一现货贵出66%，欧莱雅

2021-11-19 13:44:13

调查：43.6%受访者会在工作2-3年后考虑跳槽

43 6%受访者会在工作两三年后考虑跳槽54 3%受访者认为跳槽对个人职业发展有利有弊如今对不少年轻人来说，想对一份工作“从一而终”不太容易

2021-11-19 13:44:13

超八成受访青年表示如有机会愿意开展副业

超八成受访青年表示如有机会愿意开展副业规划能力最重要64 4%受访青年指出做副业跟风心态最要不得如今，“身兼数职”已成为年轻人当中的

2021-11-19 13:44:01

我国对新能源产业发展非常重视发展氢能正当其时

发展氢能正当其时【科学随笔】氢能是一种二次能源，它通过一定的方法利用其他能源制取，具有清洁无污染、可储存、与多种能源便捷转换等优点

2021-11-19 13:44:01

“千杯不醉”的解酒“神药”能信吗？专家释疑

“千杯不醉”的解酒“神药”能信吗？专家：网红“解酒药” 其实不算药俗话说，“酒逢知己千杯少”，酒一直是国人饭桌上至关重要的存在。尽...

2021-11-19 13:43:57

全球观焦点：UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

Lianmin Zheng

Hao Zhang

相关热点

最新文章

相关推荐

针对密室逃脱、剧本杀上海将实施备案管理

备战2022 基金经理调仓换股布新局

注意！三部门发文：将ETC欠费行为纳入征信体系

从10月份市场供需积极变化看中国经济韧性

如何提高教育经费使用率

“种草平台”变“韭菜地” 好物分享为何变了味

全球观焦点：UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

Lianmin Zheng

Hao Zhang

相关热点

最新文章

相关推荐

针对密室逃脱、剧本杀 上海将实施备案管理

备战2022 基金经理调仓换股布新局

注意！三部门发文：将ETC欠费行为纳入征信体系

从10月份市场供需积极变化看中国经济韧性

如何提高教育经费使用率

“种草平台”变“韭菜地” 好物分享为何变了味

针对密室逃脱、剧本杀上海将实施备案管理