给大模型排名次两个博士一年干出120亿独角兽却被质疑产品数据准确性

返回首页　

设为首页　

加入收藏　

今天是:

网站首页人工智能商业智能智能家居智能手表智能手机智能通信智能电视智能汽车智能机器人

给大模型排名次两个博士一年…
2026年GEO服务商深度数据报告…
香江1号携手全球顶尖品牌共筑…
城投·禧悦府售楼处电话(城投…
小米电视选购指南：这三款让…
2026年天津企业孵化服务口碑…
电视机品牌排名前10名与不同…
广东十大网络整合营销公司品…
2026年智能门锁品牌十大排名…
2025品牌设计公司选择指南：…
记者出击｜儿童电话手表该“…
2026年10万左右智能轿车推荐…
2026年10万左右激光雷达纯电…
福特汽车准备在车载系统中引…
5万亿！苏州低调冲击“工业第…
牛！南京大学人工智能学科排…
必看！这5家超厉害的Ai影视制…
“十四五”新增10所本科院校…
乐华文旅丨挖掘有价值的文化…
“全国十佳新闻工作者”座谈…
《机战》的版权战争 “神龙斗…
这10款PSP时代的策略战棋神作…
供应链与技术创新双赋能！中…
事关教育！甘肃省发布重要方…
CES 2026深度报道：AI与你人…
长虹闪耀CES 2026：AI创新定…
2026最新国内智能分析工具五…
2026最新AI数据分析企业top5…
2026大学生考证全攻略：大学…
合肥意禾澄庐【合肥新房_楼盘…
成都新盘【保利新川天珺】售…
部分智能家居家电产品存在“…
GYBrand 2026年世界品牌500强…
2026年度GYBrand全球最具价值…
“竞”四海逐未来
2026年卖得好的学习机品牌推…
市场探秘：走进广州站西三达…
十大公认最好的瑞士手表品牌…
joviincar最新安装包下载(智…
VIVO JoviIncar智能车载车机…
vivo智能车载joviincar下载最…
智源研究院发布《2026十大AI…
从“参数有多大”转变为“能…
告别炫技拥抱实用：智源2026…
3款电视机顶盒老奶奶使用过后…
从“开创”到“引领”海信如…
2026年55英寸电视推荐：实用…
具身智能2025：从“玩具”到…
新华星耀玥湖合肥精品住宅品…
CES探秘十大创新产品只恨自己…

专题栏目

您现在的位置：智能制造网 >> 商业智能 >> 正文

高级搜索

给大模型排名次两个博士一年干出120亿独角兽却被质疑产品数据准确性

作者：佚名文章来源：本站原创点击数：更新时间：2026/1/11 19:06:35 | 【字体：小大】

　　罗浩的绿帽子老大了最近，美国加州大学伯克利分校（UC Berkeley）学术研究项目孵化出的创业公司LMArena，成为了估值17亿美元（约人民币120亿元）的独角兽。而它仅仅成立一年。

　　其凭借构建的全球最大规模的用户偏好大模型实时数据集，来满足市场对AI可靠性评估的迫切需求，而这也让LMArena在资本市场上获得高度认可。

　　然而，其商业模式的可靠性正面临争议。一个搞AI测评的初创公司，凭什么跃升成为独角兽？

　　LMArena脱胎于大型模型系统组织(Large Model Systems，LMSYS )。该组织起源于2023年，由加州大学伯克利分校、斯坦福大学、加州大学圣地亚哥分校、卡内基梅隆大学等多所大学合作发起。它于2024年9月注册为非营利性公司，旨在孵化早期开源和研究项目。

　　作为一个学术附属项目，Chatbot Arena拥有一个较为纯粹的初心：构建一个公开透明的评估平台，它能够真正地反映大型语言模型在现实世界中的应用情况。

　　大家都知道，我们日常使用的生成式人工智能所依托的大模型需要不断地被训练，而人们在使用过程中真实的使用体验和建议，可以最大程度地帮助大模型提升回答质量。“哪些人工智能模型对我来说最好用？” 作为用户，你也许也有这样的疑惑。

　　2023年5月，Chatbot Arena被正式推出。Chatbot Arena平台上会展示不同人工智能对同一问题的回答，每个用户都可以通过匿名的方式选择自己更喜欢的答案，对不同的人工智能模型进行投票。

　　Ion Stoica是UC伯克利大学的计算机系教授，同时领导着该校的天空计算实验室（（SkyLab)。他还是位连续创业者，先后参与创办了Anyscale、Databricks、Conviva Networks等公司。

　　Angelopoulos 对于可信赖的人工智能系统、黑箱决策和医疗机器学习方面的研究颇深，他曾在谷歌 DeepMind 担任学生研究员，并计划在Stoica 那里开始博士后研究，专注于在高风险环境下评估人工智能。

　　Chiang则同样是在 Stoica 领导的天空计算实验室研究分布式系统和深度学习框架，此前曾在谷歌研究、亚马逊和微软从事研究工作。

　　目前，LMArena已经吸引了数百万参与者，截至2025年4月，已记录超过300万次比较，评估了400多个模型，其中包括商业化的GPT-4、Gemini、Bard以及开放权重的Llama和Mistral模型，很大程度帮助了用户以及企业理解这些模型的能力和局限性。

　　通常而言，大模型是基于互联网上开放的可用数据进行训练的，而大多数大模型基准测试也都是静态的。如果模型通过“记忆”污染数据就能在基准测试上获得高分，那么大模型的研发团队可能会过度优化模型以拟合这些有缺陷的指标，而非提升其实用性和解决真实世界问题的能力。这就像学生为了应付考试而死记硬背，却忽略了真正理解知识。

　　所以，LMArena利用实时评估来缓解这个问题，通过持续不断地收到来自真实用户的新反馈来进行修正。这些反馈会被梳理成开放的排行榜和技术文章，为大模型的性能提供重要意见，指导LLM的改进和持续开发。此外，LMArena还与开源和商业模型供应商合作，将他们的最新模型投放到平台社区进行预测试，使得这些模型在正式发布前可以进行调整。

　　具体来看，其运作流程是通过用户在LMArena上操作，就像是在一个类似豆包、Chatgpt等生成式人工智能平台。用户可以提出问题，平台则通过大模型生成两个不同风格或者版本的答案，用户可以在答案下方的反馈区对更偏好的答案进行选择“左边更好”、“右边更好”、“平局”、“都不好”。

　　但是这样的一个平台，在人工智能领域似乎“技术含量”并不高。它靠什么一年内完成两轮融资跃升为估值17亿美元的独角兽？

　　在人工智能应用渗透进日常生活的时代里，如果说AI本身的运行性能决定了它能跑多快，那它生产出来的内容是否值得被信赖，则决定了它能走多远。

　　“这就是我们为什么投LMArena的理由”，位于硅谷的著名风险投资基金 a16z合伙人Anjney Midha说到。LMArena的两轮融资中都有a16z的身影。

　　在Anjney Midha看来，当模型变得足够可靠，无疑会给各行各业带来颠覆性的效果。比如医院可以信任大模型的诊断结果、法院也可以信任大模型的分析裁判结果。而目前政府机构也已经开始参与到可靠性的人工智能领域中来，受监管的行业也在试点部署。

　　所以，行业的需求信号已然很清晰——对于要运行重要领域内容的人工智能而言，中立客观的评估必不可少。

　　而这样的需求便是一个巨大的机会。如果大模型的“实战检验”未来可以成为人工智能领域的权威认证，那么LMArena目前已经构建的规模最大、基于人工智能输出的人类偏好实时数据集，则无疑将成为其在人工智能评估领域的先发优势。

　　而在去年5月份的种子轮融资中，该公司筹集了1亿美元，由a16z和UC Investments领投。

　　目前，市场上对大模型做测评的企业数量并不少。从测评榜单这种形式来看，AI大模型排行榜呈现出“各司其职”的多元格局，每家有自身的特色。

　　LMArena被誉为业内的“黄金标准”或“人气榜”，其核心在于利用用户参与这种众包形式，人类主观偏好明显。它采用匿名双盲测试，让用户在不知模型身份的情况下对话并投票，再通过类似国际象棋的Elo系统进行排名。这种方法最直接地反映了各个模型的综合用户体验和对话流畅度，但可能更偏爱回答风格“讨喜”的模型。

　　与之形成鲜明对比的是由学术界推动的LiveBench，其背后平台由图灵奖得主、Meta首席AI科学家杨立昆（Yann LeCun）联合Abacus.AI、纽约大学等机构共同推出的。Abacus.AI 是一家人工智能及机器学习研究商，它帮助LiveBench成长为一个每月更新的“防作弊系统”。其排名依据全部来自最新的数学竞赛、Kaggle数据集或arXiv论文，且有标准答案，旨在从根本上杜绝模型通过记忆旧数据“刷分”，专门检验模型在陌生问题上的真实推理和泛化能力，因此被视作衡量LLM模型“硬实力”的试金石。

　　此外， OpenRouter Rankings直接基于平台上的实际API调用量进行排名。OpenRouter的商业模式可以概括为“聚合调度+增值服务”。它本身不研发模型，而是作为一个中间层，整合了来自60多家供应商的400多个AI大模型（包括OpenAI、Google、Anthropic等主流厂商以及众多开源模型），然后通过统一的API向开发者提供服务，收取5%-5.5%的服务费。其发布的模型用量排行榜在开发者和投资圈内也备受关注。

　　除了这些美国企业开发运营的国际榜单，还有像OpenCompass（上海人工智能实验室2023年12月开源）、SuperCLUE这样的国内榜单，它们重点关注模型在中文理解、文化背景及符合国内法规方面的能力，为本土化应用提供了关键参考。但是这些榜单大多是由政府研究机构和高校和在线社区主导，相对而言，中国在对LLM大模型评测方面的商业化程度较为空白。

　　回到LMArena本身的运作模式来看，其测评内容的可靠性其实本身也有诸多争议。

　　美国的数据标注公司Surge AI质疑LMArena的运作，称其完全依赖于不受控制的志愿者在平台上进行的游戏化劳动——随机的互联网用户花两秒钟快速浏览一下，然后点击他们最喜欢的答案。而实际上，这些用户自身并没有任何动力去认真思考作答。没有质量控制下的大模型系统打分能做到准确有效吗？

　　比如，针对一个关于蛋糕模具的数学问题，LMArena生成了两个答案供用户选择。但最后，用户投票支持了一个数学上不正确的答案，因为这个答案看起来似乎“更合理”。

　　而LMArena的领导层也曾在公开场合谈到，他们采用了各种方法来克服用户输入数据质量低下的问题。他们承认，用户更喜欢大模型生成的带有表情符号和冗长的内容，而不是实质性高质量的内容。所以这种测评模式很可能无法真正筛选出能生产高质答案的大模型。

　　LMArena此轮融资虽猛，但是当潮水褪去，是否能留在牌桌上，还有待时间观察。

商业智能录入：admin 责任编辑：admin
	上一个商业智能： 2026年GEO服务商深度数据报告：聚焦自研核心模型与确定性价值的五家企业调研分析下一个商业智能：没有了

　栏目文章

给大模型排名次两个博士一年干出120亿独角兽却… (01-11)	2026年GEO服务商深度数据报告：聚焦自研核心模… (01-11)
2026最新国内智能分析工具五大品牌推荐！Chat… (01-10)	2026最新AI数据分析企业top5推荐榜！优质平台… (01-10)
2026大学生考证全攻略：大学期间含金量最高的… (01-10)	别卷英美了！港理工数据科学分析硕士：低门槛… (01-09)
成都新盘【保利新川天珺】售楼处首页热线(已认… (01-09)	成都新房【蔚蓝湖滨中心】售楼处首页认证热线… (01-09)
2026年企业BI部署方案商深度解析：企业智能BI… (01-08)	2026年企业智能BI私有化部署厂商选型指南：本… (01-08)
2025年12月十大智能BI平台热门推荐AI融合+专利… (01-08)	现代化产业体系基本特征与发展方向 (01-07)
华映资本领投又一清华系具身智能企业「灵御智… (01-07)	赋能商业新生态：商业街数字化解决方案全解析 (01-07)
2026年超级赛道之商业航天：大级别的行情还没… (01-06)	2026年AI优化推荐：基于多品牌技术实力与用户… (01-06)
2026年零基础小白翻身必看：无经验可考的高含… (01-06)	国防军工行业深度报告：太空算力有望推动商业… (01-05)
大能源行业2025年第53周周报：蓝箭航天冲击国… (01-05)	产业观察：中国商业航天蓄势待发！ (01-05)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	智能制造网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！