商汤大模型“商量”多个评测表现超ChatGPT用户可申请试用

返回首页　

设为首页　

加入收藏　

今天是:

网站首页人工智能商业智能智能家居智能手表智能手机智能通信智能电视智能汽车智能机器人

商汤大模型“商量”多个评测…
写在AWE 2023前夕：华为全屋…
智能家居行业开往春天的地铁…
2023年智能家居实体门店如何…
智能家居营销策略如何做到让…
欧瑞博科技美学引领行业进入…
星际互动政务办事大厅智能管…
京东方A：公司已为荣耀、viv…
索尼智能手机图像传感器品牌…
5G发牌四周年5G手机发生了哪…
苹果发布会今晚就举办爆料一…
十大粉底液品牌排行粉底液品…
复刻表在哪里买？推荐这三个…
十大品牌手表沛纳海别致格调…
公布了！瓦格纳腕表入选《瑞…
十大奢侈手表品牌沛纳海相沛…
资本赋能产业发展！麓谷资本…
在未来微波通信能完全代替光…
MWC 23关键词（一）｜5G、55…
奖金超百万元！首届广州粤港…
星网计划渐明卫星通信产业有…
5G能给未来的电视带来什么？
白玉兰论坛｜5G能给电视的世…
白玉兰对话”论坛“聚焦“未…
湖南广电局答“整治智能电视…
华策集团携《战争和人》《我…
百融云创一季报业绩亮眼 “A…
水滴公司公布2023年Q1业绩：…
早期项目｜支持插件的大模型…
火火兔智能语音对话机器人
千亿资金加持AI新模式高速“…
自动驾驶演进不只是技术问题…
支持L3级及更高级别的自动驾…
华为狂喜！工信部支持L3自动…
新能源汽车城崛起记⑦：广州…
“L3+”自动驾驶、高安全全气…
联想：聚焦以“商用为本”创…
陆奇最新演讲：没有学习能力…
AI人工智是什么范围包含哪些…
人工智能的六点原则
AI升级版无间道
经验分享]：浙江移动践行[枫…
九卦实操案例来了！银行在数…
美林数据政务热线数字陕西最…
天然大数据公司的挖掘价值的…
大数据：“挖”出你要的生活
2022办公家具市场现状及前景…
办公家具经销商困境和突破机…
美高实业：浅谈中美办公家具…
办公家具市场进入品牌大战时…

专题栏目

您现在的位置：智能制造网 >> 商业智能 >> 正文

高级搜索

商汤大模型“商量”多个评测表现超ChatGPT用户可申请试用

作者：佚名文章来源：本站原创点击数：更新时间：2023/6/25 8:22:11 | 【字体：小大】

　　紫条丽华商汤科技近日公布的自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示，“商量”在这三个测试集中的表现均领先ChatGPT，实现了我国语言大模型研究的突破。

　　目前，已有近千家企业客户通过申请，应用和体验“商量SenseChat 2.0”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力，并且“商量SenseChat 2.0”还在服务客户过程中，持续实现着快速迭代和提升，以及知识的实时更新。

　　商汤科技公布的评测结果中，选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval，结果显示“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT，部分已十分接近GPT4的水平。

　　l 微软研究院推出的学科考试评测集AGIEval（含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等）；

　　l 由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval；

　　MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准，涵盖了科学、技术、工程、数据，人文、社会科学等领域的57个科目，难度从初级水平到高级专业水平，考验世界知识和解决问题的能力。

　　在该评测中，“商量SenseChat 2.0”综合得分为68.6，远超GLM-130B（45.7分）的得分，同时还超过了ChatGPT（67.3分）、LLaMA-65B（63.5分）仅落后GPT-4（86.4分），位居第二。在各主要子评测集中的表现如下：

　　AGIEval是由微软研究院发布的，专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力，从而实现模型智能和人类智能的对比。该基准选取20 种面向普通人类考生的官方、公开、高标准往常和资格考试，包括普通大学入学考试（中国高考和美国SAT 考试）、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。

　　C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集，包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。

　　面对C-Eval评测基准，“商量SenseChat 2.0”拿到了66.1的分数，在参评的18个大模型中，仅次于GPT-4（68.7分），全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等一众海内外大模型。其中，C-Eval（Hard）子评测集，是选择了8个具有挑战性的数据、物理和化学科目，进一步考核大语言模型的推理能力，“商量SenseChat 2.0”也表现居于前列。

　　今年4月，商汤正式发布“商汤日日新SenseNova”大模型体系，以及自研中文语言大模型“商量SenseChat”。截至6月，全球范围内正式发布的大语言模型已超过40款，其中由中国厂商、高校、科研院所等发布的大语言模型近20款。

　　在“百花齐放”的市场格局中，通过对比成绩与表现，我们可以了解各大预言模型的特点与差异，并且直观地了解每个大语言模型当前的智能水平。目前“商量SenseChat 2.0”实现了对GPT-3.5超越，并且随着商业化落地的推进，在众多行业、场景中发挥令人满意的作用。

　　例如在需要大量文案工作的场景中，“商量SenseChat 2.0”可以协助处理各类文章、报告、信函、产品信息、IT信息等，进行编辑、重写、总结、分类、提取信息、制作Q&A等，有效提高企业员工的生产效率。在客户服务场景中，“商量SenseChat 2.0”还可以扮演许多不同的企业角色，如银行客服、给孩子讲故事的绘本老师等等，并进行顺畅的交流和互动，提升客户体验。

　　此外，“商量SenseChat 2.0”还拥有广泛的知识储备，能够结合企业自身所在行业的专有数据，非常高效地打造满足企业需要的高阶知识库，帮助实现更智能化的知识库管理。“商量SenseChat 2.0”还是高水平的AI代码助手，能够极大帮助提高开发效率，实现新的二八定律，即80%的代码由AI生成，20%则由人工生成。

　　商汤大语言模型能力的提升源于更多高质量中文数据的训练学习，得益于团队在底层大模型技术上的不断创新。商汤团队在训练阶段采用自研的一系列增强复杂推理能力的方法，以及更加有效的反馈学习机制，让大模型增强推理能力的同时，减轻了传统大模型的幻觉问题。

商业智能录入：admin 责任编辑：admin
	上一个商业智能：经验分享]：浙江移动践行[枫桥经验]助力基层治理下一个商业智能：没有了

　栏目文章

商汤大模型“商量”多个评测表现超ChatGPT用户… (06-25)	经验分享]：浙江移动践行[枫桥经验]助力基层治… (06-24)
九卦实操案例来了！银行在数字化第二发展曲线… (06-24)	美林数据政务热线数字陕西最佳实践案例 (06-24)
天然大数据公司的挖掘价值的典型案例 (06-24)	大数据：“挖”出你要的生活 (06-24)
如何处理数据看板类需求 (06-24)	端午小长假高速不免费舟山跨海大桥单日最高流… (06-24)
文博会北京展区：卫星数据可视化天空之上看首… (06-24)	端午高速通行不免费上高速先关注路况 (06-24)
套路集锦：新冠疫情可视化 (06-24)	人工智能之父是谁？ (06-23)
人工智能“大咖”LSTM之父Schmidhuber：人工智… (06-23)	AI威胁论：先过狗关再赛人智 (06-23)
【史海回眸】人工智能之父是二战大功臣 (06-23)	人工智能之父：AI终将超越人类但我们没理由害… (06-23)
BI 商业智能和报表傻傻分不清楚？一文给你讲透 (06-23)	九大商业智能分析平台 (06-23)
“会计数字化转型的中国经验”主题论坛顺利举… (06-23)	2023年影响中国会计行业的十大信息技术评选结… (06-23)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	智能制造网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！