黄萱菁：迈向大规模语言模型我们从未与通用人工智能如此接近

返回首页　

设为首页　

加入收藏　

今天是:

网站首页人工智能商业智能智能家居智能手表智能手机智能通信智能电视智能汽车智能机器人

黄萱菁：迈向大规模语言模型…
舒朗电子商务智能仓储项目年…
人工智能如何赋能百业推动商…
人工智能在未来商业智能中的…
上海方舱：智能服务机器人实…
一周理事汇第二届智能机器人…
人工智能物联网包括哪些方面
「智能解决方案」物联网板块…
第四弹物联网专业介绍
物联网工程专业都学习哪些内…
物联网智能化包括哪些方面
实惠耐用最放心电视大盘点
大气耐用廉价适合父母的电视…
2022百元电视性价比排行榜盘…
介绍九款比较好用的电视机第…
【中企品牌网】这些品牌的智…
2022智能手表推荐攻略附华为…
爱运动不盲跑长续航的专业运…
续航给力、功能够用：咕咚智…
可测心率随时掌握健康状态还…
聚焦2022国际绿色零碳节候选…
印度再现手机厂商利润“收割…
手机利润排行遭iPhone屠榜前…
真的跪了：手机利润排名三星…
2021年Q4全球智能手机收益份…
手机品牌利润排名出炉：苹果…
实至名归爱智贞智能家居摘得…
迈点携“中国大住宿业供应链…
香格里拉携手欧瑞博打造首个…
智能酒店_智能客房控制系统应…
企业｜只动口不动手！泛联科…
电动汽车排名前十2022新排行…
新能源汽车前十名品牌国内纯…
新能源汽车前十名品牌中极星…
新能源电动汽车排名前十
新能源汽车前十名品牌盘点
人工智能的智能语音机器人给…
智能机器人时代到来到哪里找…
【先锋动态】科普动起来人工…
智能机器人新新佛山人
哈尔滨平房区智能机器人课程…
关于人工智能语音技术的真正…
这款高颜值的智能语音机器人…
200元左右最值得买的几款智能…
全球13的消费者计划购买AI语…
沃丰科技在线语音机器人多少…
恒实科技：恒实可视化大数据…
“数说70年”数据新闻可视化…
一体化、标准化、可视化数据…
别样的报表软件-AutoBI带给您…

专题栏目

您现在的位置：智能制造网 >> 人工智能 >> 正文

高级搜索

黄萱菁：迈向大规模语言模型我们从未与通用人工智能如此接近

作者：佚名文章来源：本站原创点击数：更新时间：2023/3/15 21:40:22 | 【字体：小大】

　　徐永钦很牛叉3我们从未觉得自己与通用人工智能如此接近，这是我做人工智能这么多年以来最兴奋的一个时期。

　　非常高兴来到复旦管院和在座各位青年科创精英、管理精英共同探讨先进的科学技术和管理理念，这是我感到非常荣幸的一件事情，尤其是在妇女节这一周，作为从事人工智能的女性，感到既快乐，又感到身上的担子非常重。

　　我报告的题目是“迈向大规模语言模型”。我会花一些精力跟大家讲讲什么是大规模语言模型，托ChatGPT的福，这个概念已经深入人心。

　　首先是语法。我们无论学习汉语还是英语等语言，都是从语法开始学起，但是光有语法，我们依然很难捕捉客观世界纷繁复杂的语言现象，因为语言并不会严格按照语法去表达。这个时候，我们就需要使用到数学“武器”——概率，在各种语言现象中间去寻找规律。举个例子，比如“The cat sat on the mat”和“The cat sad on the mat”，假设语音识别任务需要根据读音判断是“sat”还是“sad”，如果通过对句子进行概率分析，我们就能知道什么是正确的识别结果。这个概率模型就称为语言模型。

　　语言模型有一个问题：概率模型是有窗口的，当你的窗口越来越大，你所需要的计算量开销就更大。由于句子在诸多情景下可能包含巨大的词汇量，导致传统概率语言模型所需的计算资源爆炸式增长。所谓大规模语言模型就是含有巨量参数，能够接受很长一段时间窗口的语言文字。

　　2017年出现了一个模型叫做Transformer，这是现在预训练模型的基石，也是大规模语言模型的基石。传统的预训练模型有两种思路，一种是以BERT为例的理解式模型，另一种是以ChatGPT的前身GPT为代表的产生式模型。当然也有一些工作尝试把理解式模型和产生式模型结合起来。曾经很长一段时间，理解式的模型被使用得比较多，而产生式模型则需要更高的算力和更长的窗口，一直到有了GPT-3之后，大家才知道它如此之强悍。现在的ChatGPT，还拥有了很强的理解人类上下文的能力。

　　我们生活在一个飞速变化的时代，几乎每个星期都有新的模型发布，预训练+微调的方式是前ChatGPT时代的范式，诸如Google、Open AI这样的大厂商将自身开发的大模型开源，供下游应用者在这些模型上进行参数的微调，以取得优异的表现。举个例子：电影影评有正面和负面的，我们要进行分类，仅仅用原来的GPT和BERT效果是不够的，需要人工标注一批任务相关的数据，对模型进行微调。过去大概三年的时间，这种预训练+微调的范式就是自然语言处理的主要范式。

　　预训练+微调范式带来了自然语言处理的新时代，对上游和下游都带来深远影响。上游是厂商制造出来越来越强大的模型，模型的参数规模以指数的规模增长；下游则是将预训练的大模型合理应用到各种任务上。过去两年有一个非常时髦的概念叫做“小样本学习”或者“少样本学习”，刚才我们说过，如果要完成某一个任务，可能需要人工标注大量的数据，但在少样本场景之下，只需要一两条数据，大规模语言模型就能够给出相当不错的性能。

　　不过，当语言模型变得更大的时候，一方面，厂商出于商业原因逐渐舍弃开源，OPen AI没有开放过GPT3模型，只开放API接口，你可以调用，但是拿不到内部细节，今年新出来的ChatGPT连论文都没发表，只能靠大家去猜测；另一方面，用户也缺乏足够的计算资源使用大模型，所以我们非常期待国产芯片，能够让我们拥有更多的算力去运行大规模语言模型。

　　这样的情况之下，我们有了一个新的范式，就是要利用大规模语言模型的涌现能力。所谓的涌现能力是什么？当模型的参数规模还不太大的时候，你看不到它的强大，当达到某一个临界值时，这个模型就会非常强大，目前我们认为这个参数规模的临界值可能是650亿。

　　早期的GPT-3还不太理解用户的需求，但最近不论是ChatGPT还是我们实验室开发的MOSS，都拥有了比较强的写代码能力。

　　我们发现代码是非常好的数据，因为代码有逻辑性，是结构化的，还带有注释和文档，我们可以进行语义方面的对齐。至于什么数据是最好的数据，我认为纸制的媒体、书、报纸是最好的，大家看ChatGPT说的话，是很漂亮很流畅的语言文字，如果我们用论坛、微博等平台上的文字训练它，它说的内容可能就不是那么优美了，这一点很有趣。

　　GPT-3发布于2020年，只公开了API，人们只能通过接口使用，并授权了很多公司在上面开发小业务。通过这个过程，它搜集了大量的用户行为，知道哪些需求是用户感兴趣的，哪些任务是用户关心的，基于人类的反馈，来训练语言模型，了解人类的价值观。

　　训练大模型的开销非常之大，需要大量的算力，中小公司会感到负担很重，根本无法简单地进行这样的语言模型训练。于是我们可以尝试把语言模型做成一个服务，你跟它进行交流，它给你反馈结果。我们还可以通过无梯度优化的方法写出更加高质量的提示或者指令，让它更大程度展现它的能力。

　　在语言模型服务方面，我们从两个方面开展工作，首先我们要去开发模型基座，在过去几年，我们开发了亿级规模、十亿规模到百亿规模的参数，目前跟GPT-3相比，我们大概差一个数量级。此外，我们还研究怎样利用语言模型的能力对它进行调优，让它实现各种各样的任务。

　　接着我们来看一下自然语言处理的七种范式：分类、匹配、序列标注、机器阅读理解、Seq2Seq、Seq2ASeq（序列到动作序列）和掩码语言模型范式。这些也是这几年自然语言处理的范式迁移。

　　ChatGPT最强大的能力就是它的多用户的能力，它能够处理各种各样的任务，你不需要事先教它，它就已经掌握了。实际上ChatGPT已经通过与人类的交流，比如通过标注了一万多条用户数据，人工写了很多很好的高质量答案，它再用这些答案训练，知道了人类的需求。

　　现在我们有许许多多的公司，每个公司做一件任务，并把这个任务做到极致，就能够占领一个细分领域。未来自然语言处理将与现在不同。“七种武器”的时代，我们有各种各样的范式，分类范式、匹配范式、序列到序列、语言模型的范式，一个模型就可以打天下。

　　我们来看一下统一的模型基座。统一模型基座，即可以用一种武器、一个方法统一所有的任务，这是我们在2021年的工作，这个工作早于ChatGPT的出现。但是我们没有做几千种任务，我们做了两类任务。第一类任务是情感分析，有七个小类。我们提出用生成式的框架，通过把一个任务转为语言模型能生成的输出形式，这样的话我们只要少量的任务数据就可以训练出一个语言模型。我们这个模型用的基座是BART，如果我们用了更强悍的基座，可以把需要的样例减到更少。

　　BERT针对的是自然语言的理解，GPT是自然语言的生成。既然构造大模型的初衷是为了合众归一，那么能不能将它们汇总到一起？我们在2021年提出一个新的语言模型叫做CPT，将理解任务和生成任务合并到一起。CPT是一个非对称的Transformer模型结构。该结构由一个Encoder（任务间共用）和两个Decoder（一个面向理解，一个面向生成）组成，既具备理解的能力又具备生成的能力。

　　我们从去年年底开始训练MOSS，是在CPT的基础之上训的，我们给它用了更多的算力和数据，训练了两个月，然后出来了目前这样一个版本。

　　■ 第一个思路叫做Text prompt（文本提示），通过人工设计一些基于文本的指令，激活大模型面向特定下游任务的能力。但是手工设计偏向于特征工程问题，需要工程师依据既往经验不断调试，十分耗费精力。

　　■ 第二个思路是In-context learning（情景学习），在GPT模型上展现了良好的表现，这种手段开辟了一个极具前景的方向，值得学界和工业界继续共同研究。

　　■ 第三个思路是Data generation（数据生成），不同于直接使用大模型，这种手段是使用大模型生成一定量的数据，再利用生成的数据训练一个小体量的模型，以追求在小样本场景下的应用效果。

　　■ 第四个思路是Feature-based-learning（特征学习），把预训练模型的输出作为一种Feature，并结合标签，输入给一些特定的模型，使参数由标签空间向特征空间靠拢，极大地减轻了端侧优化的负担。

　　我们提出标签调优方法，这属于特征学习范畴。这个标签调优的想法是这样的，我们在做机器学习的时候一般是先有一个特征空间，比如说情感分析：褒义词和贬义词，分词则可以用上姓氏、称谓等等特征。以前的做法就是在标签空间去做微调，但是我们发现还可以反而求之，冻结参数，然后让标签向参数空间去调整，将来就可以用统一生成式的框架解决问题，比如分类时，可以直接让它生成类别的标签。

　　还有就是Black-box optimization（黑箱优化），让用户根据推理API的返回结果，使用基于搜索的无梯度优化方法自己优化指令。

　　并不是所有的人、所有的公司、所有的学校都可以去训练ChatGPT这样的模型。

　　用户怎么样能够让ChatGPT等大模型返回更加符合我们个性化需求的结果？我们想了一个很巧妙的方法，在用户指令上面加一段，比如说实数的向量表示，把它送到大模型ChatGPT，返回一个结果，可以计算出来现在这个模型是不是能够满足我们的需求，然后我们可以去调整指示。因为我们增加的一小段向量可以修改，经过修改让它做一些自适应的调整，得到更好的结果。

　　接下来简单看一下我们对ChatGPT做的一些分析。我们对它已经有一些很直觉的认识，比如能够写作文，能够写案件的判决，能够写发言稿。它的能力边界在哪里？

　　首先是我们所说的情景学习，给它加例子，它会返回跟例子相似的答案。ChatGPT用了很多代码进行训练，如果大家在跟它交流的时候，让它做数学题，而不是直接给例子，直接把这个过程用数学公式写出来，或者用程序代码编出来，它就会做得非常好。

　　ChatGPT还有一个跟人类反馈对齐的过程。它找了很多专家，对一万多个问题写了很多答案，用这样的任务数据提升它的模型性能；然后强化学习，用它的模型随机生成若干个答案，让许多人标注，从而学习人类的价值取向，再用这个价值取向修改模型，用新的模型重新再去提升它的性能，最后和人类需求越来越对齐。

　　ChatGPT曾经参加谷歌的招聘面试，拿到L3级入门工程师的offer。除了写代码，我们也让ChatGPT做做中国的高考题。

　　2022年高考历史全国甲卷的第一题，需要分析给定文本“天下太和，百姓无事”最接近的政治理念。ChatGPT分析认为根据题干信息，这一思想最接近老子“无为而治”的道家思想，因此选B，给出的答案也是正确的。我们在客观题上对ChatGPT进行了测试，ChatGPT的水平基本相当于500分左右的高考生。我们发现ChatGPT更擅长文科，在历史、地理、政治上取得了不错的成绩，而生物、化学、物理等理科学科上表现不佳，尤其在物理上。

　　我们实验室3月2号发了一个针对ChatGPT的测试报告。我们对ChatGPT各种各样的模型基座进行了几十万次测试，我们自动写了很多命令，挑出来比较好的指令。如果指令写得不好的话，它的性能就没有那么高，但是我们总要把它最强大的性能抽出来，这就需要好的指令。

　　任务之一是机器阅读理解。我们发现，在阅读理解任务上，ChatGPT已经比现在最好的方法都强，尤其它可以不需要例子，而过去要花很多时间来调优。我跟实验室的同事们说，以后我们就不做阅读理解的任务了，因为你做不到ChatGPT的水平，就没有什么价值了。

　　而关系提取任务，要从一篇文章中间提取出来实体，比如说“比尔盖茨创办了微软”，ChatGPT的提取性能还不太好。

　　以后我们应该怎么样跟ChatGPT错位竞争？它做得好的事情可能就不再是我们的重点，它做得不好的，我们还可以进一步改进。

　　我们发现，ChatGPT的强大性能都是在现有的机器学习框架下可以解释的，并没有一些很玄的东西。我相信除了OpenAI，会有很多机构，包括大学和企业在类ChatGPT模型方面会有大的突破。

　　我们把ChatGPT这些认为是人工智能的基座，就像大脑一样，当你给它加输入，它可以读，给它加输出，它可以说，我们甚至可以给它加上手机、机器人，让它具有各种硬件外围。

　　我们从未觉得自己与通用人工智能如此接近，这是我做人工智能这么多年以来最兴奋的一个时期。我以前一直觉得它在我可以预见的将来是看不到的，但是现在我觉得可能不是那么遥远了。

　　在肉眼可见的未来，善用AI的人将和不用AI的人在工作效率上会产生巨大差距，因此我鼓励大家多去使用和熟悉，与AI进行沟通。在未来一段时间内，ChatGPT还不足以完全替代某一个岗位，但将大大促进各个领域的生产效率。我们希望AI是帮助人类的工具，而不是取代人类的机器。

　　最后以微软CEO萨提亚·纳德拉（Satya Nadella）接受媒体采访时的一个观点作为结尾：内燃机带来了廉价的动力，互联网技术减少了信息传递的成本，而ChatGPT会让信息的整合、转译、流通变得更加廉价。

　　原标题：《黄萱菁：迈向大规模语言模型，“我们从未与通用人工智能如此接近”》

人工智能录入：admin 责任编辑：admin
	上一个人工智能：关于人工智能语音技术的真正用途你知道多少下一个人工智能：没有了

　栏目文章

黄萱菁：迈向大规模语言模型我们从未与通用人… (03-15)	关于人工智能语音技术的真正用途你知道多少 (03-15)
这款高颜值的智能语音机器人可以入手试试！ (03-15)	200元左右最值得买的几款智能语音电视盒子！ (03-15)
全球13的消费者计划购买AI语音助手新兴国家需… (03-15)	沃丰科技在线语音机器人多少钱怎么选择 (03-15)
人工智能行业发展前景 (03-15)	超越人工智能？“类器官智能”时代或将到来 (03-15)
人工智能再迎密集催化人工智能技术应用行业深… (03-15)	2021年人工智能场景应用的发展现状及前景 (03-15)
资本市场丨人工智能应用的市场潜力显现商业变… (03-15)	AI驱动型免费WhatsApp虚拟助手问世 (03-14)
免费AI绘图软件有哪些-感兴趣的赶紧来体验 (03-14)	会画app_会画AI二次元画室app软件官方版（暂未… (03-14)
业界良心 OpenAI免费公开判断是否AI生成文本的… (03-14)	这款App连夜下架！吴京甄子丹等也在玩 (03-14)
沃丰科技AI研究｜AI语音助手的五大进阶趋势 (03-14)	菜鸟推出人工智能产品“菜鸟语音助手” (03-14)
AI语音助手 (03-14)	语音助手 (03-14)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	智能制造网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！