返回首页  设为首页  加入收藏  今天是:
网站首页人工智能商业智能智能家居智能手表智能手机智能通信智能电视智能汽车智能机器人
相关文章
 支持20万字输入Moonshot AI开…
 深圳国际人工智能展10月12日…
 什么是人工智能(AI)?一文…
 vivo和百度CarLife+跨界合作…
 虹软科技获74家机构调研:公…
 再谈“人工智障”:你看到的…
 数据创造价值海平面科技如何…
 工业级高精度车载监控终端让…
 中国移动宣布启动“云算领航…
 长城汽车与河北人工智能计算…
 拓维信息:公司控股子公司湘…
 从出行工具到智慧伙伴咖啡智…
 联想刘军出席中国算力大会发…
 城中村人物志丨一室一厅的出…
 亚马逊云科技助力涂鸦智能出…
 国美零售牵手科大讯飞 构建未…
 家庭智能化种菜系统抢眼津洽…
 霍尼韦尔推出单户家庭使用的…
 智能手机为何变成?安全手机…
 国家安全部:智能手机避免带…
 外媒盛赞华为5G新机:中国智…
 携手intel打造 准确率998%以…
 合肥越来越多老人看不上“老…
 十款高人气的智能手表排行榜…
 TOP电话手表推荐:高中生初中…
 2023智能手表推荐智能手表排…
 2023「值得买」小米智能手表…
 智能手表前十名榜单推荐dido…
 LOL盒子玩家大面积遭封!玩家…
 这项非遗文化在社区里扎根
 润建股份AI创新成果亮相中国…
 安卓哪个手游平台好2023 最新…
 三年还十五万买房安家|盒子…
 合资品牌能否改变在新能源领…
 无人驾驶汽车的安全挑战及其…
 抢占智能网联汽车新赛道 重庆…
 国内车联网领域头部企业大盘…
 手电筒品牌排行榜 电筒品牌排…
 2023咖啡加盟店10大品牌排行…
 库迪等加盟品牌闭店、转让增…
 想开一家邮局咖啡店?来GFE广…
 海伦司全面开放加盟:强调低…
 特斯拉Optimus人形机器人再进…
 香艳迷乱的神秘派对是欲望的…
 伟景智能:人形机器人赛道中…
 专注立体视觉垂直赛道伟景智…
 失去独子多年后他给机器人穿…
 普渡科技与软银机器人达成战…
 智能车载摄像头是智能守卫还…
 宏英智能(001266)盘中异动…
专题栏目
网络
您现在的位置: 智能制造网 >> 人工智能 >> 正文
高级搜索
支持20万字输入Moonshot AI开启千亿大模型的“长文本”时代
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/10/17 1:06:37 | 【字体:

  65岁奶奶怀孕 真相让人咋舌2023年10月9日,成立仅半年的大模型初创公司 Moonshot AI宣布在“长文本”领域实现了突破,这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度,标志着Moonshot AI在这一重要技术上取得了世界领先水平。

  从技术上看,参数量决定了大模型支持多复杂的“计算”,而能够接收多少文本输入(即长文本技术)则决定了大模型有多大的“内存”,两者共同决定模型的应用效果。支持更长的上下文意味着大模型拥有更大的“内存”,从而使得大模型的应用更加深入和广泛:比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等,都可以在超长文本技术的加持下,成为我们工作和生活的一部分。

  相比当前市面上以英文为基础训练的大模型服务,Kimi Chat具备较强的多语言能力。例如,Kimi Chat在中文上具备显著优势,实际使用效果能够支持约20万汉字的上下文,2.5倍于Anthropic公司的Claude-100k(实测约8万字),8倍于OpenAI公司的GPT-4-32k(实测约2.5万字)。同时,Kimi Chat通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,不依赖于滑动窗口、降采样、小模型等对性能损害较大的“捷径”方案。

  目前大火的虚拟角色场景中,由于长文本能力不足,虚拟角色会轻易忘记重要信息,例如在Character AI的社区中用户经常抱怨“因为角色在多轮对话后忘记了自己的身份,所以不得不重新开启新的对话”。

  对于大模型开发者来说,输入prompt长度的限制约束了大模型应用的场景和能力的发挥,比如基于大模型开发剧本杀类游戏时,往往需要将数万字甚至超过十万字的剧情设定以及游戏规则作为prompt加入应用,如果模型输入长度不够,则只能削减规则和设定,从而无法达到预期游戏效果。

  在另一个大模型应用的主要方向Agent中,由于Agent运行需要自动进行多轮规划和决策,且每次行动都需要参考历史记忆信息才能完成,这会带来了模型输入的快速增加,同时也意味着不能处理更长上下文的模型将因为无法全面准确的基于历史信息进行新的规划和决策从而降低Agent运行成功的概率。

  在使用大模型作为工作助理完成任务的过程中,几乎每个深度用户都遇到过输入长度超出限制的情况。尤其是律师、分析师、咨询师等职业的用户,由于常常需要分析处理较长的文本内容,使用大模型时受挫的情况发生频率极高。

  那么拥有超长上下文输入后的大模型会有怎样的表现?下面是一些Kimi Chat实际使用的例子:

  输入整本《月亮与六便士》,让Kimi Chat和你一起阅读,帮助你更好的理解和运用书本中的知识:

  通过上述例子,我们可以看到,当模型可以处理的上下文变得更长后,大模型的能力能够覆盖到更多使用场景,真正在人们的工作、生活、学习中发挥作用,而且由于可以直接基于全文理解进行问答和信息处理,大模型生成的“幻觉”问题也可以得到很大程度的解决。

  长文本技术的开发,存在一些对效果损害很大的“捷径”,主要包含以下几个方面:

  “金鱼”模型,特点是容易“健忘”。通过滑动窗口等方式主动抛弃上文,只保留对最新输入的注意力机制。模型无法对全文进行完整理解,无法处理跨文档的比较和长文本的综合理解(例如,无法从一篇10万字的用户访谈录音转写中提取最有价值的10个观点)。

  “蜜蜂”模型,特点是只关注局部,忽略整体。通过对上下文的降采样或者RAG(检索增强的生成),只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解(例如,无法从50个简历中对候选人的画像进行归纳和总结)。

  “蝌蚪”模型,特点是模型能力尚未发育完整。通过减少参数量(例如减少到百亿参数)来提升上下文长度,这种方法会降低模型本身的能力,虽然能支持更长上下文,但是大量任务无法胜任。

  简单的捷径无法达到理想的产品化效果。为了真正做出可用、好用的产品,就不能走虚假的捷径,而应直面挑战。

  训练层面,想训练得到一个支持足够长上下文能力的模型,不可避免地要面对如下困难:

  如何让模型能在几十万的上下文窗口中,准确的 Attend 到所需要的内容,不降低其原有的基础能力?已有的类似滑动窗口和长度外推等技术对模型性能的损害比较大,在很多场景下无法实现真正的上下文。

  在千亿参数级别训练长上下文模型,带来了更高的算力需求和极严重的显存压力,传统的 3D 并行方案已经难以无法满足训练需求。

  推理层面,在获得了支持超长上下文的模型后,如何让模型能服务众多用户,同样要面临艰巨挑战:

  Transformer模型中自注意力机制(Self Attention)的计算量会随着上下文长度的增加呈平方级增长,比如上下文增加32倍时,计算量实际会增长1000倍,这意味着如果只是用朴素的方式实现,用户需要等待极其长的时间才能获得反馈。

  超长上下文导致显存需求进一步增长:以 1750 亿参数的 GPT-3为例,目前最高单机配置( 80 GiB * 8 )最多只能支持 64k 上下文长度的推理,超长文本对显存的要求可见一斑。

  极大的显存带宽压力:英伟达A800 或 H800的显存带宽高达 2-3 TiB/s,但面对如此长的上下文,朴素方法的生成速度只能达到 2~5 tokens/s,使用的体验极其卡顿。

  Moonshot AI的技术团队进行了极致的算法和工程优化,克服上述困难完成了大内存模型的产品化,发布了支持20万字输入的千亿参数LLM产品。

  Moonshot AI创始人杨植麟此前在接受采访时曾表示,无论是文字、语音还是视频,对海量数据的无损压缩可以实现高程度的智能。

  无损压缩的进展曾极度依赖「参数为王」模式,该模式下压缩比直接与参数量相关,这极大增加了模型的训练成本和应用门槛,而Moonshot AI认为:大模型的能力上限(即无损压缩比)是由单步能力和执行的步骤数共同决定的。单步能力与参数量正相关,而执行步骤数即上下文长度。

  Moonshot AI相信,更长的上下文长度可以为大模型应用带来全新的篇章,促使大模型从 LLM时代进入Long LLM (LLLM)时代:

  每个人都可以拥有一个具备终身记忆的虚拟伴侣,它可以在生命的长河中记住与你交互的所有细节,建立长期的情感连接。

  每个人都可以拥有一个在工作环境与你共生(co-inhabit)的助手,它知晓公域( 互联网)和私域(企业内部文档)的所有知识,并基于此帮助你完成OKR。

  每个人都可以拥有一个无所不知的学习向导,不仅能够准确的给你提供知识,更能够引导你跨越学科间的壁垒,更加自由的探索与创新。

  当然,更长的上下文长度只是Moonshot AI在下一代大模型技术上迈出的第一步。Moonshot AI计划凭借该领域的领先技术,加速大模型技术的创新和应用落地。

  Monolith砺思资本专注于新一代数字产业和科技智造领域的投资,是Moonshot AI第一轮融资的3家投资机构之一,并一直以实际行动支持着公司发展。砺思资本创始合伙人曹曦表示,杨植麟是全球大模型领域里最被认可的华人技术专家,其团队在人工智能技术,特别是大语言模型LLM领域拥有深厚的技术积累,并已在国际上获得了广泛认可。眼下,美国硅谷的OpenAI和Anthropic等公司获得了多方关注,实际上在国内,拥有足够多技术储备的Moonshot AI也正成长为全球领先的AGI初创公司。多模态大模型是各家AI厂商竞争的关键领域,其中长文本输入技术更是其核心技术之一,Moonshot AI团队最新发布的大模型和Kimi Chat在这方面实现了重要突破,并已成功应用于多个实际场景。砺思将继续加码并支持Moonshot AI团队在AGI领域大胆创新和技术突破,引领中国人工智能技术的未来发展。

  真格基金合伙人戴雨森对公司的发展表达了肯定和期许:“我们认为近期AI应用的爆火只是一场革命的序幕,AI技术要想真正改变世界创造巨大价值,在智能程度上还需要大的突破,这需要具备顶级技术能力的团队,以坚持追寻Moonshot的勇气,持续挑战智能提升的边界。杨植麟作为XLNet等多项知名科研工作的第一作者,具备非常丰富的科研和实践经验,多年来他一直坚信通过大模型实现对高维数据的压缩是人工智能发展的必经之路,也团结了一支人才密度超高,配合默契,又充满挑战巨头摇滚精神的创业团队。真格基金非常荣幸能够再次从天使轮开始支持杨植麟的新征程。”

  (免责声明:此文内容为本网站刊发或转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。)

  “开拓造福各国、惠及世界的‘幸福路’”——习谋划推动共建“一带一路”纪实

  习在中共中央政治局第八次集体学习时强调 积极参与世界贸易组织改革 提高驾驭高水平对外开放能力

  有意与本刊合作者,有关合作事宜请与财经网联系。未经财经网书面授权,请勿转载或建立镜像,否则即为侵权。

人工智能录入:admin    责任编辑:admin 
  • 上一个人工智能:

  • 下一个人工智能: 没有了
  •  
     栏目文章
    普通人工智能 支持20万字输入Moonshot AI开启千亿大模型的“… (10-17)
    普通人工智能 深圳国际人工智能展10月12日登场 展现人工智能… (10-17)
    普通人工智能 什么是人工智能(AI)?一文理解 AI 要点、发… (10-17)
    普通人工智能 香艳迷乱的神秘派对是欲望的幻想还是现实?一… (10-16)
    普通人工智能 伟景智能:人形机器人赛道中的“领跑者“ (10-16)
    普通人工智能 专注立体视觉垂直赛道伟景智能赋予机器人智慧… (10-16)
    普通人工智能 失去独子多年后他给机器人穿上了儿子的衣服…… (10-16)
    普通人工智能 普渡科技与软银机器人达成战略合作共塑商用服… (10-16)
    普通人工智能 人工智能 AI 概念梳理 (10-15)
    普通人工智能 中国网络空间安全协会人工智能安全治理专业委… (10-15)
    普通人工智能 敦煌网研究院院长李丽:人工智能红利正在渗透… (10-15)
    普通人工智能 大模型如何定义人工智能?李彦宏:改变了人机… (10-15)
    普通人工智能 超过70%的CEO将生成式人工智能视为投资重点 (10-15)
    普通人工智能 专访黄铁军:人工智能或可与工业革命、电力革… (10-14)
    普通人工智能 ChatGPT 等生成式人工智能模型催生新工作岗位… (10-14)
    普通人工智能 谷歌人工智能搜索 SGE 带来更多功能:现在可以… (10-14)
    普通人工智能 AI与金融的融合:2023芝加哥人工智能周将于10… (10-14)
    普通人工智能 川大校友说 东土科技董事长李平:发展工业人工… (10-14)
    普通人工智能 人工智能有可能短暂成为切换标的 (10-13)
    普通人工智能 杨立新:人工智能产品责任的功能及规则调整 数… (10-13)