快乐大本营2013511什么是「得编译层者得芯片」?CUDA 为何是护城河?英伟达靠 CUDA 筑了多高的墙?是什么正在冲击 CUDA 的壁垒?都有谁会因为 PyTorch 获得机会?...
3. 给大模型「照 X 光」:神经网络的可解释性能否解决大模型的黑盒问题?
为什么神经网络的可解释性研究对大语言模型至关重要?Anthropic 为什么关注可解释性相关工作?Anthropic 的神经网络可解释性报告都讲了什么?得出了哪些关键结论?...
Moonshot AI 发模型了?Meta 又把上下文窗口扩了?20 万字窗口是什么概念?为啥都在扎堆扩张上下文窗口容量?...
...本期完整版通讯含以上 4 项专题解读 + 25 项本周 AI & Robotics 赛道要事速递,其中技术方面 8 项,国内方面 8 项,国外方面 9 项...
事件:前 Meta Oculus CTO 卡马克和「强化学习之父」萨顿宣布联手创业,计划不依赖大模型,通过实时在线学习的方式实现通用人工智能(AGI)。
1、卡马克和萨顿将通往 AGI 的计划命名为阿尔伯塔计划,计划创建与一个复杂得多的世界互动并开始预测和控制其感觉输入信号的长寿命计算代理。总体目标是模拟一个具有内在动机和持续学习能力的虚拟智能体,在虚拟环境中持续学习。
④ 为了适应变化和世界的复杂性,代理必须持续学习,而不是现在的预训练之后大部分参数就不再更新。
2、采用高级强化学习的方法,总体环境从增强学习领域熟悉开始,代理和环境在精细的时间尺度上交换信号。
① 长寿命的计算代理,需要与一个复杂的世界互动,并开始预测和控制其感觉输入信号,接收到“奖励”信号。
② 然后,代理向环境发送动作,并从中接收“观察”信号。较大的“观察”信号,提供关于环境状态的完整信息。
③ 观察、动作、奖励三个信号构成了整体。智能体的所有学习都基于这三个信号,而不是基于环境内部的变量。只有经验对代理可用,环境只作为这些信号的来源和下沉。
1、早在 1950 年代,Alan Turing 就将「智能」的概念扩展到了人工实体,并提出了著名的图灵测试。这些人工智能实体通常被称为 —— 代理(Agent*)。「代理」这一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。在人工智能领域,这一术语被赋予了一层新的含义:具有自主性、反应性、积极性和社交能力特征的智能实体。
2、大型语言模型(LLMs)的出现为智能代理的进一步发展带来了希望,用语言模型做AGI 也成为目前较为主流的路线。
① 如果将 NLP 到 AGI 的发展路线分为五级:语料库、互联网、感知、具身和社会属性,那么目前的大型语言模型已经来到了第二级,具有互联网规模的文本输入和输出。
② 在这个基础上,如果赋予 LLM-based Agents 感知空间和行动空间,它们将达到第三、第四级。进一步地,多个代理通过互动、合作解决更复杂的任务,或者反映出现实世界的社会行为,则有潜力来到第五级 —— 代理社会。
阿尔伯塔计划的「基础智能代理模型」技术路线与其他做 AGI 路线、强调普通经验,而不是特殊的训练集、人工协助或访问世界的内部结构。尽管有许多方式人类输入和领域知识可以用来提高 AI 的性能,但这样的方法通常不随计算资源扩展。
2、时间一致性。时间一致性意味着与代理上运行的算法相比,所有时间都是相同的,没有特殊的训练。即提供了培训信息,如通过奖励信号,代理将在每一个时间步骤上提供。举例来说,如果代理学习或计划,则它在每个时间步骤上学习或计划。如果代理建立自己的表示或子任务,那么构建它们的元算法在每一个时间步骤上操作。如果代理可以减少其关于环境的学习速度,当它们看起来稳定时,那么它也可以增加其学习速度,当它们开始改变时。
1、目前,大型语言模型是最为热门的AGI研究方向,但其是否是实现 AGI 的潜在路径仍然是一个备受争议和有争议的话题。
|