断袖问情北京时间14日凌晨,OpenAI公司在美国加州举办新品发布会,推出一款名为GPT-4o(欧)的人工智能模型。公司表示,新模型具备“听、看、说”的出色本领。发布会上,OpenAI公司展示了新模型的多个应用场景。
据介绍,GPT-4o(欧)的“o”源自拉丁语,意思是“全能”(字幕:omni,全能),新模型能够处理50种不同的语言,提高了速度和质量,并能够读取人的情绪。
新模型可以在最短232毫秒对音频输入做出反应,与人类在对话中的反应时间相近。即使对话被打断,新模型也可以做出自然反应。这是此前人工智能语音聊天机器人做不到的。
图像输入方面,研究人员启动摄像头,要求实时完成一道方程题,新模型轻松完成了任务;研究人员还展示了它对一张气温图表进行实时解读的能力。
另据报道,OpenAI首席科学家、联合创始人伊利亚·苏茨克韦尔14日宣布将离职。苏茨克韦尔现年38岁。他当天在社交平台发帖说:“将近10年后,我做出了离开OpenAI的决定。”他说:“接下来的项目让我兴奋,对我个人颇具意义。我将在恰当的时候分享细节。”美国有线电视新闻网(CNN)报道,苏茨克韦尔的职位将由OpenAI研究部总监雅各布·帕霍茨基接任。
相比先前版本,新版ChatGPT与使用者对话基本无延迟,会倾听,能唠嗑,还善于察言观色,让人惊呼新版本ChatGPT“更像人”了。新版本ChatGPT取得了哪些突破?能在哪些领域实现应用?它对人工智能领域的影响有多大?
开放人工智能研究中心13日发布的人工智能模型名为GPT-4o,既能接受文本、音频和图像的任意组合输入,还能生成文本、音频和图像的相关回应。
该中心不仅围绕GPT-4o做了直播演示,还在社交媒体发布更多视频“炫技”。
在一段视频中,GPT-4o听起来明显“更会聊天了”,还时不时抛出几个笑话。它的音调有些许变化,言语间带着笑意,与它聊天更像与真人交谈。
实时聊天是ChatGPT的关键技能。相比先前版本,GPT-4o的不同主要表现在:一是使用者可以随时打断聊天机器人,无须像从前那样等它把话说完;二是它会实时对问题作出回应,不再有两到三秒的时滞;三是它能感知人的情绪,比如演示者呼吸急促,它会询问对方是否需要稍稍稳定下情绪。另外,GPT-4o可以生成不同风格的声音。
北京邮电大学人机交互与认知工程实验室主任刘伟说,无论是在文本生成、做题、问答系统还是情感分析等任务中,GPT-4o都表现出很好的能力。这种技术的突破,无疑将对国内外的相关企业产生重大影响,它不仅推动了自然语言处理技术的发展,也让人工智能在多个领域的应用变得更加广泛和深入。
英国广播公司的评论说,GPT-4o能够结合文本、音频和图像内容瞬间做出反应,目前在竞争中处于领先地位。
开放人工智能研究中心首席技术官米拉·穆拉蒂说,GPT-4o定于几周内上线,用户可免费试用。ChatGPT原有付费用户将获得新版本更多使用权限。
在开放人工智能研究中心公布的一段演示视频中,GPT-4o一步步引导一名男孩解答出数学题。一些网友直呼,再也不用辅导孩子写作业了。一些人却担心,教师这一职业会不会被人工智能取代。
一些人工智能专家认为,新版ChatGPT虽然可能比竞争对手水平更高且更易使用,但不太可能很快让一些职业彻底消失,从事教学或翻译工作的人更有可能会使用这些工具,而不是被它们取代。
也有一些专家认为,技术演示能在大多数人中引起反响,它通常是精心打造的,未必能反映产品的真实功能。
刘伟说,GPT-4o的语音功能改变了对话式人工智能的游戏规则,但依然没有实现聊天机器人的深度态势感知能力,比如意图理解、动机分析等。此外,GPT-4o的进步在人工智能伦理和安全方面带来了新的挑战,需要我们在数据隐私、信息可信性、潜在偏见、恶意使用、意识和责任等方面开展新的思考。
|