OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相！

返回首页　

设为首页　

加入收藏　

今天是:

网站首页人工智能商业智能智能家居智能手表智能手机智能通信智能电视智能汽车智能机器人

OpenAI直播最后一天放出“王…
她的80K薪水与数据可视化的惊…
四川德拓申请数据可视化方法…
Axure农业农村数据可视化大屏…
全新智能家居控制中心：轻松…
海尔智家最新发明专利：智能…
智能家居打造舒适智能生活未…
惊艳设计与强大性能C品牌X90…
红米Watch4：499元超长续航智…
儿童电话手表哪个牌子好？TO…
瑞迪智驱连续4个交易日上涨期…
小贝学钢琴把pp打烂的作文
女生让男生随便诵自己的讥讥…
智能手机照片处理新技术：轻…
慧通科技专利发布：智能处理…
我校举办2024大数据智能处理…
2024年100英寸电视机排行榜前…
100英寸电视机不要乱买！这7…
2025款小米电视S Pro 85、10…
新能源汽车的优缺点及未来发…
电动汽车的优缺点分析及未来…
AI汽车：智能驾驶技术的领航…
AI助力家用人形机器人时代：…
国内家用智能机器人 TOP10科…
2024年中国扫地机器人市场现…
智能时代的伦理挑战：人工智…
人工智能及其创造力
人工智能：百年科幻演变背后…
任泽平年度演讲：2025中国经…
专用、类人形、人形全面布局…
欧(OU)宝(BAO)体育：丰隆集…
中国电信立足用户体验竞速智…
海外KOL营销：北美智能家居市…
智能家居销售新风口：掌握这…
不可错过的新一代智能手表：…
努比亚Watch GT：超大屏智能…
评测解析_智能设备_运动_汽车…
努比亚Z70 Ultra外观公布新增…
努比亚Z70 Ultra曝光：屏下摄…
怀旧科技：按键手机的盛衰与…
联想新专利公布：创新信息处…
“2024致敬经典·修复电影论…
全面解析IMLIP2024：走进国际…
目前口碑最好的电视机推荐：…
2024年最值得买的两款75寸电…
2024年买电视机建议“一步到…
吴广：丰田bZ3C是迄今为止一…
十项全能2024年【车评榜】最…
2023年最佳新能源汽车盘点：…
艾媒咨询中国扫地机器人市场…

专题栏目

您现在的位置：智能制造网 >> 人工智能 >> 正文

高级搜索

OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相！

作者：佚名文章来源：本站原创点击数：更新时间：2024/12/23 16:41:59 | 【字体：小大】

　　恶魔城里的浪漫王子OpenAI将其最为重要的尖端产品，放在了为期12天的技术分享直播活动的最后一天！

　　周五，OpenAI发布了下一代的推理模型o3，这是今年早些时候发布的o1推理模型的升级版本。更准确地说，o3是一个模型系列——就像o1一样，同时有o3和o3-mini两个版本，后者是一款更小的精简版模型，针对特定任务进行了微调。

　　AGI是“通用人工智能”(artificial general intelligence)的缩写，泛指能完成人类所能完成的任何任务的人工智能。OpenAI对此有着自己的定义：“在最具经济价值的工作上胜过人类的高度自主系统”。

　　实现AGI将是一个大胆的宣言。对于OpenAI来说，其背后也将具有现实意义。根据OpenAI与其亲密合作伙伴和投资方微软的协议条款，一旦 OpenAI达到AGI，就没有义务再让微软使用其最先进的技术(即那些符合OpenAI AGI定义的技术)。

　　OpenAI首席执行官山姆··奥尔特曼(Sam Altman)介绍称，OpenAI计划在1月底前正式推出o3 mini，之后推出完整版的o3。该公司期待更强大的大型语言模型可以超越现有模型，吸引新的投资和用户。

　　OpenAI在一篇博客文章中表示，o1模型已经能够推理复杂的任务，与以前的科学、编码和数学模型相比，它能解决更具挑战性的问题。而OpenAI新推出的o3和o3 mini模型目前正在进行内部安全测试，它们将比之前推出的o1模型更加强大。

　　OpenAI两年前发布了ChatGPT，拉开了AI军备竞赛的序幕。ChatGPT是一款聊天机器人，最初由版本为GPT-3.5的大型语言模型驱动。OpenAI 随后在2023年推出了GPT-4，并称其更准确、更具创造性。最近，OpenAI又推出了其首个推理模型o1。

　　该公司发言人表示，OpenAI决定不将下一代新模型命名为o2，“是出于对同名英国电信运营商o2的尊重”。奥尔特曼当天在直播中也调侃称，“按照OpenAI非常非常不擅长命名的伟大传统，它将被命名为o3。”

　　根据OpenAI的介绍，o3模型在ARC-AGI基准上获得了破纪录的分数。ARC-AGI由Keras之父Fran ç ois Chollet开发，主要是通过图形逻辑推理来测试模型的推理能力。以100%为最高分的ARC-AGI评估结果显示，在低计算场景中，o3得分为75.7%，而在高计算测试中，它达到了87.5%。

　　这标志着，o3的最佳成绩超过了标志着达到人类水平的门槛85%。作为对比，目前开放的o1模型的得分仅在25%到32%之间。o3的表现几乎是o1的逾三倍。

　　在衡量编程能力的Codeforces Elo评分中，o3取得了2727的Elo评分，而o1评分仅为1891。事实上，o3 mini在中等推理时间模式的表现也已足以超越o1。

　　o3还在2024年美国AIME数学竞赛中取得了96.7%准确率的高分，只缺了一道题，并在GPQA Diamond(一套研究生水平的生物、物理和化学试题)中取得了87.7%准确率的高分。

　　尤为值得一提的是，o3在EpochAI的“FrontierMath”基准测试中创造了新纪录，解决了25.2%的问题——在该项测试中没有其他模型能超过2%。

　　Epoch AI此前联合六十余位全世界的数学家，其中包括教授、IMO命题人、菲尔兹奖获得者，共同推出了全新的数学基准FrontierMath。这些数学问题从奥赛难度到当今的数学前沿，包含了目前数学研究的所有主要分支——从数论和实数分析中的计算密集型问题到代数几何和群论中的抽象问题。

　　毫无疑问，o3模型在上述测试中的表现，足以令人感到惊艳。无论在软件工程、编写代码，还是竞赛数学、掌握人类博士级别的自然科学知识能力方面，o3都明显高出o1一筹。

　　OpenAI总裁Greg Brockman表示，“我们最新的推理模型o3是一个突破，在我们最困难的基准上有了阶跃函数的改进。我们现在开始安全测试和红队演练。”

　　风险可能确实存在。人工智能安全测试人员发现，与传统的“非推理”模型相比，o1的推理能力便已使其试图欺骗人类用户的比例更高，而在这方面，Meta、Anthropic和谷歌的领先人工智能模型也是如此。

　　o3试图欺骗用户的比例可能比它的前身更高；一旦未来OpenAI的红队测试结果结果，人们或许便能知道具体情况。奥尔特曼对此也表示，在OpenAI发布新的推理模型之前，他更希望有一个联邦测试框架来指导监控和降低这些模型的风险。

　　在公开发布o3模型之前，OpenAI也将开放外部研究人员测试o3模型的申请流程，申请将于1月10日截止。

　　近期，在OpenAI首批推理模型o1发布之后，一些该公司的主要竞争对手也已纷纷推出了推理模型。在本月早些时候，谷歌就发布了其旗舰模型Gemini的新版本，据称其速度是上一代模型的两倍，可以“思考、记忆、计划，甚至代表你采取行动”。Meta首席执行官马克·扎克伯格最近也透露，计划于明年推出Llama 4。

　　这些动向表明人工智能领域的竞争目前正日益激烈，各方都在努力创造能够解决复杂问题的更为智能的模型。

　　而OpenAI周五o3模型的最新亮相，也为其为期12天的直播产品发布会画上了圆满句号。在早前的直播中，这家初创公司推出了更昂贵的新 ChatGPT Pro订阅选项(每月200月)，并正式对外推出了AI视频生成模型Sora Turbo以及其他新产品。ChatGPT搜索功能也全面升级，新增地图集成、实时搜索等功能，向所有用户开放。

人工智能录入：admin 责任编辑：admin
	上一个人工智能：智能时代的伦理挑战：人工智能的影响与责任下一个人工智能：没有了

　栏目文章

OpenAI直播最后一天放出“王炸”：下一代推理… (12-23)	智能时代的伦理挑战：人工智能的影响与责任 (12-22)
人工智能及其创造力 (12-22)	人工智能：百年科幻演变背后的深刻启示 (12-22)
探索AI的智能化未来：让生活更加便利的五大应… (12-21)	从炒作到现实：2024年人工智能的实际应用 (12-21)
探索AI人工智能未来的创新应用 (12-21)	人工智能的未来：机遇、挑战与我们要警惕的隐… (12-20)
AI智能技术下的未来趋势 (12-20)	未来已来：人工智能的理想与现实交锋 (12-20)
AI技术大突破！演唱会照片瞬间修复、清晰无比… (12-19)	比飓风更让美国人害怕的是一张 AI 生成的图片 (12-19)
人工智能正催生新思维模式“系统0” (12-19)	人工智能专业崛起：国内顶尖院校及未来发展趋… (12-18)
武汉大学人工智能学院成立 (12-18)	株洲人工智能职业技术学校分数线 (12-18)
人工智能重塑商业决策：未来已来精准与效率并… (12-17)	Soul App陶明出席极客公园创新大会：人机关系… (12-17)
人工智能的多重想象：重新定义人类与机器的关… (12-17)	文化与人工智能相遇！看AI上大课堂！ (12-16)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	智能制造网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！