一号特卫5G商用四年来,我国信息通信技术实现“弯道超车”,为整个产业链的蓬勃发展注入活力。同时,各大电信运营商在5G领域的投入也不可谓“不巨大”。根据工信部发布的《“十四五”信息通信行业发展规划》,到2025年每万人拥有5G基站数将达26个,是现有数量的3倍。
与此形成鲜明对比的是,普通用户仍然发出灵魂之问:“5G能做啥?”由于缺乏对5G额外价值的感知,用户的使用习惯相较于4G时代并未发生显著改变,总体需求并不旺盛,这导致了5G网络的使用率相对较低。出现上述现象的关键原因之一是5G上层应用的繁荣度不高,这就需要通过创造5G刚性需求应用来寻求突破。
科大讯飞成立初期便进入了通信领域,并与三大电信运营商建立了战略合作伙伴关系。多年以来,科大讯飞与运营商在智慧家庭、美丽乡村、智慧云网、智能通信等领域展开了深度合作。
2021年5月,在甘肃省白银市举行的马拉松赛事中出现了极端天气,导致多名选手不幸遇难。其中,一位重度听障选手也遭受了不幸,他无法听到声音,也无法正常说话交流,甚至在遇险时无法通过电话求助。这一事件引发了我们的深入思考,我们积极与中国残疾人联合会取得联系,启动了对残障人士日常交流习惯和需求的调研工作,以便为他们设计出辅助沟通的产品。
在众多需求中,最紧迫且复杂的需求就是手语视频通话。重度听障人士主要依赖手语进行交流,然而他们的家人、朋友以及服务机构成员等社交对象,多数是听力正常的人。那么,在视频通话中,怎样才能帮助他们之间顺畅地沟通?我们的解决方案是引入AI(人工智能)。具体而言,我们将听障人士使用的手语识别为文本,然后将文本转化为语音,播放给健听人;而当健听人说话时,语音则被转化为文本,呈现给听障人士。
在这个过程中,我们还意识到,以往习以为常的点对点通话模式不仅可以是“一对一”,还可以是“多对多”。除了主叫方和被叫方,AI还可以作为第三方或第四方参与,处理声音、视频和文本等多种信息。这是一个意外的发现,通过为残障人士设计产品,我们发现了被人忽略或认为理所当然的结构和要素,从而让设计出的产品既适用于残障人士,又适用于其他人。
基于丰富的产品和技术储备,2022年1月,科大讯飞携手中国残联及三大电信运营商发起了“无障碍智能通信合作伙伴计划”,并发布了实时字幕、方言翻译、多语种翻译等多项通信应用。在2022年3月北京冬残奥会期间,科大讯飞携手中国移动、华为首发智能通信产品,不仅激活了5G新通话这一战略性产品,也助力了通信业的创新实践。
将人工智能融入5G通信网络,对用户而言,意味着只需一部标准手机,便能够享受人工智能创新应用带来的便捷服务;而对通信行业而言,这样的融合创新亦能将“传统管道”变成“智能管道”,为通信业务发展带来新机遇,也契合了我国“新基建”的必然趋势。
基于此,科大讯飞创新性地构建了“产品+体系+生态”应用矩阵,开拓了5G新通话业务边界。
首先,科大讯飞引入各类人工智能技术,持续推动横向产品应用,实现“有得用”。毕竟,要线G应用喜闻乐见,应用数量是基本条件。从“小无障碍”到“大无障碍”,我们丰富了从字幕转写到多语种、多方言翻译的无障碍应用;从单纯功能延伸至为个人和企业搭建桥梁,提供信息服务及行业应用;从功能拓展至情感体验,我们实现了“语音表情雨”等社交应用;从情感体验升华为娱乐项目,我们开发了语音发红包、语音游戏等趣味应用。
其次,基于科大讯飞在翻译机、学习机、办公笔记本等软硬件产品领域积累的经验,我们在产品深度上不断探索,务求打磨出让用户既可用又爱用的产品。以智能翻译业务为例,在视频通话中进行跨语种交流时,由于节奏紧凑,即便一个单词的翻译存在微小的偏差,也可能引发误解,影响沟通效果。考虑到智能翻译本身可以视为生成式人工智能,难以做到完全准确,我们引入了语义理解技术。当聆听者对某个词语提出疑问时,人工智能将层层穿透、捕捉这个词汇,然后对其进行高亮标记,提示说话者换个说法。通过这一创新,智能翻译在通话中的实用性得到了显著的提升。
然后,科大讯飞积极探索新通话的应用组合。鉴于国内外通信运营商纷纷推出丰富的增值业务,构建产品组合有助于不断驱动通话增值业务的升级和迭代,进一步降低用户的使用门槛。例如,基于“来电提醒/通信助理”这一典型的产品组合,用户在漏接来电后,可以在查看留言短信时回拨,从而一键快速接入新通话,享受实时转写、趣味通话等创新应用。
最后,上述5G新通话应用单品和应用组合主要体现了软件层面的创新,科大讯飞也在探索将这些软件、服务延伸至硬件领域。在2023年初,科大讯飞与中移互联网合作,成功实现了讯飞双屏翻译机与普通手机之间的新通话呼叫服务。此外,科大讯飞也在探索将商务速记应用于讯飞会议耳机,这不仅能进一步丰富新通话的生态,也有助于通信业务的多样化发展。
讯飞星火认知大模型,深度赋能新通线年底掀起的通用人工智能浪潮,为以新通线G应用带来了新的动能。在此背景下,科大讯飞于2023年5月发布了“讯飞星火认知大模型”,该模型具备七大核心能力,包括内容生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力。借助科大讯飞“1+N认知智能大模型”布局体系,即1个通用认知智能大模型平台和N个行业专用模型,星火认知大模型已成功应用于教育、办公、汽车、数字员工等多个领域。
一是人人对话。通过认知大模型的赋能,5G新通话可以根据电话内容自动生成对话纪要,提取待办事项,从而协助用户自动完成相关工作,使每一次商务通话都变得更加高效。认知大模型还将支持通话中的智能助理服务,例如,用户在闲聊中随时可以获取结伴出游目的地的建议,或在商业对话中获得法律法规方面的建议。过去,在通话场景下,用户常常需要面临很多微小的选择或决策,例如去哪吃饭、出门要不要带伞等。有了通话中的智能助理,这些微小但高频的决策将变得更加顺畅高效。
二是人机对话。依托对话文本处理能力,认知大模型可以实现智能代接秘书服务,分析通话内容并提炼来电者的意图,从而极大提升被叫用户获取来电信息的效率。此外,认知大模型还能够基于对话内容智能推荐并引导用户的下一步行动。举例来说,在用户接到旅游推销电话时,认知大模型可以智能判断营销内容的合理性,并提供更多的营销选择,使通话挂断不再意味着服务结束,而是智能化服务的开始。
|