家园2cdkey中国蓝云是浙江广播电视集团倾力打造的省级融媒体主平台,目前承载了集团内各频道及省内多家地县市融媒体中心的全媒体生产制作分发业务,浙江广播电视集团深入贯彻落实习的重要指示精神,落实广电总局《关于促进智慧广电发展的指导意见》,在中国蓝云测试平台上与诸多厂家做了大量的适配和测试工作,并基于这些研究与实践设计了AI智能处理中心及智能识别平台。
本文主要介绍浙江广播电视集团如何依托于中国蓝云平台的资源,在智能化建设上进行的一系列探索,并阐述了AI智能处理中心及智能识别平台的设计与实现。
朱浩路,男,1989年生,硕士,浙江广播电视集团中级工程师,主要研究方向广电行业信息化。
一是优化内容生产制作,利用语音识别、语音合成、字幕识别、人脸识别多种人工智能技术辅助收录、唱词、拆条、字幕、配音等服务,实现智能分析、快速剪辑,提高内容生产工作效率[1];
二是强化内容安全监管,利用人脸识别、涉黄识别、暴恐识别等技术,对海量数据进行内容检测,识别不适合播出的敏感内容,为节目内容安全护航;
三是深化内容标签管理,利用语音识别、文字识别、人脸识别、自然语义处理等技术,对内容进行重构解析,提取人物、地点、事件、关键字等多维度标签,生成高质量的结构化数据,为内容搜索、选题辅助提供强力支撑。
浙江广播电视集团是《中国广播电视人工智能应用白皮书》的主要起草单位之一,自2018年5月份起在中国蓝云测试平台上与阿里云、科大讯飞、七牛、当虹等厂家做了大量的适配和测试工作,研究了海量媒资的智能化编目、各场景下的智能识别、敏感信息检测分析等。基于这些研究与实践,中国蓝云平台设计了AI智能处理中心,中心采用任务调度与执行服务分离的模式设计,构建统一的调度管理中心,提供标准的服务调用协议和数据交互规范,支持不同厂家智能能力的接入,人脸识别、语音识别等多种智能能力以微服务的形式在中国蓝云平台部署。
中国蓝云智能化建设主要设计为三层架构,智能识别平台从应用层发起智能识别处理,AI智能处理中心收到任务后统一进入消息队列进行任务分配,随后调用智能服务层中的各种智能识别能力进行处理。AI智能处理中心提供了统一的标准接口规范,支持第三方原子能力注册接入,这样的设计一方面提供统一的管理和调度,各项智能能力根据不同的使用场景动态组合以实现多样化的产品形态,摆脱了单一智能算法能力调用带来的片面性,另一方面用户可以按照自己的需求进行智能化能力选择,实现了一定的平台生态。
智能处理中台服务采用Kafka来实现消息队列,并搭配ZooKeeper集群来管理自己的元数据配置,实现了微服务的分布式部署。Kafka是一个高吞吐量的分布式发布订阅消息系统,最初由Linkedin公司开发,用它来跟踪活动数据和运营指标,后来成为Apache开源项目;Kafka在大数据生态中扮演重要意义,经常被用在多个系统间作为数据中枢来实时消费所有数据[2],其具有极佳的性能表现,能提供稳定的持久化,具有灵活的订阅-发布消息队列,可以很好地兼容需要数据流处理的系统。
AI智能处理中心以Restful API的方式与应用层和智能服务层进行注册和调用,通过JSON格式交换数据,服务调用按照制订的中国蓝云智能化工具接口规范与流程适配,从而确保接入厂家与应用的可扩展性。智能服务接入云平台后统一进行资源和任务管理,可以灵活地被其他应用调用,AI智能处理中心承担与客户应用端的通信,而后台的智能化服务端专注于执行云平台下发的任务,是一个松耦合的架构,方便以后进行扩展及升级。
出于对数据保密的敏感性要求,按照通用的公有云调用反馈方式有较大的安全隐患,而本地海量的数据与公有云进行交互也会造成大量的数据吞吐,纯在效率低下的情况,因此浙江广播电视集团依托于中国蓝云平台的计算资源,私有化部署了多种智能语音识别及视频图像识别能力,同时也构建了对应的个性化特征库。
其中智能语音服务包括实时语音识别和离线文件识别,实时语音识别能对音视频流做实时转写,达到边说边出文字的效果,可用于视频实时直播、实施会议记录等场景,而离线文件识别基于深度全序列卷积神经网络,将长短音频进行语音转写转换成文本数据,为信息处理和后续的NLP分析提供基础,并支持按声纹甄别说话人物。
视频图像识别服务包括人脸识别、涉暴识别、涉黄识别、场景识别、物体识别、OCR识别等多项识别技术,适用于素材中涉及政治敏感、暴力、恐怖、武器、血腥、爆炸、、低俗、垃圾广告等内容,还能对台标、商标、二维码、广告等内容进行识别,保障播出安全,降低内容监管风险。
智能识别平台以模块的方式内嵌于中国蓝云平台,提供图形化的多种智能能力调用结果展示,用户登陆后可以自行上传图片、音频、视频等多种格式的素材,素材上传至平台后经由转码、抽帧等多项服务,之后按需发起智能识别任务。平台在应用层根据语音识别结果的结构化数据进行包装,提供声纹分段、去除语气词等拓展功能,用户可以将识别结果导出为SRT、TXT等多种格式,并支持全文导出和按声纹分段导出。
此外,平台支持智能收录系统的文件素材直接调用智能服务,根据场景识别结果和语音识别结果进行智能拆条,而拆条后的素材片段又可以根据其语音识别结果和OCR识别结果进行关键词提取,按照需求设置对应的规则进行命中,实现智能推送服务。
中国蓝云采用服务统一管理的模式,各种智能化服务可以方便地注册为执行器,进而配置到各种工作流程中,满足业务需求。其技术创新点如下:
1. 微服务架构,组件化设计。多项智能能力以微服务的方式部署在中国蓝云平台上,可独立部署、独立扩展,由AI智能处理中心统一进行调度和管理对外提供标准服务,而组件化的设计使得每项能力都是可独立更换和升级的软件单元,构建松耦合、高内聚的服务架构。
2. 平台统一接入,多种智能能力融合。AI智能处理中心提供了统一的接口对接规范,集成管理离线语音识别、实时语音识别、语音合成、人脸识别、涉黄识别、涉暴识别、场景识别、物体识别、OCR识别等多种智能能力,且支持不同厂家智能服务切换,形成了平台智能服务生态,同时各种能力根据不同的使用场景和业务需求动态组合以实现多样化的产品形态,摆脱了单一智能算法能力调用带来的片面性。
3. 分布式部署,弹性化伸缩。AI智能处理中心采取应用分布式部署、智能能力本地化与云端部署相结合的方式,在高负载的情况下智能能力可以快速进行弹性扩容,内容素材采用多副本存储,保障安全性的同时支持动态扩缩容。
经过持续的开发建设和功能优化,目前中国蓝云上已经提供多种智能能力平台及服务且各系统运行稳定。
浙江广电集团内各频道使用中国蓝云平台进行生产和制作,基于AI智能处理中心的智能识别平台及相关智能服务在集团下属浙江卫视、钱江频道、教科影视、浙江之声、交通之声、新蓝网等业务单位得到了广泛使用,在疫情和两会报道期间利用多种智能技术解析直播流内容,用智能模板在较短的时间内基于智能拆条的素材生产分发大量成品,将智能技术赋能节目生产,有效地节约了时间和人力成本。
而在市县推广中,借助中国蓝云的租户化设计,可以方便地面向中国蓝云各租户提供智能化能力服务输出,目前已经有不少地县市在中国蓝云上进行智能识别平台试用。丽水、莲都等市县使用智能识别平台中的语音识别等能力辅助内容生产,生成全文识别结果和带时间码的字幕文件,导出后进行后续生产制作,有效的提高了内容生产效率。
5G、人工智能、超高清是新一轮广电新基建的重要组成部分,其中人工智能建设则是智慧广电建设的基础之一。目前集团已经实现了智能化原子能力基础调用,并结合自然语义处理等技术,实现智能拆条、同期声字幕制作等功能,后期将进一步深入挖掘智能识别能力,对素材进行编目、标签等,形成结构化的数据,构建新一代的智能媒资平台。
在推进媒体融合发展的道路上,浙江广电集团以中国蓝云平台为基础、AI智能处理中心为支撑的模式进行实践并在市县融媒体中心建设中推广,其相关解决方案深入实施智慧广电战略,为广电内容生产制作带来了新产品、新业态、新模式的支持。未来浙江广电集团将进一步全面推进智慧广电建设,加强智能新闻生产等方面的能力,发扬广电内容制作优势,结合用户需求完善产品形态。
|