梦幻蛋糕屋窗口近日,以“数智聚力,共赴新程”为主题的2023网易数字+大会在杭州召开。在这次大会上,数据猿采访了网易副总裁、网易数帆总经理汪源,网易数帆大数据产品线总经理余利华,对网易数帆的最新发展策略和数据技术产品体系有一个全面的了解。
在这次大会上,网易数帆进一步阐述DataOps方法论,介绍了数据开发治理平台EasyData的新功能,发布了指标中台EasyMetrics,以及ChatBI的最新功能。接下来,我们就网易数帆的一系列新品进行分析,并探索他们隐藏的关系。
数据开发治理的实践中,开发者常常需要面对一系列复杂且多维的挑战。具体来看:
随着数据源和格式的日益多样化,技术人员必须掌握各类系统和工具的特性,同时还要跟上数据库技术的迅猛发展步伐。数据质量的确保变成了一场与数据错误、重复和不完整性的持久战,且治理工作往往难以自动化,消耗了大量的人力资源。数据安全性与合规性的要求也在不断变化,为开发团队增添了合规性调整的压力。与此同时,系统的性能和扩展性受数据量激增的挑战,需要不断优化以支撑大数据时代的需求。
此外,SQL脚本和数据模型的持续维护是保持治理效率和质量的关键,但往往由于缺少标准化和自动化,使得新团队成员难以快速上手。技术债务的积累,可能导致在未来的开发和维护中需要支付更高的代价。
为了降低数据开发门槛,网易数帆EasyData数据开发治理平台进行了一系列的创新。比如,新增了可视化开发的新组件,可视化开发组件内置100+高性能算子,实现72%的数据开发覆盖率,能够使得数据开发成本降低25%;“SQL Scan”阻隔问题代码,旨在解决低质量代码导致线上数据故障时有发生的问题。
此外,尤其值得关注的是,为了解决SQL编写中存在的问题,网易数帆将大模型技术引入数据开发治理领域,推出SQL补全领域大模型,并在此基础上研发SQL Copilot。该产品的特点包括:
高质量的训练数据集,是SQL Copilot大模型表现出色的关键因素之一。SQL Copilot所使用的数据集,覆盖了从开源社区到专业业务场景的各种SQL脚本。
这些数据集的多样性,确保了模型能够理解广泛的查询模式和结构,而特定业务场景的数据,则让模型更好地适应特定的应用需求。模型训练时引入的库表元数据,进一步增强了这种适应性,让SQL Copilot不仅仅是在语法层面上提供帮助,更能够在逻辑和语义层面上提供深入的支持。
在实际应用中,编写SQL语句不仅涉及对语法的理解,还需要对数据库的结构和业务逻辑有深刻的认识。传统的IDE和代码编辑器通常只提供了基础的语法提示和错误检查功能,而缺乏对于开发者意图的深层理解。
SQL Copilot通过大模型技术,理解和学习了SQL的语法结构。不同于Token级的补全,SQL Copilot还可以在行级甚至代码块级别提供建议,这意味着它能够理解更长的代码序列和更复杂的代码逻辑。
SQL Copilot的另一个显著特点,是对多种SQL语法的支持。在当前的大数据生态中,不同的技术栈可能会使用不同的SQL语法,如Hive、Spark、Impala等。SQL Copilot通过训练模型覆盖了这些语法,能够无缝切换并提供针对性的补全建议。
据网易数帆大数据产品线总经理余利华介绍,目前,SQL Copilot的代码采纳率已显著超过20%,并且还在持续提升。
从部署角度看,SQL Copilot的高效性也体现在其低成本上。相对于需要大规模计算资源的某些大模型,SQL Copilot的运行仅需要两张消费级显卡,大幅降低了对硬件的需求。这使得即便是资源有限的小型企业或个人开发者,也能够享受到AI增强的编程辅助。
在实时编程辅助方面,SQL Copilot同样表现出色。其推理速度优于一般的自然语言处理模型如ChatGPT,为用户提供快速响应的同时,确保了SQL编写的流畅性和实时性。低延迟的特性,对于开发者在构建复杂查询和进行问题排查时尤为关键。
SQL Copilot的出现,不仅是技术上的突破,也预示着数据开发治理方式的变革。通过降低学习门槛和提升开发效率,它为数据开发治理的一体化和自动化提供了强大的技术支持。在推动DataOps创新实践的过程中,SQL Copilot成为了一个不可或缺的工具,它不仅提高了数据开发治理的智能水平,也为企业提供了更加灵活、高效的数据处理能力。
在企业数据管理中,指标是评价业务性能和决策支持的关键。但多数企业在指标管理方面存在一些普遍问题,尤其是业务口径不一致、指标入口不统一和需求响应慢,这些问题严重影响了企业的决策效率和数据管理的准确性。
针对这些问题,网易数帆发布的EasyMetrics指标中台,提供了创新的解决方案。EasyMetrics通过建立一个统一的指标定义平台,解决了业务口径不一致的问题。它允许用户在中台定义指标,并自动同步到所有数据系统中,确保了各部门和团队使用的是统一口径的数据。这不仅提高了数据的一致性,也节省了大量之前用于沟通协调的时间和精力。
需要指出的是,网易数帆的数据开发治理平台EasyData、指标中台EasyMetrics、对话式分析平台ChatBI并不是孤立的,而是相互配合,构成一个推动数据消费的闭环。
我们正站在一个新时代的门槛上,预示着大模型和大数据技术相互赋能、共同进步的广阔前景。企业和组织可以期待通过这种深度融合,实现数据资产的最大化利用。随着技术的迭代与创新,我们有理由相信,这一融合将赋予每个组织以前所未有的能力,帮助他们真正释放蕴藏在数据中的巨大价值。
|