脑佳佳数据仓库对东航来说并不陌生,为了保证数据查询和分析的效率,按照主题将所有的数据分门别类进行存储,需要的时候,可以按主题提取数据并做进一步的分析处理。东航建立了自己的数据仓库。
而数据集市,可以称作小数据仓库,是用来分析相关专门业务问题或功能目标而做的专项的数据集合。它建立在具有统一数据存储模型的数据仓库下,各级业务人员按照各部门特定的需求把数据进行复制、处理、加工,并最终统一展现为有部门特点的数据集合,数据集市的应用是对数据仓库应用的补充。
经过多年的努力,东航建立起了面向决策支持的分析系统,BI系统也逐渐完善。从各类业务系统中将相关业务数据进行抽取、清洗、加工、整理、加载到数据仓库中,在数据仓库中形成基础的分析数据的存储,对公司的营销决策等活动给予支持。同时为了满足各个领域的个性化决策支持的需求,东航已经在营销、管控建立起相应的数据集市,迎合了各业务部门数据粒度的要求更加精细、需求更加灵活多变、要求更强的可操作性的要求。
在成功建立营销领域和管控领域的数据集市之后,2016年开始了生产运行数据集市的建设工作,生产运行数据集市是针对服务领域、运行领域的生产环节的数据集市,集市的主要目标是“以提供丰富的数据为基础,以提供简要分析功能、提高日常分析能力为主要手段,以解决各类业务目标为最终目的,大力提升数据综合运用、分析能力”。数据集市项目从2016年2月开始组织需求调研,经历了7个月的建设时间,于2016年9月底上线使用,完成了所要求完成的所有基本集功能。
不同于营销和管控两个集市项目,生产运行数据集市项目采用了ORACLE+BO的技术架构,使得系统的可扩展性和可维护性更强。
向项目建设过程中,也总结了一些经验教训,如在项目准备阶段,做了一定的的调研,走访,以及可行性分析,论证了项目的业务可行性与技术可行性,项目组认为无论从技术还是在业务上都已经分析的比较透彻,但在项目启动后,在实际需求调研时,数据来源、数据质量成为困扰项目组的最大问题,由于集市应用的特殊性,集市本身不产生数据,它的分析和统计的基础依赖业务系统的数据,所以业务系统的数据成为集市应用的关键点。针对这一问题,我们是这么做的
在未整合的三个领域业务系统中,一些基本数据,各个业务系统都会各自维护一套,各套数据之间有一致的也有矛盾的,在发现问题后,我们逐步开展工作去解决。首先,熟悉业务,梳理工作流程,了解数据产生的因果关系,定下了“从源头,拿第一手数据”的原则,如果可以找到唯一数据源,就以其为标准,如果同时有多个数据源,则不同数据根据在实际数据的质量加权计算后在决定使用哪一个。其次,在确定完数据源之后,抽取部分测试数据,与业务部门一起评估数据质量,如果没有达到要求,再调整方案。
随着东航的发展,数字化东航的建设成为越来越重要的任务,我们已经进入了如何高效利用好数据的阶段。在本次项目中,因为和业务人员的紧密合作,很多难题迎刃而解,让我们充分认识到了做好这项工作必须以业务为驱动,同时引导业务人员一起参与的重要性,这个对于集市项目的建设也是至关重要的。
数据集市,可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市将会发布特定用户群体所需的信息,且无需受制于源系统的大量需求和操作性危机。所以对于快速发展的、充满竞争的航空业来说是一个很好的数据解决方案。因此,对于过往的已经完成的数据集市项目,我们需要不断从中吸取经验教训,在今后建设过程中,少走弯路,降低风险。
|