从传统BI到LakeHouse数据架构的演变

返回首页　

设为首页　

加入收藏　

今天是:

网站首页人工智能商业智能智能家居智能手表智能手机智能通信智能电视智能汽车智能机器人

从传统BI到LakeHouse数据架构…
2023未来工厂建设交流大会在…
有哪些开源的BI工具？
AI+双碳成风口极熵科技携手亚…
英特尔院士戴金权：人工智能…
人工智能与电信：充满希望的…
智能家居架构设计：实现智慧…
解读智能家居——智能化住宅…
实现智能家居建设的三大基本…
500元内实用手机全推荐 - 全…
500多元就能买便宜！移动4G手…
低价哥降临!十款500元以下超…
Redmi Watch 4体验：百元段最…
8月智能手表排行榜：从百元档…
盘点荣耀手表、Ticwatch等百…
2018电视直播排行最热门四款…
2016年度智能电视应用下载排…
6月智能电视APP推荐排行榜综…
2023脑科学与智能汽车人因工…
智己汽车：站在新世界的原点…
最强黑科技的纯电轿车魅力难…
2023年中国智能服务机器人市…
优必选发布最新一代服务机器…
2021最新服务机器人ENDI6
不止《西部世界》！还有这些…
15部让你对人工智能心生畏惧…
科幻惊悚片《造物主》曝预告…
图文定义：商业智能是一种解…
商业智能BI市场规模体量分析…
商业智能的最佳实践：从理论…
科大智能：目前公司在手订单…
科大智能：公司业务主要包括…
为你带来全新智能体验科大讯…
家居靠垫项目商业计划书
家居O2O项目消费者调研商业计…
家具产业服务拓展商业计划书…
赶紧收藏这里有四款好用又便…
性价比手机推荐、给爸妈孩子…
好用也得够便宜低价热销智能…
都是全面手六款功能最多智能…
办公娱乐都搞定市售功能全面…
工作娱乐两不误八款热门全能…
国产电视哪个品牌好？
国产电视机哪个牌子好国产电…
海信电视U8获评“2023最佳4K…
VentureBeat：这3项智能汽车…
2023国际汽车智能座舱大会隆…
官方软件
《不是机器人（Not the Robo…
“我们不是机器人”——范戴…

专题栏目

您现在的位置：智能制造网 >> 商业智能 >> 正文

高级搜索

从传统BI到LakeHouse数据架构的演变

作者：佚名文章来源：本站原创点击数：更新时间：2023/12/25 0:36:21 | 【字体：小大】

　　雪参果A公司是一家科技初创企业，其数据领域却是按照传统的商业智能框架开始的，A公司数据架构基于批量ETL（提取、转换和加载）管道来提取和处理数据；操作数据存储(ODS)作为暂存区域和最终数据仓库结构，细分为数据集市，以支持决策过程。

　　随着时间的推移，公司不断发展壮大，内部和外部的数据来源也越来越广泛和多样化。此外，数据处理和整合变得越来越复杂，现有的数据架构不足以向利益相关者提供现成的数据。

　　A公司重新审视了数据架构，寻找一种更有效的方法来处理大量和不同类型的数据，以及更容易维护和扩展的方法，否则很快就会再次达到上限。A公司找到了一个大数据架构，该架构能够处理大量数据，并为长期发展提供一个非常可扩展的环境。

　　A公司中的数据域的创建是为了更好地组织来自单一来源的数据，主要目标是分析产品数据，而无需直接访问公司的应用程序数据库。由于需求简单，因此应用了商业智能方法，其中每日批处理作业将从源中提取数据，进行相应处理并将其加载到最终位置。此提取-转换-加载流程（或ETL）将为数据仓库中的临时分析、报告提取和基本数据可视化提供准备就绪的数据平台。

　　ETL流程负责从源中提取数据；清理交易数据；根据业务规则处理数据；对数据进行建模，将数据组织成数据仓库中的数据集市。A公司遵循星型架构维度建模框架，该框架提供按业务流程/区域排列为数据集市的数据。

　　数据仓库是可供使用的数据和渴望使用它们的用户之间的边界。数据仓库将被频繁访问以进行数据检索，尤其是报告和数据可视化工具。频繁的访问需要精心组装的数据（星型模式数据集市涵盖了这些数据）以及为此优化的软件。对于后者，A公司正在使用AWSRedshift，它提供了巨大的计算能力和快速响应时间。

　　ODS或操作数据存储是源数据库（包含交易数据）和数据仓库（包含分析和建模数据）之间的中间位置。在A公司的体系结构中，Airflow中的管道将数据加载到ODS中，A公司的部署为RDS的postgres，之后Airflow中的下一个任务不断清理、处理和连接关系数据库中不同架构和表中的数据，直到它们组织得足够好，可以建模为Redshift的星型架构框架。

　　A公司的Airflow管道足以向运行批处理和日常作业的利益相关者提供数据。然而，慢慢开始面临一些SLA（服务级别协议）问题，即无法每天按时交付即用型数据。夜间运行的管道事故越来越常见，在极端情况下，有些事故可能会导致交付延迟半天。

　　延迟数据交付的一个问题是ETL背后的技术。数据提取是用Python制成的，通常使用petl库，它将数据加载到内存中的表对象，不适用于大型数据集。在一些更复杂的管道中，由于源数据库中不断增长的大量数据而不是数据量不断增长，数据的传输会出现延迟。使用Python处理速度足够快。

　　QuintoAndar中的源数据库过去因缺乏完全可信的审计架构而存在巨大问题。并非所有表格都实施了审计，因为这是一个手动过程，对于那些实施了审计的表格，通常会发现一些不一致之处。因此，大多数数据库提取都是满的——每天都会冗余地加载每个表中的每一行。

　　此外，Airflow实例会提供一些内存和处理限制，因为它部署在AWSEC2实例中。这些限制开始成为一种痛苦：Airflow实例中的大量内存使用，多个和内存中巨大的petl表正在影响环境-一旦同时运行的各种DAG需要更强大的AWSEC2实例，。由于Airflow中缺乏可用内存而导致的管道崩溃变得越来越频繁，并且增加了SLA批评者的列表。

　　有两种方法帮助应对处理和编译大量数据的挑战：数据湖存储，以及并行数据处理框架。

　　数据湖是一个中央存储库，可大规模存储结构化和非结构化数据。它改变了规则，可以处理大量且多样化的数据，并以较低的存储成本为后盾。

　　A公司开始实施DataLake架构来替代ODS框架。A公司使用基于AWSS3数据湖层框架，通过在存储中定义具有不同目标和不同受众的层：

　　原始层-存储未处理和未修改的数据，保留原始文件格式（通常为JSON或CSV）。该层不应由分析师或服务访问，它应仅用于内部数据处理。

　　干净层-以优化的文件格式存储转换后的数据以供使用，在A公司的示例中为Parquet。该层中的数据进行了基本清理并应用了标准。该层应该被访问以进行探索性分析并用作星型模式的来源。

　　丰富层-存储经过良好处理的数据，这些数据还可以通过聚合和连接过程为每个原始表生成一个或多个表。该层还可用于探索性分析并用作星型模式的来源。

　　数据湖方法使A公司能够灵活地处理不同类型的数据，并为A公司以前无法提供帮助的不同产品提供支持，例如机器学习算法和预测分析，此外还支持分析公司的支柱，优化KPI和报告质量。借助云对象存储和Spark，A公司能够将存储需求与处理需求分开，而在ODS中，它们都在相同的Postgres架构。

　　Spark是A公司分布式体系结构的另一个支柱。它是一个分布式数据处理引擎，可以处理大量数据。它利用内存中的缓存和优化的查询执行，对任何大小的数据进行快速查询。Spark是最有效的数据处理框架，因为它能处理大数据集、速度快、整体灵活性强。它非常适合A公司当时的要求：在可行的时间内处理大量数据。

　　Databricks是A公司运行Spark的选择。Databrickss是一个基于云的平台，A公司可以在其中快速创建和部署Spark集群，并基于PySpark运行ETL。Databricks为A公司提供了Spark基础设施和集群管理。它非常好地遵守了AWS，并且很容易集成到A公司在Airflow的管道中，因为它有本地的通信运营商。

　　当时，A公司的数据平台基于AWSS3中的存储、通过Spark在Databricks中的数据处理、Airflow中的管道编排以及AWSRedshift中的数据仓库。尽管理论上Redshift是最后一层，但用户和数据服务可能仍然需要访问前一层的数据（例如数据湖的干净且可用的数据丰富层），这是通过Athena或RedshiftSpectrum功能完成的。A公司的目标是找到一种统一数据访问策略的方法，而不是依赖于三种不同的工具……然后DataLakehouse架构就开始发挥作用了！

　　DataLakehouse是一种全新的架构，旨在将数据仓库的数据结构和数据管理功能与低层架构相结合。通过将元数据层聚合到数据湖中存储的数据并独立于数据所在的层来统一数据的访问，从而降低数据湖的存储成本。

　　为了实现DataLakehouse架构，A公司需要在S3中存储的数据之上添加一个元数据层。该层将负责映射数据的元数据，并为A公司提供一些选项：

　　通过将查询引擎插入元数据层，A公司将拥有一个集中式访问点。集中式访问点将允许A公司执行联合查询。

　　元数据层将为A公司提供发展A公司的安全和治理平台所需的功能。从治理的角度来看，A公司将能够添加数据文档、地图数据沿袭，并添加自定义元数据，例如标签识别PII（个人身份信息）。从安全角度来看，A公司可以使用元数据来映射用户的信息，访问个人资料。

　　Redshift的扩展能力有限，只能水平扩展。平均而言，A公司的内存和CPU使用率达到了70%，而存储方面只有1%左右。因此，为了实现DataLakehouse架构，A公司选择用HiveMetastore和Trino的新堆栈替换Redshift（及其Spectrum功能）和Athena。

　　HiveMetastore是一个数据目录，负责管理和保留关系数据库中的元数据。Trino是一个高度并行的分布式查询引擎，能够查询PB级数据。

　　总而言之，A公司将存储迁移到分布式文件系统，非常注重职责明确的层（S3上的数据湖、数据仓库和Redshift上的数据集市）以及通过Airflow的ELT流。之后，A公司通过向堆栈添加CloudComposer（GCP完全托管的Airflow）来实现全云，它编排和管理A公司的管道，所有这些都依赖于通过Databricks在Spark上进行并行处理。

　　尽管改进后的架构非常引人注目，但在Redshift之上设计的分析层仍然不能很好地处理A公司频繁的扩展需求。因此，通过根据基于S3、Hive和Trino的LakeHouse策略替换Redshift上提供的数据仓库层，A公司向一流的LakeHouse架构又迈进了一步。

　　这些变化是超现实的！将每一层彼此解耦，使A公司能够单独、简单、快速地自定义和扩展各层，从而减少管理基础设施的工作量并降低总体成本。此外，A公司可以在更短的时间内处理更多的数据，从而减少交付时间并促进重新处理和回填。

　　作为与业务相关的结果，新的基础设施使A公司能够为用户提供更复杂的数据产品，例如基于流和现代机器学习产品的实时分析。

　　本文来自微信公众号“数据驱动智能”（ID：Data_0101），作者：晓晓，36氪经授权发布。

　　中国工程院院士、同济大学原副校长吴志强，受邀担任未来城市大奖的评委会主席。

商业智能录入：admin 责任编辑：admin
	上一个商业智能： 2023未来工厂建设交流大会在杭州成功举办下一个商业智能：没有了

　栏目文章

从传统BI到LakeHouse数据架构的演变 (12-25)	2023未来工厂建设交流大会在杭州成功举办 (12-25)
有哪些开源的BI工具？ (12-25)	图文定义：商业智能是一种解决方案 (12-24)
商业智能BI市场规模体量分析与运营前景展望报… (12-24)	商业智能的最佳实践：从理论到实践的跨越 (12-24)
中国商业智能（BI）市场发展痛点分析及投资规… (12-23)	2023年电力信息化市场现状与前景 (12-23)
BI应用案例-Wyn商业智能助力企业驶向数字化转… (12-23)	2023年中国商业智能行业发展现状分析 (12-22)
在可视化商业智能的企业级市场IBM有“三宝” (12-22)	亿信华辰荣膺数据智能服务提供商TOP10 、商业… (12-22)
功能外观两相宜 11款男性专用商务智能手机 (12-18)	敢想敢为超越自我六款智能i5独显商务本盘点 (12-18)
推荐给上班族! 十款必选商务智能手机 (12-18)	大数据分析关键技术研发及运营基地建设项目可… (12-17)
大数据分析 - 大数据分析与挖掘发展前景 (12-17)	什么是大数据分析 (12-17)
集贤税务：远程视频“可视化”为企业发展添砖… (12-16)	SAS可视化分析解决方案帮助企业决策 (12-16)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	智能制造网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！