以“机械细致消息统计”营业为例这里 DWD 层数据质量校验,层数据质量若何校验来申明 DWD 。计”分层消息如下“机械细致消息统:
参数:校验数据日期、Hive 库名、校验表名、校验 Null 值字段(可多列)、校验值字段(单列)DWS 层数据质量校验脚本名称为:“dws_data_check.sh”编写的脚本需要传入 5 个,最大值尺度值。容如下脚本内:
个参数:校验数据日期、Hive 库名、校验字段、ODS 层数据源表(可能多张)、EDS 层方针表DWD 层数据质量校验脚本名称为:“dwd_data_check.sh”编写的脚本需要传入 5 。容如下脚本内:
Hive 中不支撑留意以上中文正文在,对应的库中施行如下 SQL 支撑中文显示能够在 Hive 的 mysql 元数据:
统计地域营收环境营业”来申明数据质量若何进行办理下面我们针对音乐数据核心数仓项目第四个营业:“。重点放在 ODS 层此营业数据质量办理,WS 层)、DM 层几个方面EDS 层(DWD 层、D,的内容纷歧样每层数据校验,者利用质量监控东西 Griffin 来进行数据质量监控我们能够通过本人编写通用 shell+Hive 脚本或。
施行改成集群施行将项目代码中当地,节点/root/test 打包上传到 node4 下
层数据必然来自于 ODS 层数据记实无效比例(因为 EDS,有清洗数据可能两头会,层数据贫乏一部门导致 EDS ,据总记实/源表数据总记实”来反映质量环境所以这里记实无效比例就是利用“方针表数)
DWD 层数据质量进行校验EDS 层质量校验分为对 ,质量进行校验两个方面临 DWS 层数据。据来历表数据记实数能否分歧、导入到 DWD 层的数据无效比例等对 DWD 层数据质量校验关心点在于能否与 ODS 层对应的数,以按照具体营业来决定质量查验的内容针对分歧的 DWD 层的数据表也可。
数据质量校验DWS 层,详情消息”营业中这里校验“机械,MAC_STAT_D”表的质量EDS-DWS 层表“TW_,EDS 层聚合而来构成的宽表这里因为 DWS 层数据由 ,以所,题数据能否和上层分歧这里校验时能够校验主,S 层表中数据总条数更主要的是校验 DW,为空的记实数某些主要字段,段值非常条数等关心的聚合字。
ODS 转到 EDS 层过程中方针表反复记实数(可能会因为 ,导致方针表数据会有反复营业上联系关系其他表查询)
DWD 层数据进行了聚合因为 DWS 层数据基于,数据条目能否和上一层分歧(需要分清主题主要字段)所以对于 DWS 层数据质量校验关心点能够放在,WS 层表中数据总条数更主要的是这里查验 D,为空的记实数某些主要字段,段值非常条数等关心的聚合字。以按照具体营业来决定质量查验的内容针对分歧的 DWS 层的数据表也可。
据仓库中的 DW 层EDS 层相当于数,为 DWD、DWS 层DW 层细致划分又分, 和 DWS 层数据此营业中也有 DWD,层中没有细致区分只是在 EDS ,层与 DWS 层数据能够参照数据分层图在 EDS 层中具体哪些是 DWD 。
层数据是贴源层因为 ODS ,始的处所是数仓开,验证与原始数据条目能否不异所以这里查验时一般不需要,注字段为空的记实数、当日导入数据关心字段反复记实数、全表总记实数目标即可在 ODS 层数据质量监控中一般验证当日导入数据的记实数、当日导入表中关。
要传入 5 个参数:校验数据日期、Hive 库名、校验表名、能否增量(1 代表增量ods 数据质量校验脚本名称为:“ods_data_check.sh”编写的脚本需,、校验为空的字段2 代表全量)。内容如脚本下
体校验的内容一般按照营业分歧是分歧的以上 EDS 层中各层数据质量校验具,来谈数据质量不克不及抛开营业,脚本个性化校验能够使器具体。
行聚合统计获得的成果值数据DM 层存放数仓中对宽表进,层数据进行质量校验时所以这里对 DM ,用的脚本处置无法利用通,都要分歧的校验目标而是每个报表数据,据值能否在合理范畴内DM 条理要校验数, 层校验雷同与 DWS,表“TM_USR_MRCHNT_STAT_D”这里不再校验“商户营收统计”营业中 DM 层。
|