Hive数据仓库ODS层数据存储设计 |
|
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/5/18 22:36:28 | 【字体:小 大】 |
袄比到数据来源是将8台服务器日志各自压缩成*.gz(8个gz文件)后,按天和小时分区传入到HDFS上,然后通过创建Hive ODS外部表加载到表对应分区,这样一天下来会生产192个gz文件,gz文件是不能进行切分所以查询一天则会产生192个Map数,导致后结数据处理性能与资源占用都比较大。需要进行优化如下几点:
通过创建TTexfFile存储格式ODS临时表外部表,将HDFS上的文件目录映射到外部表
1、在ODS层创建ORC存储格式相应的表,将临时外部表数据插入到ODS表
|
|