返回首页  设为首页  加入收藏  今天是:
网站首页人工智能商业智能智能家居智能手表智能手机智能通信智能电视智能汽车智能机器人
相关文章
 BI商业智能_百度文库
 商业智能BI介绍
 商业智能BI是什么?如何正确…
 大数据时代商业智能BI的使用…
 消费者模糊化 - 全球智能家居…
 智能家居 市场策略一二
 深析智能家居消费者的特征
 解决智能家居产业化难题第一…
 一小时看懂智能建筑产品价格…
 菜鸟晋级必修课 智能机使用常…
 智能手机快速入门指南(图)
 让iPhone跑Win8 iOS版Metroo…
 远嫁女儿手绘智能手机使用说…
 智能外屏导航 飞利浦双屏X70…
 咕咚跑鞋怎么样啊?
 咕咚5K跑鞋测评:轻运动爱好…
 竞品分析报告:Keep VS 咕咚
 迈开步子任性造百元价位的咕…
 咕咚智能跑鞋21K超轻款体验:…
 行业报告|2023年Q1全球AIGC…
 智慧警务情报研判系统开发大…
 沈皓瑜:想象未来智能化搜索…
 快手搜索内测短视频直播行业…
 2023年5月31日A股深证成指查…
 CHiQ电视
 OPPO智能电视R1全网开卖3299…
 小熊在线智能家电
 科学网—消费也智能
 最新_天极网_智能家居频道
 2020科幻《人造怪物》:当机…
 人类制造机器终究会被机器毁…
 AI娃娃变身杀人魔!恐怖片《…
 小心杀戮机器人出没! (《移…
 人类终将被自己玩死?十部机…
 比尔·盖茨:人工智能的风险…
 智能汽车下半场:智能驾驶将…
 智能汽车科技将如何改变我们…
 长宁举办“智能网联汽车”创…
 高考作文
 强烈推荐2023年再次观看的关…
 科幻战争大片《AI创世者》:…
 推荐四个值得年轻人观看的人…
 2023世界人工智能大会亮点纷…
 人工智能ChatGPT盘点的影史最…
 嘉晨智能与客户的合作时间存…
 【经济观察】监管新规出台推…
 第十八届中国国际中小企业博…
 小微企业发展智能商业有前途
 拓维信息2022年年度董事会经…
 HIWE 艾维丨智能家居安防系统…
专题栏目
湖南视觉网络"模板城"--汇集CMS、EShop、BBS、BLOG等系统模板
您现在的位置: 智能制造网 >> 商业智能 >> 正文
高级搜索
BI商业智能_百度文库
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/7/18 4:31:44 | 【字体:

  没事爱上我做什么数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始数据,先按辅助决策的主 题要求形成当前基本数据层, 再按综合决策的要求形成综合数据层(又可分为轻度综合层和高 度综合层)。随着时间的推移,由时间控制机制将当前基本数据层转为历史数据层。可见数据 仓库中逻辑结构数据由 3 层到 4 层数据组成,它们均由元数据(Meta Data) 组织而成。数据 仓库中数据的物理存储形式有多维数据库组织形式(空间超立方体形式)和基于关系数据库组 织形式(由关系型事实表和维表组成)。 数据仓库系统(DWS)由数据仓库、仓库管理和分析工具三部分组成。 源数据:数据仓库的数据来源于多个数据源,包括企业内部数据、市场调查报告及各种 文档之类的外部数据。 仓库管理: 在确定数据仓库信息需求后,首先进行数据建模,然后确定从源数据到数据 仓库的数据抽取、清理和转换过程,最后划分维数及确定数据仓库的物理存储结构。元数据 是数据仓库的核心,它用于存储数据模型和定义数据结构、转换规划、仓库结构、控制信息 等。 数据仓库: 包括对数据的安全、归档、备份、维护、恢复等工作,这些工作需要利用数 据库管理系统(DBMS)的功能。 分析工具用于完成实际决策问题所需的各种查询检索工具、多维数据的 OLAP 分析工具、 数据开采 DM 工具等,以实现决策支持系统的各种要求。 数据仓库应用是一个典型的 C/S 结构。其客户端的工作包括客户交互、格式化查询及结 果和报表生成等。服务器端完成各种辅助决策的 SQL 查询、复杂的计算和各类综合功能等。 现在,一种越来越普遍的形式是三层结构,即在客户与服务器之间增加一个多维数据分析服 务器。OLAP 服务器能加强和规范决策支持的服务工作,集中和简化原客户端和 DW 服务器的 部分工作,降低系统数据传输量,因此工作效率更高。 什么是联机分析处理(OLAP) 联机分析处理 (OLAP) 的概念最早是由关系数据库之父d 于 1993 年提出的,他 同时提出了关于 OLAP 的 12 条准则。 OLAP 的提出引起了很大的反响, OLAP 作为一类产品同联 机事务处理 (OLTP) 明显区分开来。 当今的数据处理大致可以分成两大类:联机事务处理 OLTP(on-line transaction processing)、联机分析处理 OLAP(On-Line Analytical Processing)。OLTP 是传统的关系型 数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP 是数据仓库系统 的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。下表列 出了 OLTP 与 OLAP 之间的比较。

  按缺失的内容分别写入不同 Excel 文件向客户提交,要求在规定的时间内补全。补全后才写 入数据仓库。 B、错误的数据,产生原因是业务系统不够健全,在接收输入后没有进行判断直接写入后 台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车、日期格式 不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不面见字符 的问题只能写 SQL 的方式找出来, 然后要求客户在业务系统修正之后抽取;日期格式不正确的 或者是日期越界的这一类错误会导致 ETL 运行失败, 这一类错误需要去业务系统数据库用 SQL 的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。 C、重复的数据,特别是维表中比较常见,将重复的数据的记录所有字段导出来,让客户 确认并整理。 数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。 对于是否过滤、 是否修正一般要求客户确认;对于过滤掉的数据, 写入 Excel 文件或者将过滤 数据写入数据表,在 ETL 开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽 快的修正错误,同时也可以作为将来验证数据的依据。数据清洗需要注意的是不要将有用的 数据过滤掉了,对于每个过滤规则认真进行验证,并要用户确认才行。 2、数据转换 数据转换的任务主要是进行不一致的数据转换、 数据粒度的转换和一些商务规则的计算。 A、不一致数据转换,这个过程是一个整合的过程,将不同业务系统的相同类型的数据统 一,比如同一个供应商在结算系统的编码是 XX0001,而在 CRM 中编码是 YY0001,这样在抽取 过来之后统一转换成一个编码。 B、数据粒度的转换,业务系统一般存储非常明细的数据,而数据仓库中的数据是用来分 析的,不需要非常明细的数据,一般情况下,会将业务系统数据按照数据仓库粒度进行聚合。 C、商务规则的计算,不同的企业有不同的业务规则,不同的数据指标,这些指标有的时 候不是简单的加加减减就能完成,这个时候需要在 ETL 中将这些数据指标计算好了之后存储 在数据仓库中,供分析使用。 ETL 日志与警告发送 1、ETL 日志,记录日志的目的是随时可以知道 ETL 运行情况,如果出错了,出错在那里。 ETL 日志分为三类。第一类是执行过程日志,是在 ETL 执行过程中每执行一步的记录, 记录每次运行每一步骤的起始时间,影响了多少行数据,流水账形式。第二类是错误日志, 当某个模块出错的时候需要写错误日志,记录每次出错的时间,出错的模块以及出错的信息 等。第三类日志是总体日志,只记录 ETL 开始时间,结束时间是否成功信息。 如果使用 ETL 工具,工具会自动产生一些日志,这一类日志也可以作为 ETL 日志的一部 分。 2、警告发送 ETL 出错了,不仅要写 ETL 出错日志而且要向系统管理员发送警告,发送警告的方式有 多种,常用的就是给系统管理员发送邮件,并附上出错的信息,方便管理员排查错误。

  析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down 和 Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观 察数据库中的数据,从而深入理解包含在数据中的信息。 根据综合性数据的组织方式的不同,目前常见的 OLAP 主要有基于多维数据库的 MOLAP 及基于关系数据库的 ROLAP 两种。 MOLAP 是以多维的方式组织和存储数据, ROLAP 则利用现有 的关系数据库技术来模拟多维数据。在数据仓库应用中,OLAP 应用一般是数据仓库应用的前 端工具, 同时 OLAP 工具还可以同数据挖掘工具、 统计分析工具配合使用, 增强决策分析功能。

  数据抽取、清洗与转换 BI 项目中 ETL 设计 作者: , 出处:ITPub, 责任编辑: 叶江, 2007-05-14 13:39 ETL 是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企 业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据 ETL 是 BI 项目最重要的一个环节,通常情况下 ETL 会花掉整个项目的 1/3 的时间,ETL 设计的好坏直接关接到 BI 项目的成败。ETL 也是一个长期的过程,只有不断的发现问题并解 决问题,才能使 ETL 运行效率更高,为项目后期开发提供准确的数据。 ETL 的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计 ETL 的时候也 是从这三部分出发。 数据的抽取是从各个不同的数据源抽取到 ODS 中(这个过程也可以做一些 数据的清洗和转换), 在抽取的过程中需要挑选不同的抽取方法, 尽可能的提高 ETL 的运行效 率。ETL 三个部分中,花费时间最长的是 T(清洗、转换)的部分,一般情况下这部分工作量是 整个 ETL 的 2/3。数据的加载一般在数据清洗完了之后直接写入 DW 中去。 ETL 的实现有多种方法,常用的有三种,第一种是借助 ETL 工具如 Oracle 的 OWB、SQL server 2000 的 DTS、SQL Server2005 的 SSIS 服务、informatic 等实现,第二种是 SQL 方式 实现,第三种是 ETL 工具和 SQL 相结合。前两种方法各有优缺点,借助工具可以快速的建立 起 ETL 工程,屏蔽复杂的编码任务,提高速度,降低难度,但是欠缺灵活性。SQL 的方法优 点是灵活,提高 ETL 运行效率,但是编码复杂,对技术要求比较高。第三种是综合了前面二 种的优点,极大的提高 ETL 的开发速度和效率。 数据的抽取

  OLAP 是使分析人员、 管理人员或执行人员能够从多角度息进行快速、 一致、 交互地存取, 从而获得对数据的更深入了解的一类软件技术。 OLAP 的目标是满足决策支持或者满足在多维

  环境下特定的查询和报表需求,它的技术核心是维这个概念。 “维”是人们观察客观世界的角度,是一种高层次的类型划分。 “维”一般包含着层次关 系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个 维 (dimension),使用户能对不同维上的数据进行比较。因此 OLAP 也可以说是多维数据分析工 具的集合。 OLAP 的基本多维分析操作有钻取(roll up 和 drill down)、切片(slice)和切块(dice)、 以及旋转(pivot)、drill across、drill through 等。 · 钻取是改变维的层次, 变换分析的粒度。 它包括向上钻取(roll up)和向下钻取(drill down)。 roll up 是在某一维上将低层次的细节数据概括到高层次的汇总数据, 或者减少维数; 而 drill down 则相反,它从汇总数据深入到细节数据进行观察或增加新维。 ·切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的 维只有两个,则是切片;如果有三个,则是切块。 ·旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。 OLAP 有多种实现方法,根据存储数据的方式不同可以分为 ROLAP、MOLAP、HOLAP。 ROLAP 表示基于关系数据库的 OLAP 实现(Relational OLAP)。 以关系数据库为核心,以关 系型结构进行多维数据的表示和存储。 ROLAP 将多维数据库的多维结构划分为两类表:一类是 事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层 次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了 星型模式。 对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述, 这种星型模式的扩展称为雪花模式。 MOLAP 表示基于多维数据组织的 OLAP 实现(Multidimensional OLAP)。以多维数据组织 方式为核心,也就是说,MOLAP 使用多维数组存储数据。多维数据在存储中将形成立方块 (Cube)的结构,在 MOLAP 中对立方块的旋转、切块、切片是产生多维数据报表的主 要技术。 HOLAP 表示基于混合数据组织的 OLAP 实现(Hybrid OLAP)。如低层是关系型的,高层是 多维矩阵型的。这种方式具有更好的灵活性。 还有其他的一些实现 OLAP 的方法,如提供一个专用的 SQL Server,对某些存储模式(如 星型、雪片型)提供对 SQL 查询的特殊支持。 OLAP 工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、 查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通 常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就 是维。 而这些维的不同组合和所考察的度量指标构成的多维数组则是 OLAP 分析的基础, 可形 式化表示为(维 1,维 2,„„,维 n,度量指标),如(地区、时间、产品、销售额)。多维分

  数据的抽取需要在调研阶段做大量工作,首先要搞清楚以下几个问题:数据是从几个业 务系统中来?各个业务系统的数据库服务器运行什么 DBMS?是否存在手工数据, 手工数据量有 多大?是否存在非结构化的数据?等等类似问题,当收集完这些信息之后才可以进行数据抽取 的设计。 1、与存放 DW 的数据库系统相同的数据源处理方法 这一类数源在设计比较容易,一般情况下,DBMS(包括 SQLServer,Oracle)都会提供数 据库链接功能,在 DW 数据库服务器和原业务系统之间建立直接的链接关系就可以写 Select 语句直接访问。 2、与 DW 数据库系统不同的数据源的处理方法。 这一类数据源一般情况下也可以通过 ODBC 的方式建立数据库链接,如 SQL Server 和 Oracle 之间。如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导 出成.txt 或者是.xls 文件, 然后再将这些源系统文件导入到 ODS 中。 另外一种方法通过程序 接口来完成。 3、对于文件类型数据源(.txt,,xls),可以培训业务人员利用数据库工具将这些数据导 入到指定的数据库,然后从指定的数据库抽取。或者可以借助工具实现,如 SQL SERVER 2005 的 SSIS 服务的平面数据源和平面目标等组件导入 ODS 中去。 4、增量更新问题 对于数据量大的系统,必须考虑增量抽取。一般情况,业务系统会记录业务发生的时间, 可以用作增量的标志,每次抽取之前首先判断 ODS 中记录最大的时间,然后根据这个时间去 业务系统取大于这个时间的所有记录。利用业务系统的时间戳,一般情况下,业务系统没有 或者部分有时间戳。 数据的清洗转换 一般情况下,数据仓库分为 ODS、DW 两部分,通常的做法是从业务系统到 ODS 做清洗, 将脏数据和不完整数据过滤掉, 再从 ODS 到 DW 的过程中转换, 进行一些业务规则的计算和聚 合。 1、数据清洗 数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认 是否过滤掉还是由业务单位修正之后再进行抽取。 不符合要求的数据主要是有不完整的数据、 错误的数据和重复的数据三大类。 A、 不完整的数据, 其特征是是一些应该有的信息缺失, 如供应商的名称, 分公司的名称, 客户的区域信息缺失、业务系统中主表与明细表不能匹配等。需要将这一类数据过滤出来,

商业智能录入:admin    责任编辑:admin 
  • 上一个商业智能:

  • 下一个商业智能: 没有了
  •  
     栏目文章
    普通商业智能 BI商业智能_百度文库 (07-18)
    普通商业智能 商业智能BI介绍 (07-18)
    普通商业智能 商业智能BI是什么?如何正确了解商业智能(BI… (07-18)
    普通商业智能 大数据时代商业智能BI的使用规则 (07-18)
    普通商业智能 嘉晨智能与客户的合作时间存矛盾 股权纠纷牵出… (07-17)
    普通商业智能 【经济观察】监管新规出台推动生成式人工智能… (07-17)
    普通商业智能 第十八届中国国际中小企业博览会闭幕 达成各类… (07-17)
    普通商业智能 小微企业发展智能商业有前途 (07-17)
    普通商业智能 拓维信息2022年年度董事会经营评述 (07-17)
    普通商业智能 恭贺蓝本影音荣获2021-2022私人影院创意设计大… (07-17)
    普通商业智能 创意无限开拓新市场——揭秘研究型设计咨询公… (07-17)
    普通商业智能 logo创意设计的方法有哪些?可以试试这些方法 (07-17)
    普通商业智能 创新设计其实离你并不遥远 (07-17)
    普通商业智能 创客贴赋能金融数字化 构建行业新生态 (07-17)
    普通商业智能 海科融通:AI深度挖掘与BI数据可视化的结合 (07-16)
    普通商业智能 数据可视化开发中bi开源框架的选择 (07-16)
    普通商业智能 BI数据可视化分析套用方案第一时间摸清家底 (07-16)
    普通商业智能 不用SQL做数据可视化的BI软件有哪些? (07-16)
    普通商业智能 对接金蝶ERP的bi数据可视化软件有哪些? (07-16)
    普通商业智能 智商≠智能学生间的多层次互动更影响智能开发 (07-16)