阀门型号编制• 数据挖掘(Data Mining)与数据仓库(Data Warehouse)没有 直接的联系 • 在大部分情况下,数据挖掘都要把数据从数据仓库中拿到数据挖 掘库或数据集市中 • 为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必 须的
1. 2. 3. 4. 5. 6. 7. 明确数据分析目标 对数据进行选择、组织和预处理 探索性分析数据及转换 确定在分析阶段使用的统计方法 用选定的方法分析数据 评价和比较实用的方法,选择最后的分析模型 解释最终模型和它在决策过程中的应用
数据库系统(生产系统): ● 面向应用、事务驱动的 ● 实时性高 ● 数据检索量少 ● 只存当前数据
• 数据仓库系统(决策系统): ● 面向主题、分析和决策 客 产 ● 实时性要求不是特别高 户 品 ● 数据检索量大 ● 存储大量的历史数据和当前数据
• 大数据是BI的input的一部分 • 大数据和BI都是为决策服务的 • 结合实际需求选择“大数据“ or ”BI”
• 基于单张维度表的两个不同列,这两个列一起定义了维度成员的 沿袭关系,一列称为成员列表,标识每个成员;另一列称为父键 列,标识每个成员的父代
• 指数据仓库的数据单位中保存数据的细化或综合程度的级别 • 粒度越小,细分级别越高;粒度越大,细分级别越低。
原始数据 细节性数据 当前值数据 可更新 一次处理的数据量小 面向应用,事务驱动 面向操作人员,支持日常操作
导出数据 综合性和提炼性数据 历史数据 可更新,但周期性刷新 一次处理的数据量大 面向分析,分析驱动 面向决策人 员支持管理需要
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数 据,经过ETL最终按照预先定义好的数据仓库模型,将数据加
• 从收入、可赢利性、满意度的角度 来讲,哪些是您最好的客户? • 哪些客户会对促销作出响应?
• 没有大小限制,现有的关系数据库的技术可以沿用,可以通过 SQL实现详细数据与概要数据的存储。现有关系型数据库已经对 OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、
现成解决方案规划 修改 逻辑 数据 模型 详 细 数 据 分 析 解决 方案 定义 逻辑 数据 模型 设计 解 决 方 案 体 系 结 构 设 计 物理数据库 设计 元 数 据 管 理 解 决 方 案 集 成 应用增强
• BI是把运营数据转化成为高价值的可以获取的信息(或知 识),并且在恰当的时候通过恰当的方式把恰当的信息传递给 恰当的人
• 用于经理、主管的精确及时的 报告 • 公司数以万计的以及其他的公 开内容
物理数据模型 业务探索 系 统 体 系 结 构 设 计 元 数 据 管 理 解 决 方 案 集 成
1. 项目前期准备 2. 业务探索(Business Discovery) 3. 信息探索(Information Discovery) 4. 逻辑数据模型设计 5. 系统体系结构设计 6. 物理数据库设计 7. 数据转换加载ETL 8. 前端应用开发 9. 数据挖掘服务 10.元数据管理 11.数据仓库管理(处理流程与操作) 12.解决方案集成(测试验收与试运行)
• 观察数据的某个特定角度(即某个维) 存在的细节程度各个描 述方面(如时间维:日、月份、季度、年) • 为了显示维度的级别及要求的上卷、下钻我们一定要按维度级 别的需求顺序设计
数据集市(Data Mart) ,也叫数据市场,数据集市就是满足特 定的部门或者用户的需求,按照多维的方式进行存储,包括定 义维度、需要计算的指标、维度的层次等,生成面向决策分析 需求的数据立方体。 从范围上来说,数据是从企业范围的数据库、数据仓库,或者 是更加专业的数据仓库中抽取出来的。数据中心的重点就在于 它迎合了专业用户群体的特殊需求,在分析、内容、表现,以 及易用方面。数据中心的用户希望数据是由他们熟悉的术语表 现的
混合数据组织的OLAP实现 低层是关系型的 高层是多维矩阵型 ROLAP和MOLAP的有机结合
度量值所在的表称为事实数据表,事实表所表现的特点是 包含数值数据(事实),而这些数值数据可以统计汇总以提供 有关单位运作历史的信息。此外,每个事实数据表还包括一 个或多个列,这些列作为引用相关的维度表的外码
• OLTP(Online Transaction Process) 联机事务处理,是公司日常运营的基础,是业务流程信息化的 关键,基于生产数据库。
数据抽取:从源数据源系统抽取目的数据源系统需要的数据 数据清洗:重复行数据的清理,无用字段的清理,空值的处理等,
正则表达式的使用。 数据转换:数据类型的转换,比如int转varchar,字符型转日期型
性能好、响应速度快 专为OLAP所设计, 支持高性能的决策支持计算 复杂的跨维计算 多用户的读写操作 行级的计算
增加系统复杂度,增加系统培训与维护费用 受操作系统平台中文件大小的限制 需要进行预计算,可能导致数据爆炸 无法支持维的动态变化 缺乏数据访问的标准
数据挖掘时为了发现实现未知的规则和联系而对大量数据进行选 择、探索和建模的过程,目的在于得到对数据库的拥有者来说 有用的结果。
数据挖掘与OLAP OLAP是通常是用户根据已知的情况对所关心的业务指标进行 分析,所得到得为数据中相对表面的的信息;而数据挖掘则是 在业务问题目标明确但考察的问题不清楚时,对数据进行探索, 揭示隐藏其中的规律性,进而将其模型化,更多的是通过统计 学等知识分析出众多数据中隐含的信息。
• OLAP(Online Analysis Process) 联机分析处理,基于数据仓库的数据分析,以供决策所需,面 向管理层,面向未来。
• 满足决策支持或多维环境特定的查询和报表需求,它的技术核心 是“维”这个概念,因此OLAP也可以说是多维资料分析工具的集 合。 • 通常所说的BI分析就是指OLAP,更为准确是指OLAP分析及结果展 示。
• 领导层的强力支持 • 流畅的数据流 • 一支熟悉业务、精通技术的团队 • 业务驱动,业务人员与BI团队良好的沟通 • 完善的推广、培训制度 • 功能完善的相关软件(DW、ETL、OLAP、DM)
|