# DAMA数据治理学习笔记
# 前言
当今的业务发展速度意味着变革不再是可选项,数字化转型已经成为共识。为了做出反应,业务部门必须与技术数据专业人员共同创建信息解决方案,并与相应的业务团队一起工作。他们必须计划如何获取并管理那些他们知道的用来支持业务战略的数据。
- DMbok2 数据管理框架
- DAMA车轮图演变
- DAMA功能领域依赖关系图
- DAMA数据管理功能框架
- 购买或构建的数据库能力
- 知识领域语境关系图
# 数据-信息-知识-洞察-智慧-影响力关系
引用右下角,侵删
# 数据管理
# 定义
数据管理是为了交付、控制、保护并提升数据和信息资产的价值,在其整个生命周期中制定计划、制度、规程和实践活动,并执行和监督的过程。
# 业务驱动因素
拥有关于客户、产品、服务和运营的可靠、高质量数据的组织,能够比没有数据或数据不可靠的组织做出更好的决策。
# 目标
- 理解并支撑企业及其利益相关方的信息需求得到满足
- 获取、存储、保护数据和确保数据资产的完整性
- 确保数据和信息的质量
- 确保利益相关方的数据隐私和保密性
- 防止数据和信息未经授权或被不当访问、操作及使用
- 确保数据能有效地服务于企业增值的目标
# 数据管理原则
- 数据是独有属性的资产(特点:在使用中不会被消耗)
- 数据的价值可以用经济术语来表示
- 对数据的质量管理
- 需要元数据
- 需要规划
- 驱动信息技术决策
- 跨职能
- 企业级视角
- 多角度思考
- 全生命周期管理
- 纳入与数据相关的风险
- 领导承担责任
# 数据管理的挑战
# 数据与其他资产的区别
- 随时间推移变化
- 持久的
- 不会被消耗
- 丢失或销毁不易重新产生
- 不损耗被盗
- 同时被多人使用
# 数据价值
- 获取和存储数据的成本
- 如果数据丢失,更换数据需要的成本
- 数据丢失对组织的影响
- 风险缓解成本和与数据相关的潜在风险成本
- 改进数据的成本
- 高质量数据的优势
- 竞争对手为数据付出的费用
- 数据潜在的销售价格
- 创新性应用数据的预期收入
# 数据质量
# 低质量数据的成本主要来源于:
- 报废和返工。
- 解决方法和隐藏的纠正过程。
- 组织效率低下或生产力低下。
- 组织冲突。
- 工作满意度低。
- 客户不满意。
- 机会成本,包括无法创新。
- 合规成本或罚款。
- 声誉成本。
# 高质量数据的作用包括:
- 改善客户体验。
- 提高生产力。
- 降低风险。
- 快速响应商机。
- 增加收入。
- 洞察客户、产品、流程和商机,获得竞争优势。
# 数据生命周期的几个重要影响
- 创建和使用是数据生命周期中的关键点
- 数据质量管理必须贯穿整个数据生命周期
- 元数据质量管理必须贯穿整个数据生命周期
- 数据管理还包括确保数据安全,并降低与数据相关的风险
- 数据管理工作应聚集于关键数据
# 数据管理战略规划的可交付成果
- 数据管理章程: 总体愿景、业务案例、目标、指导原则、成 功衡量标准、关键成功因素、可识别的风险、运营模式等
- 数据管理范围申明: 规划目的和三年目标,以及负责实现目标的角色、组织和领导
- 数据管理实施路线图: 确定特定计划、项目、任务分配和交付里程碑
# 数据治理
# 定义
对数据资产管理行使权力、控制和共享决策(规划、监测和执行)的系列活动。
# 目标
- 提升企业数据资产管理能力
- 定义、规划、批准、执行数据管理的原则、政策、程序、指标、工具、责任。
- 监控和指导政策合规性、数据使用和管理活动
# 原则
- 领导力和战略
- 业务驱动
- 多层次
- 共担责任
- 基于原则
- 基于框架
# 业务驱动因素
# 减少风险
- 一般性风险
- 数据安全
- 隐私
# 改进流程
- 法规遵从性
- 数据质量提升
- 元数据管理
- 项目开发效率
- 供应商管理
# 有效数据治理特征
- 可持续
- 可度量
- 嵌入式
# 数据治理基础原则
- 领导力和战略 成功的数据治理始于远见卓识和坚定的领导。数据战略指导数据管理活动,同时由企业业务战略所驱动。
- 业务驱动 数据治理是一项业务管理计划,因此必须管理与数据相关的 IT 决策,就像管理与数据有关的业务活动一样。
- 共担责任 在所有数据管理的知识领域中,业务数据管理专员和数据管理专业人员共担责任。
- 多层面数据治理活动发生在企业层面和各地基层,但通常发生在中间各层面。
- 基于框架 由于治理活动需进行跨组织职能的协调,因此对数据治理项目必须建立一个运营框架来
- 原则导向 指导原则是数据治理活动、特别是数据治理策略的基础。
# 以数据为中心的组织对待数据的原则
- 数据必须作为资产管理起来
- 在组织内鼓励数据管理的最佳实践
- 确保企业数据战略和业务战略保持一致
- 持续改进数据管理流程
# 典型的数据治理委员会
- 数据治理指导委员会
- 数据治理委员会
- 数据治理办公室
- 数据管理团队
- 本地数据治理委员会
# 数据治理运营模式
- 集中式
- 分布式
- 联邦式
# 数据治理活动重点
- 创建和管理核心元数据
- 记录规则和标准
- 管理数据质量问题
- 执行数据治理运营活动
# 数据资产估值
- 替换成本
- 发现商机
- 售卖数据
- 市场价值
- 风险成本
# 数据治理活动
# 规划组织的数据治理
- 执行就绪评估 成熟度、协作能力、变革能力、业务一致
- 探索与业务一致
- 指定组织触点
# 制定数据治理战略
- 制定数据治理运营框架
- 制定目标、原则、制度
- 推送数据管理项目
- 参与问题管理
- 参与变更管理
- 评估法规遵从性
# 实施数据治理
- 发起数据标准和规程
- 制定业务术语表
- 协调架构团队协作
- 发起数据资产估值
# 嵌入数据治理
# 数据治理工具和方法
- 线上网站
- 业务术语表
- 工作流工具
- 文档管理工具
- 数据治理记分卡
# 数据治理实施指南
一般始于重大项目、试点、渐进式
- 定义规程/运营计划——>实施路线图——>启动治理
# 数据治理成功与否的度量指标
# 价值
- 对业务目标的贡献
- 风险降低
- 运营效率提高
# 有效性
- 目标的实现
- 沟通的有效性
- 培训的有效性
- 采纳变革的速度
- 扩展数据管理专员使用的工具
# 可持续性
- 制度和流程的执行情况
- 标准和规程的执行情况
# 数据架构
# 定义
对组件要素有组织的设计,旨在优化整个结构或系统的功能、性能、可行性、成本和用户体验。系统的基本结构,具体体现在架构构成中的组件、组件之间的相互关系以及管理其设计和演变的原则。在组织不同范围、不同层级开展。负责将难以理解的东西定义明确清晰 识别企业的数据需求(无论数据结构如何),设计和维护总蓝图以满足这些需求。使用总览图来指导数据集成、控制数据资产,并使数据投资与业务战略保持一致。
# 企业架构
类型 | 企业业务架构 | 企业数据架构 | 企业应用架构 | 企业技术架构 |
---|---|---|---|---|
目的 | 识别企业如何为消费者和其他利益相关方创造价值 | 描述数据应该如何组织和管理 | 描述企业应用的结构和功能 | 描述能使系统发回功能和传递价值的实体技术 |
元素 | 业务模型、流程、功能、服务、时间、策略、词汇 | 数据模型、数据定义、数据映射规范、数据流、结构化数据应用编程接口 | 业务系统、软件包、数据库 | 技术平台。网络、安全、整合工具 |
依赖项 | 指定其他架构的需求 | 管理业务架构构建和需要的数据 | 依赖业务需求来处理指定的数据 | 承载并执行应用架构 |
角色 | 业务架构师和分析师、业务数据管理员 | 数据架构师、价模式、数据管理员 | 应用架构师 | 基础设施架构师 |
# 数据架构的构件
- 当前状态的描述
- 数据需求的定义
- 数据整合的指引
- 数据资产管理的规范
# 目标
在业务战略和技术之间建立桥梁,作为企业战略的一部分
- 识别数据存储和处理需求
- 设计架构、计划以满足企业当前和长期的数据需求
- 战略性的为组织做好准备,快速发展其产品、服务和数据,以利用新兴技术中固有的商机
# 业务驱动因素
- 利用新兴技术所带来的业务优势,快速帮助组织改变产品、服务、数据
- 将业务需求转化为数据或应用需求
- 管理复杂数据,并传递给整个组织
- 确保业务和IT技术保持一致
- 为企业改革、转型、提高适应性提供支撑
# 数据架构的主要成果
- 数据存储和处理需求
- 设计满足当前和长期的数据需求的结构和规划
# 数据架构师的主要工作
- 定义数据当前状态
- 提供数据的组件和标准业务词汇
- 确保数据架构和企业战略、业务架构一致性
- 描述数据战略需求
- 高阶数据整合概要设计
- 整合企业数据架构蓝图
# 总体数据架构实施
- 使用数据架构构件来定义数据需求、指导数据整合、管控数据资产,确保数据项目投入与企业战略战略一致。
- 与参与改进业务或IT系统开发的利益相关方合作,学习并影响他们
- 通过数据架构及通用的数据词汇,搭建企业数据语言
# 数据架构活动
# 建立企业数据架构
- 现有数据架构规范评估
- 开发路线图
- 在项目中管理企业需求
# 整合其他企业架构
# 数据架构工具
- 数据建模工具
- 资产管理软件
- 图形设计应用
# 数据架构方法
# 生命周期预测
- 当前的
- 部署周期的
- 策略周期的
- 退役的
- 优先的
- 限制的
- 新兴的
- 审核的
# 图标使用规范
- 清晰一致的说明
- 所有图标对象与说明匹配
- 清晰一致的线条方向
- 一致的交叉线显示方法
- 一致的对象属性
- 线性对称
# 实施指南
- 建立企业数据架构团队和举办问题讨论会
- 生成数据架构构件的初始版本。例如,企业数据模型、企业范围数据流和路线图
- 在开发项目中,形成和建立数据架构工作方式
- 提高组织对数据架构工作价值的认识
# 就绪评估和风险评估
架构类的项目最明显的风险:
- 缺少管理层的支持
- 成功与否缺乏证据
- 缺乏管理者的信任
- 管理层不正确的决策
- 文化冲击
- 缺乏有经验的项目经理
- 单一维度视角
# 数据架构治理
# 数据架构治理活动
- 项目监督
- 管理架构设计、生命周期和工具
- 定义标准
- 创建数据相关构件
# 度量指标
- 架构标准接受率
- 实施趋势
- 业务价值度量指标
# 数据建模和设计
# 定义
数据建模是发现、分析和确定数据希求的过程,用一种称为数据模型的精确形式标识和传递这些数据需求。这个过程是循环迭代的,可能包括概念、逻辑、物理模型
# 业务驱动因素
- 提供有关数据的通用词汇表
- 获取、记录组织内数据和系统的详细信息
- 在项目中作为主要的交流沟通工具
- 提供了应用定制、整合,甚至替换的起点
# 建模方法
- 关系建模
- 多维模型
- 面向对象模型
- 基于事实建模
- 基于时间建模
- 菲关系型建模: 文档数据库、健值数据库、列数据库、图数据库
# 数据模型组件
- 实体
- 关系
- 属性
- 域
# 范式设计层次
模型的规范化通常要求达到第三范式,BCNF/第四范式/第五范式在实践中几乎不用,不列出
- 第一范式: 每个实体都有一个有效的主键,每个属性都依赖于主键
- 第二范式: 每个实体都有最小的主键,每个属性都依赖于完整的主键
- 第三范式: 每个实体都没有隐藏的主键,属性都不依赖于健值意外的任何属性(仅依赖完整主键)
# 逆规范化原因
- 提前组合来自多个其他表的数据
- 创建更小的、预先处理的数据副本,减少昂贵的运行时计算或大型表扫描
- 预算计算和存储昂贵的数据计算结果,以避免运行时系统资源竞争
# 数据建模活动
# 规划数据建模
# 建立数据模型
# 概念数据模型建模
- 选择模型类型
- 选择标识方法
- 完成初始化概念模型
- 收集组织中最高级的概念
- 手机这些与概念有关的活动
- 合并企业术语
- 获得签署
# 逻辑数据模型建模:
- 分析信息需求
- 分析现有文档
- 添加关联实体
- 添加属性
- 指定域
- 指定键
# 物理数据模型建模:
- 解决逻辑抽象
- 添加属性细节
- 添加参考数据对象
- 指定代理键
- 逆规范化
- 建立索引
- 分区
- 创建视图
# 审核数据模型
# 维护数据模型
# 度量指标
- 模型多大程度上反映了业务需求? 15
- 模型的完整性如何?(需求完整性,元数据完整性) 15
- 模型与模式的匹配度是多少? 10
- 模型的结构如何? 15
- 模型的通用性如何?10
- 模型遵循命名标准的情况如何? 5
- 模型的可读性如何? 5
- 模型的定义如何? 10
- 模型与企业数据架构的一致性如何? 5
- 与元数据的匹配程度如何? 10
# 数据安全
# 定义
定义、开发、执行、监控安全策略和规程,以提供对数据和信息资产的适当验证、授权、访问、审计
# 数据安全需求来源
- 利益相关方
- 政府法规
- 特定业务关注点
- 合法访问需求
- 合同义务
# 业务驱动因素
- 降低风险
- 业务增长
- 安全性作为资产
# 目标
- 支持适当访问并防止对企业数据资产的不当访问
- 支持对隐私、保护和保密制度、法规的遵从
- 确保满足利益相关者对隐私、保密的要求
# 原则
- 协同合作
- 企业统筹
- 主动管理
- 明确责任
- 元数据驱动
- 减少接触降低风险
# 风险分类
- 关键风险数据: 个人信息,可能导致公司被处罚,影响品牌和声誉,造成财务损害
- 高风险数据: 为公司提供竞争优势,财产损失,法律风险
- 中等风险数据: 没有实际价值,但公开可能有负面影响
# 安全过程(4A1E)
- 访问(Access)
- 审计(Audit)
- 验证(Authentication)
- 授权(Authorization)
- 权限(Entitlement)
# 加密方式
- 哈希 Hash
- 对称加密 DES/AES
- 非对称加密 RSA
# 脱敏
- 静态数据脱敏: 不落地脱敏/落地脱敏
- 动态数据脱敏: 不改变数据,访问时脱敏
# 方法
- 替换
- 时空变异
- 数值变异
- 混排
- 取消或删除
- 随机选择
- 加密技术
- 表达式脱敏
- 键值脱敏
# 数据安全类型
- 设施安全
- 设备安全
- 凭据安全
- 电子通信安全
# 机密数据分类
- 对普通受众公开(For General Audiences)。
- 仅内部使用(Internal Use Only)。仅限员工或成员使用的信息,但信息分享的风险很小。这种信息仅供内部使用、可在组织外部显示或讨论,但不得复制。
- 机密(Confidential)。若无恰当的保密协议或类似内容,不得在组织以外共享。不得与其他客户共享客户机密信息。
- 受限机密(Restricted Confidential)。受限机密要求个人通过许可才能获得资格,仅限于特定“需要知道”的个人。
- 绝密(Registered Confidential)。信息机密程度非常高,任何信息访问者都必须签署一份法律协议才能访问数据,并承担保密责任
# 活动
# 识别数据安全需求
- 业务需求
- 监管要求
# 制定数据安全制度
- 企业安全制度
- IT安全制度
- 数据安全制度
# 定义数据安全细则
- 定义数据保密等级
- 定义数据监管类别
- 定义安全角色
# 评估当前安全风险
- 存储或传送的数据敏感性
- 保护数据的要求
- 现有的安全保护措施
# 实施控制和规程
- 分配密级
- 分配监管类别
- 管理和维护数据安全
- 管理安全制度遵从性
# 工具
- 杀毒软件/安全软件
- HTTPS
- 身份管理技术
- 入侵侦测和入侵防御软件
- 防火墙
- 元数据跟踪
- 数据脱敏/加密
# 方法
- 应用CRUD矩阵
- 即时安全补丁部署
- 元数据中的数据安全属性
- 项目需求中的安全要求
- 文件清理
# 实施指南
- 就绪评估/风险评估
- 组织和文化变革
- 用户数据授权的可见性
- 外包世界中的数据安全 (任何事情都可以外包,但责任除外)
- 云环境中的数据安全
# 度量指标
- 安全实施指标
- 数据意识指标
- 数据保护指标
- 安全事件指标
- 机密数据扩散
# 主数据和参考数据
# 定义
管理共享数据以满足组织目标,减少与数据冗余相关的风险,确保更高的质量,并降低数据整合的成本
# 业务驱动因素
- 满足组织数据需求
- 管理数据质量
- 管理数据集成的成本
- 降低风险
# 目标
- 确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据
- 在一个组织内跨业务领域和应用系统共享参考数据和主数据
- 通过采用标准的、通用的数据模型和整合模式,降低数据使用和整合的成本及复杂性
# 指导原则
- 共享数据
- 所有权
- 质量
- 管理职责
- 控制变更
- 权限
# RDM和MDM管理重点不同
- 参考数据管理: 需要对定义的域值及其定义进行控制。参考数据管理的模板是确保组织能够访问每个概念的一整套准确且最新的值。
- 主数据管理: 需要对主数据的值和标识符进行控制,以便能能够跨系统地、一直地使用核心业务实体中最准确、最及时的数据。主数据管理的目标包括当前值的准确性和可用性,同时降低由那些不明确的标识符所引发的风险。
# 主数据
- 参与方: 个人和组织,如客户、公民、病人、厂商、供应商、代理商、学生等
- 产品和服务: 内部和外部的产品及服务
- 财务体系: 合同、总账。成本中心、利润中心
- 位置信息: 地址和GPS坐标
# 主数据管理的关键处理步骤
- 数据模型管理
- 数据采集
- 数据验证、标准化和数据丰富
- 实体解析
- 管理和共享
# 实现主数据中心环境的三种方法
- 注册表
- 交易中心
- 混合模式
# 产品主数据来源
- PLM
- PDM
- ERP
- CRM
# 活动
- 识别驱动因素和需求 (验证数据定义)
- 评估和评价数据来源
- 定义架构方法
- 建模主数据
- 定义管理职责和维护流程
- 建立治理制度,推动主数据使用
# 度量指标
- 数据质量遵从性
- 数据获取和消费
- 服务水平协议
- 数据管理专员覆盖率
- 拥有总成本
- 数据共享量和使用情况
# 数据仓库和商业智能
企业数据仓库提供了一种减少数据冗余、提高信息一致性,让企业能够利用数据做出更优决策的方法
# 定义
- 通过规划、实施和控制过程,来提供决策支持数据,支持从事报告、查询和分析的知识工作者
# 商业智能的两层含义
- 理解组织诉求和寻找商业机会的商业分析活动,分析结果用来提高组织决策的成功率
- 支持1这类分析活动的技术合集
# 业务驱动因素
- 运营支持职能、合规需求和商务职能活动
# 目标
- 建立和维护提供集成数据所需的技术环境、技术和业务流程,以支持运营功能、合规性要求和商务智能活动
- 支持和赋能知识工作者进行有效的业务分析和决策
# 数仓建设目标
- 支持商务智能活动
- 赋能商业分析和高效决策
- 基于数据洞察寻找创新方法
# 数仓建设应遵循原则
- 聚焦业务目标
- 以终为始
- 全局性的思考和设计,局部性的行动和建设
- 总结并持续优化,而不是一开始就这样
- 提升透明度和自助服务
- 与数据仓库一起建立元数据
- 协同
- 不要千篇一律
两位思想领袖比尔·恩门(Bill Inmon) 和拉尔夫·金博尔( Ralph Kimball)分别使用范式建模和多维建模来完成数据仓库建模
# Inmon和Kimball相似的核心理念
- 数据仓库存储的数据来自其他系统
- 存储行为包括以提升数据价值的方式来整合数据
- 数据仓库便于数据被访问和分析使用
- 组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据
- 数据仓库建设有很多目的,涵盖工作流支持、运营管理和预测分析
# Inmon企业信息工厂
比尔·恩门在《数据仓库》(Building the Data Warehouse )中定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合
- 面向主题的
- 整合的
- 随时间变化的
- 稳定的
- 聚合数据和明细数据
- 历史的
# 组成部分
- 应用程序
- 数据暂存区
- 集成和转化
- 操作型数据存储(ODS)
- 数据集市
- 操作型数据集市(OpDM)
- 数据仓库
- 运营报告
- 参考数据、主数据和外部数据
# 数据从左到右流动带来的变化
- 目标从业务功能的执行转向数据分析
- 系统最终用户从一线业务人员变成企业决策者
- 系统使用从固定操作转向即席查询
- 响应时间的要求不再重要
- 每个操作、查询或流程设计更多数据
# 数据仓库和数据集市的数据与应用程序的数据不同
- 数据的组织形式是按主题域而不是按功能需要
- 数据是整合的数据,而不是‘孤立’的烟囱数据
- 数据是随时间变化的系列数据,而非仅当前时间的值
- 数据在数据仓库中的延迟比在应用程序中高
- 数据仓库中提供的历史数据比应用程序中提供的历史数据多
# Kimball多维数据仓库
拉尔夫·金博尔在《数据仓库工具箱》(The DataWarehouse Toolkit)中提出:主张自下而上(DMDW)的方式,力推数据集市建设,他定义为“为查询和分析定制的交易数据的副本
# 组件
- 业务源系统
- 数据暂存区域
- 数据展示区域
- 数据访问工具
# 加载处理方式
# 历史数据
- Inmon 类型的数据仓库建议所有数据存储在单个数据仓库层中。这一层中存储已清洗过的、标准化的和受管控的原子级数据。
- Kimball 类型的数据仓库建议,数据仓库由包含已清洗过的、标准化的和受管控数据的部门级数据集市合并而成。数据集市将在原子级别存储历史记录,由一致性维度表和一致性事实表提供企业级信息。
- Data Vault 作为数据暂存处理的一部分,同样进行数据清洗和标准化。历史数据以规范化的原子结构存储,每个维度定义了代理键(Surrogate key)、主键(Primary key)、备用键(Alternate key)
# 批量变更数据捕获
方法 | 对源系统要求 | 复杂度 | 事实表加载 | 维表加载 | 重叠 | 删除 |
---|---|---|---|---|---|---|
时间戳增量加载 | 源系统中的变化由系统日期和时间戳标识 | 低 | 快 | 快 | 是 | 否 |
日志表增加加载 | 捕获源系统中的变化并记录在日志表 | 中 | 普通 | 普通 | 是 | 是 |
数据库交易日志 | 在交易日志记录数据库变化 | 高 | 普通 | 普通 | 否 | 是 |
消息增量 | 源系统中的变化发布在实时消息(队列) | 极高 | 慢 | 慢 | 否 | 是 |
全量加载 | 没有更改标识符,抽取全表数据并比较判断改动 | 级低 | 慢 | 普通 | 是 | 是 |
# 准实时、实时、数据加载
- 涓流式(源端累积)
- 消息传送(总线累积)
- 流式传送(目标端累积)
# 活动
- 理解需求
- 定义和维护DW&BI架构(技术架构、管理流程)
- 开发数据仓库和数据集市(数据、技术、工具并行 1.从源映射到目标 2.修正和转换数据)
- 加载数据仓库
- 实施BI产品组合(1.根据需要给用户分组 2.将工具与用户要求相匹配)
- 维护数据产品 (1.发布管理 2.管理数据产品开发生命周期 3.监控和调优加载过程 4.监控和调优商务智能活动和性能)
# 工具
- 元数据存储库
- 数据集成工具
- 商务智能工具
# 常见的OLAP操作
- 切片(Slise)
- 切块(Dice)
- 向下/向上钻取(Drill down/up)
- 向上卷积(Roll-up)
- 透视
# 三种经典的OLAP实现方法
- ROLAP 关系型联机分析处理
- MOLAP 多维矩阵型联机分析处理
- HOLAP 混合型联机分析处理
# 方法
- 驱动需求的原型
- 自助式商务智能
- 可查询的审计数据
# 实施指南
- 就绪评估/风险评估
- 版本路线图
- 配置管理
- 组织与文化变革
# 数据仓库&BI治理
- 业务接受度
- 客户/用户满意度
- 服务水平协议
- 报表策略
# 度量指标
- 使用指标
- 主题域覆盖率
- 响应时间和性能指标
# 元数据管理
定义和描述其他数据的数据
# 定义
- 通过计划、实施和控制活动确保访问到高质量的、整合的元数据
# 目标
- 激励和管理与数据相关的业务术语知识体系,以确保人们理解和使用数据内容的一致性
- 收集和整合来自不同来源的元数据,以确保人们了解来自组织不同部门的数据之间的相似性和差异
- 确保元数据的质量、一致性、及时性和安全
- 提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据
- 推广或强制使用技术元数据标准,以实现数据交换
# 业务驱动因素
- 通过提供上下文语境和执行数据质量检查提高数据的可信度
- 通过扩展用途增加战略信息(如主数据)的价值
- 通过识别冗余数据和流程提高运营效率
- 防止使用过时或不正确的数据
- 减少数据的研究时间
- 改善数据使用者和IT专业人员之间的沟通
- 创建准确的影响分析,从而降低项目失败的风险
- 通过缩短系统开发生命周期时间缩短产品上市时间
- 通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响
- 满足监管合规
# 原则
- 组织承诺
- 战略
- 企业视角
- 潜移默化
- 访问
- 质量
- 审计
- 改进
# 元数据类型
# 业务元数据
主要关注数据的内容和条件,另包括数据治理相关的详细信息
- 数据集、表和字段的定义和描述
- 业务规则、转换规则、计算公式和推导公式
- 数据模型
- 数据质量规则和核验结果
- 数据的更新计划
- 数据溯源和数据血缘
- 数据标准
- 特定的数据元素记录系统
- 有效值约束
- 利益相关方联系信息
- 数据的安全/隐私级别
- 已知的数据问题
- 数据使用说明
# 技术元数据
提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息
- 物理数据库表名和字段名
- 字段属性
- 数据库对象的数据
- 访问权限
- 数据CRUD(增删改查)规则
- 物理数据模型(表名、健、索引)
- 记录数据模型和实物资产之间的关系
- ETL作业详细信息
- 文件格式模式定义
- 源到目标的映射文档
- 数据血缘文档,包括上下游变更的影响的信息
- 程序和应用的名称和描述
- 周期作业(内容更新)的调度计划和依赖
- 恢复和备份规则
- 数据访问和权限、组、角色
# 操作元数据
描述处理和访问数据的细节
- 批处理程序和作业执行日志
- 抽取历史和结果
- 调度异常处理
- 审计、平衡、控制度量的结果
- 错误日志
- 报表和查询的访问模式、频率、执行时间
- 补丁和版本的维护计划和执行情况,以及当前的补丁级别
- 备份、保留、创建日期、灾备恢复预案
- 服务水平协议(SLA)要求和规定
- 清洗标准
- 数据共享规则和协议
- 极速人员的结算、职责、联系信息
# ISO/IEC 11179元数据注册标准
- 数据元素生成和标准化框架
- 数据元数据分类
- 数据元素的基本属性
- 数据定义的形成规则和指南
- 数据元素的命名和识别原则
- 数据元素的注册
# 元数据来源
- 应用程序中的元数据存储库
- 业务术语表
- 商务智能工具
- 配置管理工具
- 数据字典
- 数据集成工具
- 数据库管理和系统目录
- 数据映射管理工具
- 数据质量工具
- 字典和目录
- 事件消息工具
- 建模工具和存储库
- 参考数据库
- 服务注册
- 其他元数据存储
# 元数据生命周期
- 元数据创建和采集
- 元数据在一个或多个存储库中存储
- 元数据集成
- 元数据交付
- 元数据使用
- 元数据控制和管理
# 元数据架构类型
- 集中式 统一、高度一致
- 分布式
- 混合式
- 双向式
# 活动
# 定义元数据战略
- 启动元数据战略计划
- 组织管理利益相关方访谈
- 评估现有的元数据资源和信息架构
- 开发未来的元数据架构
- 制定分阶段实施计划
# 理解元数据需求
- 更新频次
- 同步情况
- 历史信息
- 访问权限
- 存储结构
- 集成要求
- 运维要求
- 管理要求
- 质量要求
- 安全要求
# 定义元数据架构
- 创建元模型
- 应用元数据标准
- 管理元数据存储
# 创建和维护元数据
- 整合元数据
- 分发和传递元数据
# 查询、分析、报告元数据
# 工具
- 元数据存储库
# 方法
- 数据血缘和影响分析
- 应用于大数据采集的元数据
# 实施指南
- 就绪评估/风险评估
- 组织和文化变革
# 度量指标
- 元数据存储库完整性
- 元数据管理成熟度
- 专职人员配备
- 元数据使用情况
- 业务术语活动
- 主数据服务数据遵从性
- 元数据文档质量
- 元数据存储库可用性
# 数据质量
# 定义
为了确保满足数据消费者的需求,应用数据管理技术进行规划、实施、控制等管理活动
# 业务驱动因素
- 提高组织数据价值和数据利用的机会
- 提高低质量数据导致的风险和成本
- 提高组织效率和生产力
- 保护和提高组织的声誉
# 低质量数据导致风险
- 无法正确的开具发票
- 增加客服电话量,降低解决问题的能力
- 因措施商业机会造成收入损失
- 影响并购后的整合进展
- 增加受欺诈的风险
- 由错误数据驱动的错误业务决策造成的损失
- 因缺乏良好信誉而导致的业务损失
# 目标
- 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求
- 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分
- 定义和实施测量、监控和报告数据质量水平的过程
# 原则
- 重要性
- 全生命周期
- 预防
- 根因修正
- 治理
- 标准驱动
- 客观测量和透明度
- 嵌入业务流程
- 系统强制执行
- 与服务水平关联
# 活动
# 定义高质量数据
# 定义数据质量战略
# 识别关键数据和业务规则
- 识别关键数据
- 识别已有规则和模式
# 执行数据质量初始评估
- 确定问题并排定优先级
- 执行问题根本原因分析
# 确定改进方向并排定优先顺序
- 根据业务影响确定行动的优先级
- 制定预防和纠正措施
- 确认计划的行动
# 定义数据质量改进目标
# 开发和部署数据质量操作
- 开发数据质量操作规程
- 修正数据质量缺陷
- 度量和监控数据质量
- 报告数据质量水平和调查结果
# Stong-Wang框架数据质量4个大类
- 内在数据质量
- 场景数据质量
- 表达数据质量
- 访问数据质量
# DAMA UK数据质量的6个核心维度
- 完备性
- 唯一性
- 及时性
- 准确性
- 有效性
- 一致性
# 数据质量改进生命周期(PDCA
- 计划
- 执行
- 检查
- 处理
# 常见的业务规则
- 定义一致性
- 数值存在的记录完备性
- 格式符合性
- 值域匹配性
- 范围一致性
- 映射一致性
- 一致性规则
- 准确性验证
- 唯一性验证
- 及时性验证
# 数据质量问题的常见原因
- 缺乏领导力导致的问题
- 数据输入过程引起的问题
- 数据处理功能引起的问题
- 系统设计引起的问题
- 解决问题引起的问题
# 提升数据质量形式
- 数据清理或数据清洗
- 数据增强
- 数据解析和格式化
- 数据转换与标准化
# 工具
- 数据剖析工具
- 数据查询工具
- 建模和ETL工具
- 数据质量规则模板
- 元数据存储库
# 方法
- 预防措施
- 纠正措施
- 质量检查和代码审核模块
- 有效的数据质量指标
- 统计过程控制
- 根本原因分析
# 实施指南
- 就绪评估/风险评估
- 组织和文化变革
# 度量指标
- 投资回报
- 质量水平
- 数据质量趋势
- 数据问题管理指标
- 数据质量计划示意图
# 大数据和数据科学
# 定义
对多种不同类型的数据进行收集(大数据)和分析(数据科学、分析、可视化),以此来为在分析的初始阶段未知的问题找到答案
# 目标
- 发现数据和业务的联系
- 支持将数据源迭代集成到企业中
- 发现和分析可能影响到业务的因素
- 利用可视化技术,以恰当的、可靠的且合乎道德规范的方式来发布数据
# 大数据特征(6个V)
- 数据量大(Volume)
- 数据更新快(Velocity)
- 数据类型多样/可变(Variety)
- 数据黏度大(Viscosity)
- 数据波动性大(Volatility)
- 数据准确性低(Veracity)
# 信息收敛三角
# 业务驱动因素
期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大的业务驱动力
# 数据科学依赖
- 丰富的数据源
- 信息组织和分析
- 信息交付
- 展示发现和数据洞察
# 数据科学过程阶段
- 定义大数据战略和业务需求
- 选择数据源
- 获得和接收数据源
- 制定数据假设和方法
- 集成和调整进行数据分析
- 使用模型探索数据
- 部署和监控
# DW&BI&大数据架构
# 数据湖
数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据环境,可供多种场景使用。
数据湖可能很快变成数据沼泽,在数据被摄取时要对元数据进行管理。
大多数据仓库都依赖于 ETL,大数据解决方案,如数据湖,则依赖于 ELT。
- 数据科学家可以挖掘和分析数据的环境
- 原始数据的集中存储区域,只需很少量的转换
- 数据仓库明细历史数据的备用存储区域
- 信息记录的在线归档
- 可以提供过自动化的模型识别提取流数据的环境
# 基于服务的体系结构
- 批处理层
- 加速层
- 服务层
# 机器学习
机器学习探索了学习算法的构建和研究,是无监督学习和监督学习方法的结合
- 监督学习: 基于通用规则
- 无监督学习: 基于找到的那些隐藏的规律(数据挖掘)
- 强化学习: 基于目标的实现
# 数据和文本挖掘技术
- 剖析
- 数据缩减
- 关联
- 聚类
- 自组织映射
# 活动
# 定义大数据战略和业务需求
- 组织试图解决什么问题,需要分析什么
- 要使用或获取的数据源是什么
- 提供数据的及时性和范围
- 对其他数据结构的影响以及与其他数据结构的相关性
- 对现有建模数据的影响
# 选择数据源
- 数据源头
- 数据格式
- 数据元素代表什么
- 如何连接其他数据
- 数据的更新频率
# 获得和接收数据源
# 制定数据假设和方法
# 集成和调整数据进行分析
# 使用模型探索数据
- 填充预测模型
- 训练模型
- 评估模型
- 创建数据可视化
# 部署和监控
- 提供洞察和发现
- 使用附加数据源迭代
# 工具
- MPP (大规模并行处理)的武功县数据库技术
- 基于分布式文件的数据库 Hadoop
- 数据库内算法
- 大数据云解决方案
- 统计计算和图形语言
- 数据可视化工具集
# 实施指南
- 战略一致性
- 就绪评估风险评估
- 组织和文化变迁
# 战略交付成果应考虑管理以下要素
- 信息生命周期
- 元数据
- 数据质量
- 数据采集
- 数据访问和安全性
- 数据治理
- 数据隐私
- 学习和采用
- 运营
# 度量指标
- 技术使用指标
- 加载和扫描指标。提取率和与用户社区的交互
- 学习和故事场景
# 数据管理成熟度评估
# 数据管理成熟度6个等级
- 无能力级
- 初始级
- 可重复级
- 已定义级
- 已管理级
- 优化级
# 业务驱动因素
- 监管
- 数据治理
- 过程改进的组织就绪
- 组织变更
- 新技术
- 数据管理问题
# 目标
- 全面发现和评估整个组织的关键数据管理活动
- 向利益相关者介绍数据管理的概念、原则和实践,并在更广泛的背景下确定其作为数据创建者和管理者的角色和职责
- 建立或加强可持续的企业范围数据管理计划,以支持运营和战略目标
# CMMI-DMM评估标准
- 数据管理策略
- 数据治理
- 数据质量
- 平台和架构
- 数据操作
- 支持流程
# IBM数据治理委员会成熟度评估模型
- 结果
- 使能因素
- 核心内容
- 支持内容
# 活动
# 规划评估活动
- 定义目标
- 选择框架
- 定义组织范围
- 定义交互方法
- 计划沟通
# 执行成熟度评估
- 收集信息
- 执行评估
# 结果解释及建议
- 报告评估结果
- 制作管理层简报
# 制定有针对性的改进计划
# 重新评估成熟度
# 工具
- 数据管理成熟度框架
- 沟通计划
- 协作工具
- 知识管理和元数据存储库
# DMMA典型风险和缓解措施
风险 | 缓解措施 |
---|---|
缺乏组织认同 | ①将与评估有关的概念社会化 ②在评估之前,建立受益声明 ③分享文章和成功案例 ④请一位高层支持者来支持这项工作并审查其结果 |
缺乏DMMA专业知识 缺乏时间与内部专业知识 缺乏沟通计划或标准 | ①使用第三方资源或专家 ②要求将知识转移和培训作为参与的一部分 |
组织中缺乏"数据说话" 关于数据的对话很快转移到系统的讨论 | 将DMMA与特定的业务问题或场景联系起来 在沟通计划中声明,无论背景和技术经验如何,DMMA都将教导所有参与者 让参与者在DMMA之前了解关键概念 |
用于分析的资产不完整或已过期 | 标注“截止日期”或响应的平衡评级。例如,对于过期超过一年的所有内容都给与-1 |
关注点过于狭小 | ①将调查深度较低到一个简单的DMMA,并快速转移到其他区域进行评估,针对后来的对比基线做出评价 ②作为试点第一次DMMA,然后运用经验知识处理更广阔的范围;在DAMA-DMBOK知识领域的背景下提出拟议评估范围内的重点 ③说明遗漏的范围,并讨论包含的必要性 |
难以接近的工作人员或系统 | 降低DMMA的横向范围,优先关注可以用的之知识领域和工作人员 |
出现诸如监管变化的意外情况 | 在评估工作流程和重点中增加灵活性 |
# 度量指标
- DMM评级
- 资源利用率
- 风险敞口
- 支出管理
- DMMA输入
- 变革速度
# 数据管理组织与角色期望
# 数据管理组织的结构
- 分散运营模式
- 网络运营模式 (RACI谁负责、谁批准、咨询谁、通知谁)
- 集中运营模式
- 混合运营模式
- 联邦运营模式
# 关键成功因素
- 高层的支持
- 明确的愿景
- 主动的变更管理
- 领导者之间的共识
- 持续沟通
- 利益相关方的参与
- 指导和培训
- 采用度量策略
- 坚持指导原则
- 演进而非革命
# 建立数据管理组织
- 识别当前的数据管理参与者
- 识别委员会的参与者
- 识别和分析利益相关方
- 让利益相关方参与进来
# 数据管理个人角色
- 执行官角色
- 业务角色
- IT角色 (IT数据架构师、数据建模师等)
- 混合角色(BI工程师、BI项目经理、元数据专家等)
# 数据管理和组织变革管理
# 变革法则
- 组织不变革,人就变
- 人们不会抗拒变革,但抵触被变革
- 事情之所以存在是惯性所致
- 除非有人推动变革,否则很可能止步不前
- 如果不考虑人的因素,变革将很容易
# 变革阶段
- 结束阶段
- 相持阶段
- 新的开始阶段
# 科特的变革管理八大误区
- 过于自满
- 未能建立足够强大的指导联盟
- 低估愿景的力量
- 10、100、100倍的放大愿景
- 允许阻挡愿景的障碍存在
- 未能创造短期收益
- 过早宣布胜利
- 忽视将变革融入企业文化
# 科特的重大变革八步法
- 树立紧迫感
- 建立指导联盟
- 建立愿景和策略
- 沟通变革愿景
- 给基于委员会的行动授权
- 创造短期收益
- 巩固收益并创造更多变革
- 将变革成果融入企业文化
# 采纳创新的5个阶段
阶段 | 定义 |
---|---|
知悉 | 在知悉阶段,个人首先接触到创新,但缺乏有关创新的信息。在此阶段,个人还没有被激励去寻找更多关于创新的信息 |
说服 | 在说服阶段,个人对创新感兴趣,并积极寻找有关创新的信息 |
决策 | 在决策阶段,个人权衡创新的利弊,并决定是否采用或拒绝。罗杰斯指出,这一阶段的个人独特性,使其成为最难获得经验证据的阶段 |
实施 | 在实施阶段,个人采用创新并确定其有用,搜索有关创新的进一步信息 |
确认 | 在确认阶段,个人决定最终继续使用创新,并充分挖掘其潜力 |
# 沟通计划要素
- 信息
- 目标/目的
- 受众
- 风格
- 渠道、方法、媒介
- 时机
- 频率
- 材料
- 沟通者
- 预期反应
- 指标
- 预算和资源计划
# 沟通的总体目标
- 通知
- 教育
- 设定目标或愿景
- 定义问题的解决方案
- 促进变革
- 影响或激励行动
- 获得反馈
- 获得支持
# 附1 语境关系图
数据治理语境关系图
数据架构语境关系图
数据建模与设计语境关系图
数据安全语境关系图
参考数据和主数据语境关系图
数据仓库和商务智能语境关系图
元数据管理语境关系图
数据质量语境关系图
大数据和数据科学语境关系图
数据管理成熟度评估语境关系图
# 数据伦理
- 数据伦理管理语境关系图
# 数据存储和操作
- 数据存储与操作语境关系图
# 数据集成和互操作
- 数据集成和互操作语境关系图
# 文件和内容管理
- 文件和内容管理语境关系图
# 成文数据管理系统(C-DMS)
成文数科,助力企业数字化转型。
# 数据集成平台
内部以及企业上下游系统集成:ERP/MES/WMS/CRM/数仓/OA/SRM/电子合同/开放银行
# 数据调度平台
数据采集清洗、数仓存储、消息推送网关、计算调度引擎
# 数据服务平台
数据可视化、数据产品API、主数据、元数据、数据质量、数据安全