我见过并听过许多来自不同组织的人谈论数据治理(data governance),讨论它是什么,并强调它的重要性。尽管如此,似乎还是有人对数据治理真正包含的内容感到困惑。也许是因为它没有我希望的那样被广泛认识,或者也许是因为它被数据科学、人工智能或机器学习等学科所掩盖。无论人们是直接从事数据治理工作还是只是听说过它,现实是它影响着每个人,无论是直接的还是通过它的缺失。然而,尽管它有广泛的影响,但并不是每个人都清楚地了解数据治理是什么。
有很多例子表明,组织因缺乏数据治理而可能遭受的罚款和声誉损害,但也许这也是一些困惑的来源,因为人们不清楚数据治理是什么。数据治理经常被等同于数据安全和隐私,或监管合规。不,数据治理不是数据安全或数据隐私。是的,数据治理可以促进监管合规,但这只是它的一个方面。那么让我们看看并理解数据治理是什么。
## 什么是数据治理?
有很多定义,我先试着定义一下:
**数据治理是一门学科,它提供了必要的政策、流程、标准、角色和责任,以确保数据作为资产被管理。**
那么这到底意味着什么?这意味着,如果你需要提高数据质量、确保信息安全、实现主数据管理等,你需要有一个坚实的基础,将所有这些实践联系在一起,并定义和启用所需的流程、工具和资源,以使这些实践成功。更简单点说?数据治理提供了必要的指导,将你的数据作为资产来管理。
## 理解数据治理
大家听说过“数据是新石油”的表达?
我认为数据和石油之间的区别比相似之处更多,所以尽管这可能不是最好的比较,但有一点信息对我来说非常突出,那就是“数据很重要”。
“数据很重要!数据很有价值!数据是一种资产!”为了使这些数据被视为资产并最大限度地发挥其价值,需要确保以下几点:
- 清洁
- 一致
- 对正确的人和系统可访问
- 安全
- 定义并理解
因此我们需要:
- **政策**:确保我们获得清洁的数据,文档化的元数据,分类的数据,分类的数据等
- **流程**:建立清晰的步骤来清理这些数据,确保其一致性,定义它,提供对它的访问,保护它等。
- **标准**:确保我们清洁度、元数据定义等方面的一致性。
- **角色和责任**:定义并分配谁将是创建上述所有政策、流程和标准的人,以及谁将批准它们,维护它们,使用它们。
所以讲数据治理:
> **“一门学科,它提供了必要的政策、流程、标准、角色和责任,以确保数据作为资产被管理。”**
数据治理定义了谁可以在什么情况下使用哪些方法对哪些数据采取什么行动,同时遵循既定的政策、标准、流程、角色和定义。
## 数据治理的其他名称
数据治理有时会因为“治理”这个词而名声不好。治理可能会让一些人联想到一个非常司法、官僚、控制性的,总体上限制性的系统,所以某些组织避免称它为“数据治理”。我想“数据经略”是一个相对较好的命名。
## 更多的数据治理定义
- **数据治理研究所**:数据治理是信息相关流程的决策权和问责制度,根据商定的模型执行,描述谁可以在什么情况下使用什么方法对什么信息采取什么行动。
- **DAMA**:对数据资产的管理行使权威、控制和共享决策(规划、监控和执行)。
- **SAP**:组织和实施政策、程序和标准,以有效使用组织的有结构/无结构信息资产的做法。
- **TDAN**:对数据资产的管理行使和执行决策权和管理数据功能的权力。
- **益百利**:数据治理是一个过程,以确保数据在输入系统时符合精确的标准和业务规则。数据治理使企业能够控制数据资产的管理。这个过程包括所需的人员、流程和技术,以确保数据适合其预期目的。
- **Informatica**:数据治理包括用于确保业务数据符合法规和公司政策的战略和技术。
- **IBM**:数据治理是为增加新的严谨性和纪律性而对管理、使用、改进和保护组织信息的过程的质量控制学科。
- **DGPO 2014董事会成员**(George Firican, Davida Berger, Michele Koch, Sal Passariello, Erin Kieffner):一门学科,提供明确的政策;程序;标准;角色;责任和问责制度,以确保数据作为企业资源得到良好管理。
- **IQ国际**(Joh Ladlay, Danette McGilvray, Anne-Marie Smith 和 Gwen Thomas):组织和实施政策、程序、结构、角色和责任,概述并执行有效管理信息资产的参与规则、决策权和问责制度。
你有自己对数据治理的定义吗?
## 数据治理混淆
数据治理不应与数据质量、数据安全或数据隐私混淆。这些是数据管理的不同知识领域(正如DAMA所说)、学科或功能。这些数据管理领域之间,甚至与其他领域如元数据管理、主数据管理等,存在一定的重叠,但它们不是同一件事。
### 数据治理和数据质量
我认为,如果没有数据治理,就不可能进行良好的数据质量管理,或者反过来看,如果你有数据治理措施,要想数据质量变差,也不容易。
### 数据治理和数据隐私
数据治理和数据隐私密切相关,因为它们都涉及保护敏感数据并确保遵守法律和监管要求。组织应确保其数据治理流程符合相关的数据隐私法律法规,如通用数据保护条例(GDPR)和加州消费者隐私法案(CCPA)。数据治理流程应包括数据最小化、数据保留和数据主体权利管理的程序。
## 为什么数据治理很重要?
数据治理对于组织有效管理其数据资产并确保合规性、安全性、可靠性以及最终的数据被利用和理解以支持业务目标至关重要。
它有助于确保遵守法律和监管要求,提高数据质量和一致性,通过减少数据重复和错误提高效率,通过提供可靠和准确的数据增强决策能力,并保护敏感信息并维护数据安全。通过实施全面的数据治理计划,组织可以提高数据质量,增强数据隐私和安全,提高效率,并支持更好的决策。组织还应确保其数据治理流程符合相关的数据隐私法律法规,以保护敏感数据。
这样,您可以看到数据治理有助于:
- **确保**遵守法律和监管要求
- **提高**数据质量和一致性
- **增加**通过减少数据重复和错误以及提供必要的元数据来提高效率
- **增强**通过提供可靠、准确和理解的数据来增强决策能力
- **保护**敏感信息并维护数据安全
## 数据治理的关键组成部分
### 数据治理委员会
数据治理委员会是一个治理机构,负责
- **战略指导**数据治理计划
- **优先级**数据治理项目和倡议
- **批准**组织范围内的数据政策和标准
- **支持**持续的支持、理解和对数据治理计划的认识。
委员会应由来自不同部门和职能的高层代表组成,如IT、法律、合规和业务部门。委员会应定期会面,审查计划的优先事项,并消除各种各样的障碍。
### 数据管理
数据管理使数据治理得以实施。它是特定数据资产的日常管理,包括元数据管理、数据质量、安全和合规性。数据管理员负责确保数据准确、完整、一致,并满足业务需求。他们还确保数据受到保护,并且任何数据违规或数据质量问题都得到报告和解决。数据管理员通常由业务部门任命,他们与数据治理委员会密切合作。
### 数据治理指标
为了衡量数据治理流程的有效性,组织应建立数据治理指标。这些指标可以包括数据违规次数、解决数据质量问题所需的时间、违反数据政策的次数以及符合质量标准的数据百分比等。这些指标可以分为两个主要类别:
1. 进度指标
2. 影响指标
通过监控这些指标,组织可以确定改进领域,以采取行动改善数据治理成果,但也可以将它们社会化并展示它们的影响。如果你想了解更多关于这些指标及其子类别的信息,请查看“实用数据治理:实施”在线课程。
### 数据治理工具
为了支持数据治理流程,组织可以使用各种数据治理工具,如数据治理软件、数据质量工具和数据安全工具。数据治理软件可以自动化许多数据治理流程,如数据血统跟踪、数据质量监控和数据政策执行,但也有助于维护业务语义(即业务术语表,这是数据治理的主要成果之一)和与数据血缘、数据元素、数据质量等的关系。数据质量工具可以帮助识别和解决数据质量问题,如数据重复和数据不一致性。数据安全工具可以帮助保护敏感数据并检测任何数据违规。
### 数据政策、标准、流程和工作流程
以下是数据治理计划的一些核心组成部分:
- **数据政策**,如数据访问政策、数据完整性政策、数据集成政策
- **数据标准**,如地址标准、名称标准、数据属性标准等
- **数据流程和工作流程**,如数据质量问题解决流程、数据政策维护、技术和业务元数据管理等
## 数据治理实施步骤
实施数据治理并非易事,但它是值得的。它是一件不断给予的礼物。它可以被分为前实施步骤、实施步骤和持续步骤。
### 实施前准备
在你开始大量投资于数据治理计划之前,你需要评估你的组织在准备和对数据治理的渴望方面处于什么位置。因此,你需要:
1. **了解**你的组织为什么需要数据治理
2. **评估**你的组织的挑战和成熟度水平
只有这样,你才有你需要的,以获得领导和关键利益相关者的支持。
### 实施步骤
实施步骤包括制定范围文件、数据治理的指导原则、建立你的数据领域模型的早期阶段、数据治理组织框架,以及识别和分配数据管理员。一旦这个基础到位,你可以:
- 制定**度量标准和KPI**
- 制定和部署**数据政策**
- 制定和部署**数据标准**
- 制定和部署**数据流程/工作流程**
- 选择和部署**工具**
### 持续改进
将数据治理引入组织意味着引入变化,这伴随着许多挑战,可能会为数据治理计划不被采纳带来风险。因此,作为持续改进措施:
- 沟通
- 知识和培训
- 奖励和认可
## 数据治理最佳实践
- **将其视为一个计划和商业学科:** 数据治理不是一个项目,它没有结束日期,需要持续的投资、支持和曝光。
- **建立清晰的角色和责任:** 明确定义数据治理委员会、数据管理员和其他利益相关者的角色和责任。
- **经常沟通:** 向所有相关方沟通数据治理计划和程序,并更多地沟通已经完成、正在进行和将要完成的工作,并将它们与原因联系起来。
- **定期审查和更新治理框架:** 定期审查和更新治理框架,以确保其保持有效和相关性。
- **监控合规性:** 监控数据治理计划的合规性,并在发生违规时采取适当行动。
- 涉及利益相关者:让利益相关者参与数据治理过程,以确保获得支持和参与。
- **确保数据质量:** 实施流程以确保数据质量和一致性,如数据验证和数据分析。
- **从一开始就投资于一个共同的术语表:** 建立一个包含共享和批准的业务术语和数据定义的业务术语表。
## 结论
数据治理对于组织有效管理其数据作为资产并确保合规性、安全性、可靠性以及数据驱动的运行至关重要。通过实施全面的数据治理计划,组织可以提高数据质量、提高效率,并支持更好的决策,这是它带来的一些主要好处。