本文作者仅代表个人观点。狗万官方
你终于搬到云.恭喜你!但现在你数据都在云端,你能相信它吗?随着越来越多的应用程序迁移到云端,信息的质量越来越受到关注。错误的数据可能会导致许多业务问题,包括效率下降、收入损失,甚至是合规性问题。这篇博文将讨论数据质量差的原因,以及公司可以做些什么来改善它。
确保数据质量一直是大多数企业面临的挑战。在处理云中数据或与不同外部组织共享数据时,由于技术和架构方面的挑战,这个问题会更加严重。最近,随着企业寻求利用云的可伸缩性和成本效益,云数据共享变得越来越流行。然而,如果没有确保数据质量的策略,这些数据分析项目的投资回报可能是值得怀疑的。
是什么导致了云中的数据质量问题?
导致云中数据质量问题的四个主要因素:
- 当您将系统迁移到云中时,遗留数据可能质量不好。结果,不充分的数据被转移到新系统中。
- 数据可能在迁移过程中损坏,或者云系统可能没有正确配置。例如,一家财富500强公司将其云数据仓库限制为存储小数点后8位的数字。这一挑战在迁移过程中导致了截断错误,导致了5000万美元的报告问题。
- 数据质量当必须组合来自不同来源的数据时,可能会出现问题。例如,制药公司的两个不同部门使用不同的单位(数量与包装)来存储库存信息。当这些信息被合并到云数据仓库中时,由于单元中的不一致,报告和分析数据就变成了一场噩梦。
- 来自外部数据供应商的数据质量可能有问题。
相关:你的数据在云中可能是安全的,但当它离开云时会发生什么?
为什么在云中验证数据质量很困难?
每个人都知道数据质量至关重要。大多数公司花费大量资金和资源来提高数据质量。然而,尽管有这些投资,公司每年亏损由于数据不充分,每年从970万美元到1420万美元不等。
传统的数据质量程序不能很好地识别云环境中的数据错误,因为:
- 大多数组织只关注他们所知道的数据风险,这可能只是冰山一角。通常,数据质量程序关注完整性、完整性、重复项和范围检查。然而,这些检查只代表了所有数据风险的30%到40%。许多数据质量团队没有检查数据源之间的数据漂移、异常或不一致,这导致了超过50%的数据风险。
- 由于云技术、大数据应用和分析的迅速采用,数据源、流程和应用程序的数量呈爆炸式增长。这些数据资产和流程需要严格的数据质量控制,以防止下游流程出现错误。
- 数据工程团队可以在短时间内向系统添加数百个新的数据资产。但是,数据质量团队通常需要一到两周的时间来检查每个新的数据资产。这意味着数据质量团队必须优先考虑哪些资产需要首先检查,因此,许多资产没有得到检查。
- 组织官僚主义和繁文缛节往往会减缓数据质量计划。数据是企业的资产因此,任何更改都需要不同涉众的多次批准。这可能意味着数据质量团队在实现数据质量规则之前必须经历一个漫长的变更请求、影响分析、测试和终止过程。当数据发生重大变化时,这个过程可能需要数周甚至数月。
如何提高云数据的质量?
使用考虑这些因素的策略来确保云中的数据质量是至关重要的。以下是在云中实现数据质量的一些技巧:
- 检查你的遗产的质量第三方数据.在迁移到云之前修复您发现的任何错误。这些质量检查将增加完成项目所需的成本和时间,但在云中拥有一个蓬勃发展的数据环境是值得的。
- 协调云数据与遗留数据,以确保数据在迁移期间不会丢失或更改。
- 建立对云数据和流程的治理和控制。持续监控数据质量,并在发现错误时采取纠正措施。这将有助于防止问题失控,变得成本太高而无法修复。
除了传统的数据质量流程外,数据质量团队还必须分析并建立预测性数据检查,包括数据漂移、异常、跨源数据不一致等。实现这一目标的一种方法是使用机器学习技术来识别难以检测的数据错误,并增强当前的数据质量实践。另一种策略是采用更灵活的方法来提高数据质量,并与数据运营团队保持一致,以加速在云中部署数据质量检查。
迁移到云是复杂的,数据质量应该是最重要的,以确保成功过渡。对于任何依赖数据的企业来说,采用在云中实现数据质量的策略都是必不可少的。通过考虑导致数据质量问题的因素,并将流程和工具放置到位,可以确保最高质量的数据和云数据项目有更大的成功机会。