EB级数仓都在用的算子级血缘如何实现主动数据治理


一、主动数据治理,数据治理新范式

1、新治理范式探索的背景


图片


大多数管理过数仓的同学应该都有一个普遍共识是数据仓库建设时间越长,管理复杂度会越大。一是引入的数据技术越来越多,管理的集群会越来越多;二是参与数据生产和使用的角色和人员会越来越多;三是业务需要引入的数据会越来越多。最后会形成一个特别复杂的数据依赖网络,而数据管理的目标是要不断满足业务的效率、性能、质量、成本、安全等方面不断增长的需求。

图片

在上述背景下,三个问题会越来越突出:

  • 第一个问题是看不清。数据依赖网络越来越复杂,我们想要去理解某一个数据字段口径会越来越费时费力,一旦出现数据异常问题,想要去追溯到它的根因需要一层一层往上去找,一层一层去找人询问,排查过程非常困难。另外,做模型变更的时候往往会出现一个问题,就是表血缘扩散非常快,拉出两三层之后数据完全没法看,变更影响评估噪音非常多。
  • 第二个问题是管不住。业务需求太急,应用层无序建设膨胀严重,中间层空心化,导致很多质量问题,成本问题,以及各种安全合规问题。
  • 第三个问题是治理难。问题模型、重复数据等盘点困难,由于数据消费场景错综复杂,下游迁移工作量巨大,上下游协同成本高,新模型的切换难以推动。

面对上述问题,数据管理复杂度与日俱增,因此我们需要更加精细和更加智能的数据管理手段。


自己动手使用AI技术实现数字内容生产
上一篇 2023年06月15日
路径规划中的DRL与OR算法:对比与展望
下一篇 2023年06月15日
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88888888@qq.com 举报,一经查实,本站将立刻删除。

相关推荐