欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

12款开源数据资产(元数据)管理平台选型分析(一)-Apache Atlas

最编程 2024-01-20 22:11:06
...

网络异常,图片无法展示
|
开源地址https://github.com/apache/atlas 1.5K star

Atlas最早由大数据平台三驾马车(Cloudera,Hortonworks,MapR)之一HortonWorks公司开发,用来管理Hadoop项目里面的元数据,进而设计为数据治理的框架,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。后来开源出来给Apache社区进行孵化,得到Aetna,Merck,Target,SAS,IBM等公司的支持进行发展演进。因其支持横向海量扩展、良好的集成能力和开源的特点,国内大部分厂家选择使用Atlas或对其进行二次开发。目前,Cloudera,Hortonworks已经并购,MapR也鲜有新品。大数据技术领域,相较于Hadoop技术平台风头正盛的2016年,已经发生了巨大的变化,Hadoop体系正在逐步淡出舞台*。MPP、现代技术栈、云原生数据库等登上舞台,例如Clickhouse、Doris、StarRocks、Databend、Materialize、Ringswave。

Atlas的优点:

  • 大厂开源,深度集成Hadoop生态中的Hive,支持表级、字段级血缘
  • 与HDP原生集成,支持对接Ranger实现行列级数据权限管控,安装便捷省心
  • 强大的元数据元模型,支持元数据定制及扩展
  • 源代码不复杂,国内有大量平台基于Atlas定制修改为商用产品

Atlas的不足:

  • 其优势也是劣势,母开源公司已被并购,历史悠久,不再是一种优势,反而是一种负担
  • Hadoop体系已经走向衰退,如何只是完美支持Hive和Hadoop体系,已经无法满足现在快速发展的技术要求
  • 其设计界面复杂,体验老旧、数据目录及数据检索都不够便捷
  • 使用体验复杂及产品功能更聚焦于解决技术人员的问题,而非数据的最终用户,比如业务人员
  • 生态渐渐失去新鲜感、新的类似平台不断发展

相关介绍https://mp.weixin.qq.com/s/MvaxSF74NE0E43i4rQEb3g

选型建议:1)如果您只有Hadoop生态,可以试试。2)如果您的数据资产是面向数据团队的技术人员,可以试试。