DataHub 数据治理工具的安装实战与注意事项
【摘要】
项目上后面要搞数据治理,网上主流的开源组件是Atlas和DataHub,这几天刚好有时间,先把DataHub安装试用一下。安装过程中问题较多,花了两天时间才安装完。先把安装过程记录一下,后面把功能试用情况也写出来。
【正文】
一、安装Docker
因为服务器之前安装过Docker,所以安装过程省略,贴一张图看一下 ,API版本最低要求是1.41,建议安装最新的docker,我之前用的老版本docker,后面踩了坑。
二、安装Python3
Python要求最低3.7,我的版本是3.8.0,安装教程太多了,这里就不写安装过程了
三、环境准备
yum -y install gcc
yum install libffi-devel -y
yum install zlib* -y
pip3 install toml
四、安装DataHub
1.安装docker compose V2
yum -y install gcc yum install libffi-devel -y yum install zlib* -y pip3 install toml
四、安装DataHub
1.安装docker compose V2
最开始默认安装的V1,结果运行提示需要V2,过程中各种失败,最后还是参照官网安装成功。
官网安装地址:Install the Compose plugin
先通过命令行安装了一次:
yum install docker-compose
yum install docker-compose-plugin
用docker-compose version命令查看版本报错了,所以又手动安装了一遍
mkdir -p /usr/local/lib/docker/cli-plugins curl -SL https://github.com/docker/compose/releases/download/v2.16.0/docker-compose-linux-x86_64 -o /usr/local/lib/docker/cli-plugins/docker-compose chmod +x /usr/local/lib/docker/cli-plugins/docker-compose
查看版本
2.下载源码
主要是为了后面的步骤使用里面的一个配置文件
git clone https://github.com/datahub-project/datahub.git
3.安装DataHub
这段和官网的不一样,参照的一个大佬的文章,是因为官网的镜像下载比较慢,而且出错,指定了国内的镜像;
地址:https://blog.****.net/Forget_Ying/article/details/119870931
python3 -m pip install --upgrade pip wheel setuptools -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com python3 -m pip uninstall datahub acryl-datahub || true # sanity check - ok if it fails python3 -m pip install --upgrade acryl-datahub -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com datahub version
关键的步骤来了,在这个地方踩了很多坑
datahub docker quickstart --quickstart-compose-file ./docker/quickstart/docker-compose-without-neo4j.quickstart.yml
出错了,manifest for docker.io/acryldata/datahub-actions:head not found
这个是因为没有获取到最新的镜像tag,需要手动指定镜像的tag
编辑下载的源码中的配置文件./docker/quickstart/docker-compose-without-neo4j.quickstart.yml
修改下图红框后面的tag号,之前是:image: acryldata/datahub-actions:${ACTIONS_VERSION:-head}
继续执行 ,结果又报新的错误了
toomanyrequests: You have reached your pull rate limit. You may increase the limit by authenticating and upgrading: https://www.docker.com/increase-rate-limit
这个是因为docker匿名用户的拉取镜像的上限是100,可能我拉的次数太多了,解决办法是
注册docker用户,并使用docker login登录,这样上限就变成200了
docker login [your-domain-name] username:[your-user-name] pwd:[your-password]
继续执行,继续踩坑:"specify container image platform" requires API version 1.41, but the Docker daemon API version is 1.26
这个是因为我docker版本太低了,因为这个docker是去年安装的了,卸载后安装最新的,步骤就省略了,贴一个老版本docker的图片:
安装最新的docker后,再执行终于正常了:
但最终也没有出现成功界面:
到这里就有点崩溃了,也找不到是什么原因没有安装成功,提示中有个日志,打开也没有找到有用的信息
后来查看了一下docker正在运行的容器,发现很多容器都在正常运行:
我突然突发奇想,直接访问了一下UI界面,发现竟然可以访问!!!
真实天无绝人之路,登陆试了一下,可以正常使用。开启我的数据摄入吧~
UI地址:http://xxx.xxx.xxx.xxx:9002 用户名密码:datahub/datahub
五.参考的网站:
DataHub官网:https://datahubproject.io/docs/quickstart
Docker Compose:https://docs.docker.com/compose/install/linux/
DataHub安装配置详细过程:https://blog.****.net/Forget_Ying/article/details/119870931
元数据管理Datahub基于Docker进行部署:http://www.pczh.cn/news/26343.html
DataHub官网:https://datahubproject.io/docs/quickstart Docker Compose:https://docs.docker.com/compose/install/linux/ DataHub安装配置详细过程:https://blog.****.net/Forget_Ying/article/details/119870931 元数据管理Datahub基于Docker进行部署:http://www.pczh.cn/news/26343.html
原文地址:https://www.cnblogs.com/ouyangxyz/p/17244580.html
上一篇: 微型语音识别库
推荐阅读
-
DataHub 数据治理工具的安装实战与注意事项
-
快速掌握:Android Studio必备工具——ADB的下载、安装与实战操作指南
-
【2022新手指南】Java编程进阶之路 - 六、技术架构篇 ### MySQL索引底层解析与优化实战 - 你会讲解MySQL索引的数据结构吗?性能调优技巧知多少? - Redis深度揭秘:你知道多少?从基础到哨兵、主从复制全梳理 - Redis持久化及哨兵模式详解,还有集群搭建和Leader选举黑箱打开 - Zookeeper是个啥?特性和应用场景大公开 - ZooKeeper集群搭建攻略及 Leader选举、读写一致性、共享锁实现细节 - 探究ZooKeeper中的Leader选举机制及其在分布式环境中的作用 - Zab协议深入剖析:原理、功能与在Zookeeper中的核心地位 - RabbitMQ全方位解读:工作模式、消费限流、可靠投递与配置策略 - 设计者视角:RabbitMQ过期时间、死信队列与延时队列实践指南 - RocketMQ特性和应用场景揭示:理解其精髓与差异化优势 - Kafka详细介绍:特性及广泛应用于实时数据处理的场景解析 - ElasticSearch实力揭秘:特性概述与作为搜索引擎的广泛应用 - MongoDB认知升级:非关系型数据库的优势阐述,安装与使用实战教学 - BIO/NIO/AIO网络模型对比:掌握它们的区别与在网络编程中的实际应用 - Netty带你飞:理解其超快速度背后的秘密,包括线程模型分析 - 网络通信黑科技:Netty编解码原理与常用编解码器的应用,Protostuff实战演示 - 解密Netty粘包与拆包现象,怎样有效应对这一常见问题 - 自定义Netty心跳检测机制,轻松调整检测间隔时间的艺术 - Dubbo轻骑兵介绍:核心特性概览,服务降级实战与其实现益处 - Dubbo三大神器解读:本地存根与本地伪装的实战运用与优势呈现 ----------------------- 七、结语与回顾
-
如何轻松使用JMeter进行HTTP接口测试 - 一步步教你设置线程组、 cookie、默认值与Sampler,加上响应断言和监听器,打造基础测试案例。针对复杂情况,将子系统和流程测试分类组织,确保数据一致性。同时,别忘了感谢阅读,给新手提供实战学习资源与全套测试指南,助你轻松踏上自动化测试之路! - 在"测试计划"点击右键,添加"线程组"并设定初始"线程数"和"循环次数" - 配置"HTTP Cookie管理器"与"Http请求默认值",输入目标系统信息,如域名、端口、协议等,让所有相关Sampler共享这些默认设置 - 在线程组内增加"HTTP Request"的Sampler,并填入接口详情,比如路径、请求方法及参数 - 添加"响应断言"检查接口返回结果,通过正则表达式验证预期结果 - 安装监听器,实时查看测试执行状况 - 如需处理流程性接口,请依次添加多个相关Sampler,关联前后请求间的上下文数据 特别提示:为了帮助大家避免学习中的曲折,我们准备了详尽的视频和文档资料库,无论你是软件测试的新手还是老司机,都能从中找到所需的全方位支持。只需点击下方链接加入我们的学习交流社群,就能立刻获取这份珍贵的学习宝藏!再次感谢您的耐心阅读,愿它成为您前行路上的一大助力!
-
快速提升大数据查询效率:揭秘Presto——比Hive快10倍的数据库审计工具部署与实战指南(第3部分)
-
包婷婷 (201550484)作业一 统计软件简介与数据操作-SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件。最初软件全称为"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正在做出重大调整。为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,有Windows和Mac OS X等版本。 1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。 R统计软件介绍 R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。 与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。 该语言的语法表面上类似 C,但在语义上是函数设计语言(functional programming language)的变种并且和Lisp 以及 APL有很强的兼容性。特别的是,它允许在"语言上计算"(computing on the language)。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。 R是一个免费的*软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。在R主页那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得。 二、R语言 R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个*、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。 R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点: 1.R是*软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。[2] 2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如,SPSS,SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。[2] 3. 所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有:base一R的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等.[2] 4.R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。[2] 5.如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地.[2] R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。 R的语法是来自Scheme。R的使用与S-PLUS有很多类似之处,这两种语言有一定的兼容性。S-PLUS的使用手册,只要稍加修改就可作为R的使用手册。所以有人说:R,是S-PLUS的一个“克隆”。 但是请不要忘了:R是免费的(R is free)。R语言源代码托管在github,具体地址可以看参考资料。[3] 。 R语言的下载可以通过CRAN的镜像来查找。 R语言有域名为.cn的下载地址,有六个,其中两个由Datagurn,由 中国科学技术大学提供的。R语言Windows版,其中由两个下载地点是Datagurn和 USTC提供的。 三、stata Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。用Stata绘制的统计图形相当精美。 新版本的STATA采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。Stata提供完整的使用手册,包含统计样本建立、解释、模型与语法、文献等超过一万余页的出版品。 除此之外,Stata软件可以透过网络实时更新每天的最新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。使用者也可以透过Stata. Journal获得许许多多的相关讯息以及书籍介绍等。另外一个获取庞大资源的管道就是Statalist,它是一个独立的listserver,每月交替提供使用者超过1000个讯息以及50个程序。 四、PYTHON
-
[学习笔记] - mooc - 教学研究的数据处理与工具应用(问卷调查+问卷之星的使用+SPSS的下载、安装、使用与入门) - 华南师范大学
-
比较各种数据迁移工具:SeaTunnel、DataX、Sqoop、Flume与Flink CDC的实战解析
-
南邮OJ Web任务大揭秘:层层挑战剖析 1. 挑战一:迷宫般的目录探索 题目作者似乎穷举了所有可能的目录组合,最终在404.php中的