VWD Cat 监测系统的部署和操作说明
cat是大众点评开源的一套基于java的实时应用监控平台,主要应用于服务中间件框架(MVC 框架、RPC 框架、持久层框架、分布式缓存框架)的监控,为开发和运维提供各项性能指标、健康检查、自动报警等可视化服务。
cat支持的监控消息类型包括:
Transaction 适合记录跨越系统边界的程序访问行为,比如远程调用,数据库调用,也适合执行时间较长的业务逻辑监控,Transaction用来记录一段代码的执行时间和次数。
Event 用来记录一件事发生的次数,比如记录系统异常,它和transaction相比缺少了时间的统计,开销比transaction要小。
Heartbeat 表示程序内定期产生的统计信息, 如CPU%, MEM%, 连接池状态, 系统负载等。
Metric 用于记录业务指标、指标可能包含对一个指标记录次数、记录平均值、记录总和,业务指标最低统计粒度为1分钟。
Trace 用于记录基本的trace信息,类似于log4j的info信息,这些信息仅用于查看一些相关信息
以p2p系统作为客户端埋点示例.
1.部署
1.1 安装服务端
1.1.1 配置要求
内存 4G +
硬盘 100G +
操作系统 Windows或Linux操作系统(建议选用Linux操作系统)
1.1.2 环境需要
maven 3.2.3+
tomcat 7+
java 6+
mysql 5.6+
1.1.3 安装步骤
1.下载项目:git clone https://github.com/dianping/cat.git
2.切换到分支mvn-repo中将所需jar包放入本地maven仓库中。
3.在cat目录下,用maven构建项目:mvn clean install -DskipTests
4.配置cat的环境:mvn cat:install,按提示输入数据库配置参数。执行完成后,cat将会在数据库中创建cat表空间,并创建所有表结构;在/data/appdatas/cat/目录中,生成三个配置文件:client.xml、server.xml、datasources.xml(windows系统中,/data目录与源码目录在一个系统盘)
5.启动服务端:进入cat-home目录下,第一种是以jetty的方式启动mvn jetty:run;第二种是将cat-home中的war包放入tomcat的webapps下,用tomcat来启动服务。
6.修改路由配置:打开浏览器,输入http://部署地址:8080/cat/,进入右上角配置中,账号密码无限制,可以*输入,默认为catadmin。在全局告警配置中设置客户端路由。
1.1.4 路由配置
说明:
1.步骤4可以手工完成,在MySQL中,创建cat表空间create database cat,执行监控系统源码/source/cat/script/Cat.sql脚本完成表结构的创建拷贝监控系统源码/source/cat/script/目录下的client.xml、server.xml、datasources.xml到/data/appdatas/cat/。
2.server.xml和client.xml的目的是为了让客户端找到服务端。而设置客户端路由是为了让客户端找到服务端后可以动态的添加服务器作扩容。
3.服务端集群的server.xml和client.xml配置保持一致,这样slave都能收到master的消息,master可以专注于消息分发,slave可以设置为 job-machine 和 alert-machine。
4.请确保data/appdatas/cat/和data/applogs/cat/具备读写权限。
1.1.5 client.xml配置
·mode : 定义配置模式,固定值为client;--暂未使用
·servers : 定义多个服务端信息;
·server : 定义某个服务端信息;
·ip : 配置服务端(cat-home)对外IP地址
·port : 配置服务端(cat-home)对外TCP协议开启端口,固定值为2280;
·http-port : 配置服务端(cat-home)对外HTTP协议开启端口, 如:tomcat默认是8080端口,若未指定,默认为8080端口;
1.1.6 server.xml配置
·local-mode : 定义服务是否为本地模式(开发模式),在生产环境时,设置为false,启动远程监听模式。默认为 false;
·hdfs-machine : 定义是否启用HDFS存储方式,默认为 false;
·job-machine : 定义当前服务是否为报告工作机(开启生成汇总报告和统计报告的任务,只需要一台服务机开启此功能),默认为 false;
·alert-machine : 定义当前服务是否为报警机(开启各类报警监听,只需要一台服务机开启此功能),默认为 false;
·storage : 定义数据存储配置信息
·local-report-storage-time : 定义本地报告存放时长,单位为(天)
·local-logivew-storage-time : 定义本地日志存放时长,单位为(天)
·local-base-dir : 定义本地数据存储目录
·hdfs : 定义HDFS配置信息,便于直接登录系统
·server-uri : 定义HDFS服务地址
·console : 定义服务控制台信息
·remote-servers : 定义HTTP服务列表,(远程监听端同步更新服务端信息即取此值)
·ldap : 定义LDAP配置信息(这个可以忽略)
·ldapUrl : 定义LDAP服务地址(这个可以忽略)
1.1.7 datasources.xml配置
1.2 安装客户端
1.2.1 客户端配置
1.在pom文件中加上对cat-client和cat-core的依赖(p2p项目中加在build.gradle文件中),需要将cat的依赖包添加到私服中使用(依赖包见附件cat/lib)
2.在src/main/resources下的META-INF中创建app.properties
3.在src/main/resources下创建cat文件夹,新建client.xml
4.在项目同目录的/data/appdatas/cat/下配置client.xml和server.xml地址参数(同上服务端)
1.2.2埋点示例
用transaction记录一段代码的执行时间,这里的时间是指从创建至complete之间的耗时。Event记录一个事件,如:一次远程调用的地址。Metric记录一个业务指标。
注意:
每一个transaction对象必须complete,并设置status,transaction对象是可以嵌套的,其他对象不可以嵌套。Event放置在transaction内部用于记录一些参数,而metric指标是用来监控业务情况的,能够记录一个指标的count次数、sum总数等。
1.2.3 启动客户端
启动项目,运行埋点代码,项目日志中显示:
Cat日志中显示:
服务端显示:
在上方的搜索栏左边可以展开/隐藏监控项目,点击下方的项目可以切换到该项目的视图,运行成功后即可在上方看到被监控项目的domain。
说明:在cat中无论是客户端还是服务端都被视作为一个domain,所有domain都会向data目录中配置的服务端发送消息,即服务端可以既是服务端又是客户端。在服务端中点击搜索栏的左边全部按钮,可以看到当前所有连接上服务器的domain。
1.3 服务端应用说明
因官网有较全面的说明,此处不再重复,建议直接在官网上查看,地址:http://unidal.org/cat/r/home?op=view&docName=user
2.主流框架集成
2.1 URL集成
在web.xml中新增filter,放在shiroFilter之后。
集成之后,每个请求都会显示在Transcation中。
在遇到restful形式的请求时,会出现url重复的问题。在业务代码中加入如下代码,可以将相同url进行自动聚合:
request.setAttribute("cat-page-uri", "urlName");
2.2 spring-mvc集成
在springmvc.xml中新增interceptor,采用拦截器的方式对请求进行统一处理。
拦截器见附件(cat/集成/spring-mvc/CatInterceptor)
2.3 mybatis集成
在applicationContext-mybatis.xml中新增插件配置,集成mybatis对sql进行监控。
拦截器见附件(cat/集成/mybatis/CatMybatisPlugins)
集成之后将会在Database中看到访问趋势
2.4 hessian集成
在外部调用过程中,通常我们需要三个ID:
·RootId,用于标识唯一的一个调用链。
·ParentId,标识调用方。
·ChildId,标识被调用方。
Cat在hessian中的传输过程:
1.logRemoteCallClient(context)从messageTree中获取三个ID
2.将ID储存在请求头中经过hessian序列化传输到服务方
3.服务方解析请求头获取ID,logRemoteCallServer(context),重组messageTree
文件见附件(cat/集成/hessian/call,cat/集成/hessian/server)
app调用p2p-service-bank示例:
Cross中记录了服务调用的情况。
调用方:
服务方:
logView中也会展示整个调用链的过程:
2.5 log4j集成
客户端的log通常建议全部打到cat中,这样才能快速发现问题。
Cat会记录日志中的error所报的异常信息,展示在Problem中
3.监控告警配置
3.1 业务大盘
业务大盘是对公司核心业务指标进行监控的实时报表:
1.进入配置中的项目配置信息的项目基本信息,配置项目。
没有接入CMDB系统的话,事业部产品线默认设置为Default。
2.在项目分组配置中配置业务监控(在当前开源版本的项目分组中好像只能配置业务监控,其它几个监控运用于cat的点评内部版本):
一个项目中通常只能有一个产品线,故其它产品线无法在选app。
产品线顺序为展示顺序,按数字从小到大的规则。
3.在系统中进行metric埋点,例如:
·记录开户人数logMetricForCount(“开户”)。
·记录投资总额logMetricForSum(“投资金额”,investmentAmount)。
·记录平均投资金额logMetricForDuration(“投资金额”,investmentAmount)
(单位时间默认为1分钟)
4.在应用监控配置下的业务监控配置中进行配置:
显示次数曲线需要设置logMetricForCount
显示平均曲线需要设置logMetricForDuration
显示求和曲线需要设置logMetricForSum
添加业务大盘标签会进行基线告警触发告警策略中的business类型的警告。
5.“当前值”表示当前实际值,“基线值”表示根据历史趋势算出来当天的基准线
3.2 告警配置
官网有较全面的告警文档,地址:http://unidal.org/cat/r/home?op=view&docName=alert
3.2.1 告警通知
以下将说明如何通过发送邮件对用户进行告警通知:
1.在全局告警配置中配置告警策略,默认的配置中没有Transaction和Event需要手动加上。
2.设置默认告警人,不同触发类型可以设置指定告警人,告警人将会受到该类型的所有告警。
3.设置告警服务端,url为已经编写好的发送消息接口,batchsend为批量发送,<par>标签为传递的参数可自定义,其中${receiver}对应默认告警人中的通知人。
Transaction警报时,消息发送接口收到参数示例:
3.2.2 Transaction告警
在应用监控配置中配置监控规则,根据type和name对具体的transaction进行监控。
Transaction告警规则示例:
定义了一个项目是app,类型为URL,名称是/jxaccount/myinvest的transaction的监控规则:从0点到24点,该transaction在1分钟之内连续触发最大执行次数超过10次的规则,则会发出告警。
name为非必填项,默认为All,监控当前type下的所有transaction。
3.2.3 Event告警
与transaction告警基本一致,除了监控项中没有响应时间,此处不再说明。
3.2.4 异常告警
域名:项目组名称,必需,当设置为“Default”时,适用于所有项目组。
异常名称:异常名称,必需,当设置为“Total”时,是针对当前项目组所有异常总数阈值进行设置;当设置为特定异常名称时,针对当前项目组所有同名的异常阈值进行设定。
Warning阈值:认定为Warning级别的阈值,必需,当异常数小于该阈值时,不做任何警报;当超过该阈值,小于Error阈值时,做Warning状态设置,做相应警warning告警。
Error阈值:认定为Error级别的阈值,必需,当异常数超过该阈值,做Error状态设置,做相应警Error告警。
注:1.对于不想进行异常告警的异常,可以在异常过滤配置里进行设置。
2.如果未设置默认告警人,则会通知该异常发生的项目的项目负责人。
3.监测异常并发送警报的周期为:一分钟
4.异常告警统计报表在cat-1.4.0版本中访问入口被注释掉了,可以通过链接进行访问:cat服务端地址:8080/cat/r/statistics
3.2.5 心跳告警
新增指标需要在心跳报表中设置该指标的alert=”true”。
在告警策略中类型为Heartbeat。
3.2.6 ping告警
Ping告警主要针对第三方服务。例如存管系统中对接的银行接口。
Url监控中,每隔一分钟就会向该url发起http请求,若返回码不是200则发出告警。
(ip监控貌似没有实现此功能)
在告警策略中该类型为ThirdPaty。
3.2.7 数据库告警
在告警策略中类型为database。
4.常见问题
4.1 服务端点击页面报500错误
检查server.xml是否设置正确。
4.2 服务端显示乱码,部分功能中数据不能正常添加
需要修改tomcat的server.xml文件,通过添加编码方式解决。
4.3 error when try connecting to /10.10.10.2:2280
没有正确设置客户端路由,用的是默认配置,所以客户端发送消息时连接不上服务端。
4.4 java.net.UnknownHostException:test
需要更改告警服务端的消息发送调用url,默认为test。
4.5 提交告警规则的时候出现400错误
设置tomcat允许请求带特殊字符,在catalina.properties中添加tomcat.util.http.parser.HttpParser.requestTargetAllow=|{}
4.6 cat服务端运行过程中内存不断变大出现oom
机器配置内存最低要求为4g,监控服务端内存占用情况,可以隔一段时间对服务端进行重启。
服务端挂掉之后不会影响客户端,服务端重启后,客户端会进行自动重连。
5.总结
本说明主要讲述cat的部署以及一些主要功能的使用说明,对于cat的内部版本功能以及少部分不常用功能因为文档缺失,还不是很了解就不做过多说明了。
在监控中需要解决的核心问题:响应时间,访问次数,是否报错。Cat通过报表和logView的形式将三者以非常直观的形式显示了出来。cat部署生产环境用于实时监控数据,解决线上问题;部署在线下测试环境,便于做压力测试。
后续开发中可以通过cat提供的api方式(在url后面加上forceDownload=xml参数)将report中的数据,通过爬虫的方式定期爬取做技术分析,或者用日志分析工具例如elk对cat的日志进行分析,这样就能有效的提高系统的优化以及稳定性。
附件链接: https://pan.baidu.com/s/1c8O7D0 密码: 6ucr
推荐阅读
-
VWD Cat 监测系统的部署和操作说明
-
纯干货分享 | 研发效能提升——敏捷需求篇-而敏捷需求是提升效能的方式中不可或缺的模块之一。 云智慧的敏捷教练——Iris Xu近期在公司做了一场分享,主题为「敏捷需求挖掘和组织方法,交付更高业务价值的产品」。Iris具有丰富的团队敏捷转型实施经验,完成了企业多个团队从传统模式到敏捷转型的落地和实施,积淀了很多的经验。 这次分享主要包含以下2个部分: 第一部分是用户影响地图 第二部分是事件驱动的业务分析Event driven business analysis(以下简称EDBA) 用户影响地图,是一种从业务目标到产品需求映射的需求挖掘和组织的方法。 在软件开发过程中可能会遇到一些问题,比如大家使用不同的业务语言、技术语言,造成角色间的沟通阻碍,还会导致一些问题,比如需求误解、需求传递错误等;这会直接导致产品的功能需求和要实现的业务目标不是映射关系。 但在交付期间,研发人员必须要将这些需求实现交付,他们实则并不清楚这些功能需求产生的原因是什么、要解决客户的哪些痛点。研发人员往往只是拿到了解决方案,需要把它实现,但没有和业务侧一起去思考解决方案是否正确,能否真正的帮助客户解决问题。而用户影响地图通常是能够连接业务目标和产品功能的一种手段。 我们在每次迭代里加入的假设,也就是功能需求。首先把它先实现,再逐步去验证我们每一个小目标是否已经实现,再看下一个目标要是什么。那影响地图就是在这个过程中帮我们不断地去梳理目标和功能之间的关系。 我们在软件开发中可能存在的一些问题 针对这些问题,我们如何避免?先简单介绍做敏捷转型的常规思路: 先做团队级的敏捷,首先把产品、开发、测试人员,还有一些更后端的人员比如交互运维的同学放在一起,组成一个特训团队做交付。这个团队要包含交付过程中所涉及的所有角色。 接着业务敏捷要打通整个业务环节和研发侧的一个交付。上图中可以看到在敏捷中需求是分层管理的,第一层是业务需求,在这个层级是以用户目标和业务目标作为输入进行规划,同时需要去考虑客户的诉求。业务人员通过获取到的业务需求,进一步的和团队一起将其分解为产品需求。所以业务需求其实是我们真正去发布和运营的单元,它可以被独立发布到我们的生产环境上。我们的产品需求其实就是产品的具体功能,它是我们集成和测试的对象,也就是我们最终去部署到系统上的一个基本单元。产品需求再到了我们的开发团队,映射到迭代计划会上要把它分解为相应的技术任务,包括我们平时所说的比如一些前端的开发、后端的开发、测试都是相应的技术任务。所以业务敏捷要达到的目标是需要去持续顺畅高质量的交付业务价值。 将这几个点串起来,形成金字塔结构。最上层我们会把业务目标放在整个金字塔的塔尖。这个业务目标是通过用户的目标以及北极星指标确立的。确认业务目标后再去梳理相应的业务流程,最后生产。另外产品需求包含了操作流程和业务规则,具需求交付时间、工程时间以及我们的一些质量标准的要求。 谈到用户影响的地图,在敏捷江湖上其实有一个传说,大家都有一个说法叫做敏捷需求的“任督二脉”。用户影响地图其实就是任脉,在黑客马拉松上用过的用户故事地图其实叫督脉。所以说用户影响地图是在用户故事地图之前,先帮我们去梳理出我们要做哪些东西。当我们真正识别出我们要实现的业务活动之后,用户故事地图才去梳理我们整个的业务工作流,以及每个工作流节点下所要包含的具体功能和用户故事。所以说用户影响地图需要解决的问题,我们包括以下这些: 首先是范围蔓延,我们在整张地图上,功能和对应的业务目标是要去有一个映射的。这就避免了一些在我们比如有很多干系人参与的会议上,那大家都有不同想法些立场,会提出很多需求(正确以及错误的需求)。这个时候我们会依据目标去看这些需求是否真的是会影响我们的目标。 这里提到的错误需求,比如是利益相关的人提出的、客户认为产品应该有的、某个产品经理需求分析师认为可以有的....但是这些功能在用户影响地图中匹配不到对应目标的话,就需要降低优先级或弃掉。另外,通常我们去制定解决方案的时候,会考虑较完美的实现,导致解决方案括很多的功能。这个时候关键目标至关重要,会帮助我们梳理筛选、确定优先级。 看一下用户影响到地图概貌 总共分为一个三层的结构: 第一层why,你的业务目标哪个是最重要的,为什么?涉及到的角色有哪些? 第二层how ,怎样产生影响?影响用户角色什么样的行为? (不需要去列出所有的影响,基于业务目标) 第三层what,最关键的是在梳理需求时不需一次把所有细节想全,这通常团队中经常遇到的问题。 我们用这个例子来看一下 这是一个客服中心的影响地图,业务目标是 3个月内不增加客服人数的前提下能支持1.5倍的用户数。此业务目标设定是符合 smart 原则的,specific非常的具体,miserable 是可以衡量的,action reoriented是面向活动的, real list 也是很实际的。 量化的目标会指引我们接下来的行动,梳理一个业务目标,尽量去量化,比如 :我们通过打造一条什么样的流水线,能够提高整个部署的效率,时间是原来的 1/2 。这样才是一个能量化的有意义的目标。 回到这幅图, how 层级识别出来的内容,客服角色:想要对它施加的影响,把客户引导到论坛上,帮助客户更容易的跟踪问题,更快速的去定位问题。初级用户:方论坛上找到问题。高级用户:在论坛上回答问题。通过我们这些用户角色,进行活动,完成在不增加客户客服人数的前提下支持更多的用户数量。 最后一个层级,才是我们日常接触比较多的真正的功能的特性和需求,比如引导到客户到论坛上,其实这个产品就需要有一个常见问题的论坛的链接。这个层次需要我们团队进一步地在交付,在每个迭代之前做进一步的梳理,细化成相应的用户故事。 这个是云智慧团队中,自己做的影响地图的范例,可以看下整个的层级结构。序号表示优先级。 那我们用户影响地图可以总结为:
-
DocSystem 文件管理系统的部署和说明
-
紧急模式问题处理 - 图 1 紧急模式 根本原因分析 应急模式提供了尽可能小的环境,即使无法进入应急模式,也可以在其中修复系统。在应急模式下,系统只安装根文件系统供读取,不尝试安装任何其他本地文件系统,不激活网络接口,只启动一些基本服务。 进入应急模式的原因通常是 /etc/fstab 文件中存在错误,导致文件系统挂载失败。 文件系统中存在错误,导致。 约束和限制 本节适用于 Linux 操作系统紧急模式。程序涉及修复文件系统。修复文件系统有丢失数据的风险,因此请先备份数据,然后再执行修复操作。 处理方法 输入根密码,然后进入修复模式。 在应急模式下,根分区以只读模式挂载。要修改根目录中的文件,需要执行以下命令以读写模式重新挂载根分区。# mount -o rw,remount / 请执行以下命令首先检查 fstab 文件是否有误,然后尝试挂载所有未挂载的文件系统。# mount -a 如果挂载点不存在,请创建一个挂载点。 如果不存在此类设备,请注释或删除挂载行。 如果指定了不正确的挂载选项,请将挂载参数更改为正确的参数。 如果没有发生错误,但出现 UNEXPECTED INCONSISTENCY;RUN fsck MANUALLY 消息(通常是由文件系统错误引起的),请跳至第 7 步。 执行以下命令打开 /etc/fstab 以修改相应的错误。# vi /etc/fstab /etc/fstab 文件包含以下字段,以空格分隔:[文件系统] [dir] [type] [options] [dump] [fsck] 表 1 /etc/fstab 参数 说明 参数 说明 [文件系统] 要挂载的分区或存储设备。 文件系统]列建议以 UUID 的形式写入。执行 blkid 命令可查询设备文件系统 UUID。 参考格式如下: # <device> <dir> <type> <options> <dump> <fsck>; UUID=b411dc99-f0a0-4c87-9e05-184977be8539 /home ext4 defaults 0 2 使用 UUID 的好处是,它们与磁盘顺序无关。如果你在 BIOS 中更改了存储设备的顺序,或重新插入了存储设备,或者因为某些 BIOS 可能会随机更改存储设备的顺序,那么使用 UUID 会更有效率。 [文件系统] 文件系统]的挂载位置。 类型 挂载设备或分区的文件系统类型,支持多种不同的文件系统:ext2、ext3、ext4、reiserfs、xfs、jfs、smbfs、iso9660、vfat、ntfs、swap 和 auto。 设置为自动类型后,挂载命令会猜测所使用的文件系统类型,这对 CDROM 和 DVD 等移动设备非常有用。 选项 挂载时要使用的参数,有些参数是特定文件系统特有的。例如,默认值参数使用文件系统的默认挂载参数,ext4 的默认参数为:rw、suid、dev、exec、auto、nouser、async。 有关更多参数,请执行以下命令查看 man 手册:# man mount
-
关系数据库中的字典表、系统配置表、位置表、RBAC、组织表和系统操作日志的说明
-
CentOS 7.9部署Node.js LTS V18.16.0-说明:使用上述方式安装node-v16.20.0-linux-x64.tar.gz(下载地址https://nodejs.org/dist/),不会报错。 上述安装报错排查: (1)查看GLIBC支持版本: # strings /lib64/libc.so.6 | grep ^GLIBC_ 说明:不支持GLIBC_2.25和GLIBC_2.28。 # strings /lib64/libm.so.6 | grep ^GLIBC_ 说明:不支持GLIBC_2.27。 (2)查看CXXABI支持版本: # strings /lib64/libstdc++.so.6 | grep ^CXXABI_ 说明:不支持CXXABI_1.3.9。 (3)查看GLIBCXX支持版本: # strings /lib64/libstdc++.so.6 | grep ^GLIBCXX_ 说明:不支持GLIBCXX_3.4.20和GLIBCXX_3.4.21。 解决方案:需要升级系统中的make、GCC和GLIBC版本。