日志处理工具--向量练习
vector是什么?
以下描述翻译自vector官网: Vector 是一种高性能的可观察性数据管道 可以收集、转换所有日志、指标和跟踪信息( logs, metrics, and traces),并将其写到想要的存储当中; Vector 可以实现显着的成本降低、丰富的数据处理和数据安全; 开源,比所有替代方案快 10 倍。
类似logstash,但比logstash强悍太多的性能、简单明了的配置文件、强大的数据处理函数、智能均衡kafka分区消费等;在这些特性中,性能直接关乎成本
vector官网 vector.dev
GitHub地址 github.com/vectordotde…
基准性能测试
Test | Vector | Filebeat | FluentBit | FluentD | Logstash | SplunkUF | SplunkHF |
---|---|---|---|---|---|---|---|
TCP to Blackhole | 86mib/s | n/a | 64.4mib/s | 27.7mib/s | 40.6mib/s | n/a | n/a |
File to TCP | 76.7mib/s | 7.8mib/s | 35mib/s | 26.1mib/s | 3.1mib/s | 40.1mib/s | 39mib/s |
Regex Parsing | 13.2mib/s | n/a | 20.5mib/s | 2.6mib/s | 4.6mib/s | n/a | 7.8mib/s |
TCP to HTTP | 26.7mib/s | n/a | 19.6mib/s | <1mib/s | 2.7mib/s | n/a | n/a |
TCP to TCP | 69.9mib/s | 5mib/s | 67.1mib/s | 3.9mib/s | 10mib/s | 70.4mib/s | 7.6mib/s |
Vector 的主要优势:
- 高效的内存/CPU消耗和高数据吞吐量。
- 良好的可靠性,正确性和交付方面有保证。
- 包括自定义 DSL,以一种安全、高性能的方式动态转换数据。
- 支持基于指标和日志的有效负载。
- 大量的输入和输出集成。
- 可以部署为代理或聚合器。
支持广泛的部署选项、同时支持指标和日志以及可用集成的数量。 Vector 用 Rust 编写,提供内存安全和效率保证。Vector 引入了单元测试框架,可以更轻松地维护复杂的日志收集工具拓扑。
概念
Sources
来源 input
Transforms
变换 filter
Sinks
接收器 output
自适应请求并发 (ARC)
自适应并发,会根据请求的往返时间 (RTT) 和 HTTP 响应代码(失败与成功),从而决策出一个最佳的速率! 最终结果是提高整个可观察性基础架构的性能和可靠性。 请求的往返时间 (RTT) 和 HTTP 响应码(失败与成功)。
- 如果 RTT 下降/恒定和/或响应代码为 (200-299), ???? 并线性增加吞吐量。 AIMD “和性增长”。
- 如果 RTT 正在增加和/或响应代码始终指示失败 - 代码429 Too Many Requests和503 Service Unavailable- ???? 并以指数方式降低并发性。AIMD “乘性降低”。
和性增长/乘性降低(additive-increase/multiplicative-decrease、AIMD)算法是一个反馈控制算法,最多的用途是在TCP拥塞控制。AIMD将拥塞窗口的线性增长与监测到拥塞时的指数降低相结合。使用AIMD拥塞控制的多个流将最终收敛到使用等量的共享链路。
vector的自动均衡kafka消费
部署角色
守护进程
守护程序角色旨在收集单个主机上的所有数据。
Sidecar
Sidecar 角色将 Vector 与每个服务结合起来,只专注于该单个服务的数据收集
聚合器
聚合器用于处理从多个上游源收集数据并执行跨主机聚合和分析。 Vector 既可以用作代理,也可以用作聚合器。
拓扑
安装部署
vector.dev/docs/setup/… 官方提供了安装包、docker等多种安装方式,这里使用二进制的方式安装
### Linux (x86_64)
# 下载并解压存档:
# Latest (version 0.24.2)
mkdir -p vector && \
curl -sSfL --proto '=https' --tlsv1.2 https://packages.timber.io/vector/0.24.2/vector-0.24.2-x86_64-unknown-linux-musl.tar.gz | \
tar xzf - -C vector --strip-components=2
# 切换到 vector 目录:
cd vector
# 添加到 $PATH 中
echo "export PATH=\"$(pwd)/vector/bin:\$PATH\"" >> $HOME/.profile
source $HOME/.profile
# Vector 配置文件位于:
config/vector.toml
> 示例配置位于config/vector/examples/*
# 将 Vector 安装到 Systemd 中
cat /usr/lib/systemd/system/vector.service
[Unit]
Description="Vector - An observability pipelines tool"
Documentation=https://vector.dev/
Wants=network-online.target
After=network-online.target
[Service]
LimitNOFILE=1000000
#LimitCORE=infinity
LimitSTACK=10485760
User=root
ExecStart=/data/ops/vector/bin/vector -t 128 --config-dir=/data/ops/vector/config/
Restart=always
AmbientCapabilities=CAP_NET_BIND_SERVICE
[Install]
WantedBy=multi-user.target
# 启动
systemctl status vector.service
systemctl enable vector.service
systemctl start vector.service
vector配置文件
来源(sources)
即vector的数据来源,支持文件、kafka、http、各类metrics等等数据源 各类数据源均可在文档中找到配置方式 vector.dev/docs/refere… 使用kafka数据来源
[sources.kafka-nginx-error] # "数据源"名称
type = "kafka" # 类型
bootstrap_servers = "10.xxx.xxx.xxx:9092,10.xxx.xxx.xxx:9092,10.xxx.xxx.xxx:9092" # kafka链接地址
group_id = "consumer-group-name" # 消费组id
topics = [ "^(topic1|topic2)-.+" ] # topic,支持正则
变换[可选](transforms)
如果原始日志不需要处理,可以忽略 vector.dev/docs/refere…
remap
remap在vector中使用VRL 用于解析和转换 Vector 中的数据。Vector Remap Language,一种面向表达式的语言,旨在以安全和高性能的方式处理可观察性数据(日志和指标) vector处理nginx错误日志的配置:
[transforms.remap-nginx-error] # "变换"名称
type = "remap" # 类型
inputs = ["kafka-nginx-error"] # 输入,这里的输入自然是上一层的"来源"
source = ''' # 正式开始处理
. = parse_json!(.message) # 将每一条错误日志解析成json,message的值就是从kafka中读取到的原始值
del(.@metadata) # 删除自动携带的一些信息
.parse = parse_nginx_log!(.message, "error") # 解析nginx错误日志
'''
VRL 功能参考
vector.dev/docs/refere… VRL 程序作用于单个可观察性事件,可用于:
- 转换可观察性事件
- 指定路由和过滤事件的条件
parse_nginx_log
解析 Nginx 访问和错误日志行。行可以是combined, 或error格式。
# combined
parse_nginx_log!(
s'172.17.0.1 - alice [01/Apr/2021:12:02:31 +0000] "POST /not-found HTTP/1.1" 404 153 "http://localhost/somewhere" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36" "2.75"',
"combined",
)
{
"agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36",
"client": "172.17.0.1",
"compression": "2.75",
"method": "POST",
"path": "/not-found",
"protocol": "HTTP/1.1",
"referer": "http://localhost/somewhere",
"request": "POST /not-found HTTP/1.1",
"size": 153,
"status": 404,
"timestamp": "2021-04-01T12:02:31Z",
"user": "alice"
}
# error
parse_nginx_log!(
s'2021/04/01 13:02:31 [error] 31#31: *1 open() "/usr/share/nginx/html/not-found" failed (2: No such file or directory), client: 172.17.0.1, server: localhost, request: "POST /not-found HTTP/1.1", host: "localhost:8081"',
"error"
)
{
"cid": 1,
"client": "172.17.0.1",
"host": "localhost:8081",
"message": "open() \"/usr/share/nginx/html/not-found\" failed (2: No such file or directory)",
"pid": 31,
"request": "POST /not-found HTTP/1.1",
"server": "localhost",
"severity": "error",
"tid": 31,
"timestamp": "2021-04-01T13:02:31Z"
}
parse_grok
value使用Grok格式解析. 支持此处列出的所有模式 grokdebug.herokuapp.com/
parse_grok!(
"2020-10-02T23:22:12.223222Z info Hello world",
"%{TIMESTAMP_ISO8601:timestamp} %{LOGLEVEL:level} %{GREEDYDATA:message}"
)
{
"level": "info",
"message": "Hello world",
"timestamp": "2020-10-02T23:22:12.223222Z"
}
filter
筛选,根据一组条件过滤事件
[transforms.my_transform_id]
type = "filter"
inputs = [ "my-source-or-transform-id" ]
condition = '.level != "debug"'
接收器 (sinks)
支持console、elasticsearch、kafka、vector、http 等 vector.dev/docs/refere…
elasticsearch
[sinks.my_sink_id] # 接收器名称
type = "elasticsearch" # 类型
inputs = [ "my-source-or-transform-id" ] # 输入,这里的输入是上一层的"变换"名称
endpoint = "http://10.xxx.xxx.xxx:9200" # 输出的链接地址
bulk.index = "{{ project_name }}-%Y-%m-%d" # 索引名称,可以使用日志当中的字段作为变量、以及日期来作为索引名称
clickhouse
[sinks.my_sink_id] # 接收器名称
type = "clickhouse" # 类型
inputs = [ "my-source-or-transform-id" ] # 输入,这里的输入是上一层的"变换"名称
endpoint = "http://localhost:8123" # 输出的链接地址
database = "mydatabase"
table = "mytable"
auth.strategy = "basic"
auth.user = "ck_admin"
auth.password = "password"
compression = "gzip"
全局配置参数
data_dir
保存 Vector 状态的目录,例如磁盘缓冲区、文件检查点等。
"/var/local/lib/vector/"
扩充表 (enrichment_tables )
- CSV files
- MaxMind databases
加密密码 (secret)
实践
将结果输出到console
调试时使用
[sinks.my_sink_id] # 接收器名称
type = "console" # 类型
inputs = [ "my-source-or-transform-id" ] # 输入,这里的输入是上一层的"变换"名称
encoding.codec = "json" # 可选json 或者 text
多配置文件启动
vector -c /etc/vector/*.toml -w /etc/vector/*.toml
-c, --config <配置>
从一个或多个文件中读取配置。支持通配符路径
-C, --config-dir <配置目录>
-t, --threads <线程>
用于处理的线程数(默认为可用内核数)
-w, --watch 配置
监视配置文件的变化
多个配置文件,在同一个vector实例中各阶段的命名也不能重名
多topic使用正则匹配
统一过日志格式,可以在“来源”中指定消费同一类topic
topics = [ "^(prefix1|prefix2)-.+" ]
索引使用日志中的字段值作为索引名称
可以使用日志中的字段值作为变量名称,还可以使用%Y、%m、%d分别表示年、月、日,这是一种很好的日志索引管理方式
bulk.index = "{{ project_name }}-{{ env }}-%Y-%m-%d"
查看vector各任务的处理情况
以命令行的方式实时查看各任务的处理情况
[api]
enabled = true
address = "127.0.0.1:8686"
执行以下命令即可: vector top
vector更加详细的metrics指标
使用prometheus_exporter格式的输出
[sources.vector_metrics]
type = "internal_metrics"
namespace = "vector"
scrape_interval_secs = 30
[sinks.prometheus]
type = "prometheus_exporter"
inputs = [ "vector_metrics" ]
address = "0.0.0.0:9598"
default_namespace = "service"
Vector 命令行
# 生成包含组件列表的 Vector 配置
vector generate [OPTIONS] <EXPRESSION>
# 生成可视化的拓扑
vector graph [OPTIONS]
vector graph --config /etc/vector/vector.toml | dot -Tsvg > graph.svg
# 列出可用组件
vector list [FLAGS] [OPTIONS]
# 观察流入组件(转换、接收器)和流出组件(源、转换)的事件。以指定的时间间隔对事件进行采样。
vector tap [FLAGS] [OPTIONS] [ARGUMENTS]
# 配置单元测试
vector test [OPTIONS] [ARGUMENTS]
# 在控制台显示本地或远程 Vector 实例的拓扑和指标
vector top [FLAGS] [OPTIONS]
# 验证目标配置
vector validate [FLAGS] [OPTIONS] [ARGUMENTS]
# vrl CLI
vector vrl [FLAGS] [OPTIONS] [ARGUMENTS]
推荐阅读
-
升级你的数据处理工具:从ES到CK 05的ClickHouse向量解析
-
深入了解 Nginx 日志分析工具和错误处理技巧
-
日志处理工具--向量练习
-
包婷婷 (201550484)作业一 统计软件简介与数据操作-SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件。最初软件全称为"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正在做出重大调整。为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,有Windows和Mac OS X等版本。 1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。 R统计软件介绍 R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。 与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。 该语言的语法表面上类似 C,但在语义上是函数设计语言(functional programming language)的变种并且和Lisp 以及 APL有很强的兼容性。特别的是,它允许在"语言上计算"(computing on the language)。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。 R是一个免费的*软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。在R主页那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得。 二、R语言 R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个*、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。 R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点: 1.R是*软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。[2] 2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如,SPSS,SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。[2] 3. 所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有:base一R的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等.[2] 4.R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。[2] 5.如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地.[2] R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。 R的语法是来自Scheme。R的使用与S-PLUS有很多类似之处,这两种语言有一定的兼容性。S-PLUS的使用手册,只要稍加修改就可作为R的使用手册。所以有人说:R,是S-PLUS的一个“克隆”。 但是请不要忘了:R是免费的(R is free)。R语言源代码托管在github,具体地址可以看参考资料。[3] 。 R语言的下载可以通过CRAN的镜像来查找。 R语言有域名为.cn的下载地址,有六个,其中两个由Datagurn,由 中国科学技术大学提供的。R语言Windows版,其中由两个下载地点是Datagurn和 USTC提供的。 三、stata Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。用Stata绘制的统计图形相当精美。 新版本的STATA采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。Stata提供完整的使用手册,包含统计样本建立、解释、模型与语法、文献等超过一万余页的出版品。 除此之外,Stata软件可以透过网络实时更新每天的最新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。使用者也可以透过Stata. Journal获得许许多多的相关讯息以及书籍介绍等。另外一个获取庞大资源的管道就是Statalist,它是一个独立的listserver,每月交替提供使用者超过1000个讯息以及50个程序。 四、PYTHON
-
高效实用的Logback日志处理工具