AI Powered SLS 智能分析能力创新
AIOps 为运维工作带来革命式变革
随着云计算技术不断升级,承载业务的 IT 基础设施规模扩大,各个应用之间的链路关系变得越来越复杂,每时每刻都在产生海量级的日志。对日志数据的采集、存储与分析处理方式,是衡量企业系统数字化程度的重要标志。传统的 IT 运维方案也会面临非常大的挑战,对于 DevOps 来说,需要花费数小时进行查找、对比和分析,以解决一个问题。这可能涉及到查看各种日志、监控数据和其他相关信息,以找出问题的根源。而对于 SecOps 来说,需要在海量的数据中进行深度分析,意味着他们需要从数百 TB 的数据中,从异常中快速挖掘根本原因,这些过程都是非常耗时且繁琐的,可能需要大量的人力和资源投入。
为了解决以上问题,需要新一代的 AIOps 解决方案,数据融合分析实现自动化、全栈的数据全链路可观测,更易使用、所见即所得的报表和诊断规则,通过 AI 加持、更高效的自动检测异常并快速定位根因, AIOps 已为运维工作带来革命式变革。
日志服务 SLS 如何提升效率?
SLS 自动化全栈采集数据
- 云基础设施可观测 Alibaba Cloud Lens:提供跨账号、跨区域、统一的云产品运维数据采集,支持自动采集计量、指标、访问日志等数据
- 应用可观测 全栈可观测:全栈数据采集、客户端到服务端、基础设施到应用,数据关联分析、跨多种数据源、完备分析语法、丰富上下文支持
- 安全审计 日志审计:50+ 数据源自动接入,安全态势可视化图表,内置 100+安全规则告警监控,提供多账号管理、跨账号、跨地域采集的中心化存储
SLS 开箱即用的报表和诊断规则
- CloudLens 内置规则:全面的云产品辅助运维分析,支持消费组/API/Grafana 等灵活订阅的数据平台
- 全栈可观测内置告警:实时告警、事件管理系统、告警收敛,可定制仪表盘、内置异常检测和根因分析
- Security 内置规则:满足合规、等保、网安法、GDPR 等标准,内置近百个安全合规监控规则
SLS 开放兼容的数据生态
- SLS 提供开放兼容的数据生态,兼容多种数据源,统一采集。
- SLS 兼容开源、高性价比的可观测存储分析平台。内置 Serverless 分析能力,兼容开源引擎与工具,兼容 Elasticsearch、Kafka、Prometheus、CK,99% 的情况下无缝迁移。
- SLS 是离线数仓、数据湖入湖的最佳方案,和三方 SIEM 对接提供 SecOps 云上安全审计,并支持多种告警通知渠道。
IT 运维场景的基础模型创新
阿里云日志服务 SLS 致力于打造高效、可观测的运维解决方案,凭借其多年的运维经验以及大语言模型的支持,不断提升其在此领域的竞争力。近期 SLS 发布智能运维基础模型,覆盖 Log、Trace、Metric 等可观测数据场景,支持指标的异常检测、文本的分词标注、Trace请求的高延时分析。模型提供开箱即用的异常检测、自动标注、分类和根因分析等能力。支持秒级在数千请求内定位到根因,在生产中准确率达 95%以上。
此外,SLS 提供人工辅助微调。在日志服务平台上,原生支持对 Log、Metric、Trace 的标注反馈能力,让客户在使用的过程中可以快速进行标注、结果打标修正,沉淀符合特定场景的数据集。通过平台的标注能力,让客户从零开始积累高质量的运维数据标签,为未来的根因诊断模型的训练提供了无限可能。在未来,客户可以针对自己标注的数据在特定领域的模型上进行微调,并行快速部署,创建私有的模型服务。支持自动标注人工辅助微调,支持人工标注结果打标修正,模型根据人工反馈自动微调,提升场景准确率。
SLS 让大语言模型辅助生成查询语句,成为重要的智能助手。发布 Alibaba CloudLens Copilot 大模型助力云设施运维与运营。采用基于大语言模型的 NL2Query 技术,精准理解用户的查询意图,提高查询结果准确性;无需理解复杂的 SQL 语言和查询语法,可准确将自然语言查询转化为 SQL 查询和可视化图表;建立场景化的知识图谱,持续学习,不断优化模型调整和知识库更新,不断改进问题解答的准确性和效果。
场景示例:智能异常分析检测与根因分析
针对某游戏用户在游戏服务系统调用和依赖关系复杂的场景,我们提出了一种解决方案。该方案利用服务中的 Trace数据自动生成拓扑图,并围绕高延时分析、高错误率分析、系统热点和瓶颈等方面进行分析和诊断,以缩短问题处理时间并优化系统延时。
通过自动生成的拓扑图,我们可以快速定位海量 Trace 数据中的异常根因和性能瓶颈,无需人工干预。这种方法可以提高大规模分布式系统的异常定位效率,并实现数千请求每秒级别的根因定位。在生产环境中,该方案的准确率可达到 95%。
智能运维基础模型
传统的 AIOps 技术如异常检测、根因定位等主要有以下两个问题:
- AIOps 算法涉及到很多阈值、规则的配置,在不同业务场景这些配置项都需要反复测试选择。因此算法的维护成本比较高,很难随着业务场景的变化而演进
- AIOps 模型的构建一般使用私域数据,往往存在数据数量较少、质量较差的问题。这导致了模型的泛化性、迁移能力较差,在不同的业务场景往往需要重新构建
针对以上痛点,SLS 推出智能运维通用模型能力,我们分别构建了用于对 Log、Trace、Metric 这三类可观测数据进行分析的基础模型,提供开箱即用的异常检测算法、根因分析和自动打标等能力。支持秒级在数千请求内定位到根因,在生产中准确率达 95%以上。对于不同的数据类型,我们选择了不同的任务对模型进行预训练:
- Metric 基础模型:可准备识别时序异常检测、时序预测、形态检测等,辅助做好更加智能的巡检
- Log 基础模型:针对日志场景,提供丰富的 LogNER 的能力,辅助抽取带有语义信息的日志模板)
- Trace 基础模型:支持 OT 协议的 Trace 数据的高延时诊断
特定领域的基础模型,开箱即用,省略了复杂的部署流程,一键触达,大大降低客户对日志服务基础能力的使用门槛。客户无需在特定的场景中进行模型微调,直接通过日志服务提供的通用基础模型就可以达到不错的效果。
Alibaba Cloud Lens Copilot 大模型辅助基础设施运维与运营
Alibaba Cloud Lens Copilot 大模型助力云设施运维与运营,有效解决了通过 LLM 不了解 SLS 语法,缺少业务领域知识以及缺少高质量的问答语料等问题。
- 准确识别意图:使用基于大语言模型的 NL2Query 技术,精准理解用户的查询意图,提高查询结果准确性
- 所见即所得的结果与报表:无需理解复杂的 SQL 语言和查询语法,准确将自然语言查询转化为 SQL 查询和可视化图表
- 自动学习资产数据:融合 Alibaba Cloud Lens 中的资产数据与知识图谱,持续学习资产数据、自动优化模型调整
总结
通过 AI 能力的加持,SLS 的智能分析能力将得到全面升级。SLS 致力于利用数据和算法来辅助 AIOps 创新,具备以下优势:
- 易于使用
- 客户可以在日志服务控制台上,轻量的触达指标异常检测、日志文本智能分词、Trace 链路高延时诊断等能力,让客户感觉模型无处不在
- 特定领域的基础模型,开箱即用,省略了复杂的部署流程,一键触达
- 本次推出特定领域的大语言模型,可大大降低客户对日志服务基础能力的使用门槛,让大语言模型辅助生成查询语句,成为重要的智能助手
- 灵活性
- 客户无需在特定的场景中进行模型微调,直接通过日志服务提供的通用基础模型就可以达到不错的效果
- 在日志服务平台上,原生支持对 Log、Metric、Trace 的标注反馈能力,让客户在使用的过程中可以快速进行标注,沉淀符合特定场景的数据集
- 可扩展性
- 借助阿里云强大的算力支持,日志服务内置提供的基础通用模型可以实现快速的扩容和服务迁移
- 在未来,客户可以针对自己标注的数据在特定领域的模型上进行微调,并行快速部署,创建私有的模型服务
原文链接
本文为阿里云原创内容,未经允许不得转载。
推荐阅读
-
AI Powered SLS 智能分析能力创新
-
【摩尔线程+Colossal-AI强强联手】MusaBert登上CLUE榜单TOP10:技术细节揭秘 - 技术实力:摩尔线程凭借"软硬兼备"的技术底蕴,让MusaBert得以从底层优化到顶层。其内置多功能GPU配备AI加速和并行计算模块,提供了全面的AI与科学计算支持,为AI推理和低资源条件下的大模型训练等场景带来了高效、经济且环保的算力。 - 算法层面亮点:依托Colossal-AI AI大模型开发系统,MusaBert在训练过程中展现出了卓越的并行性能与易用性,特别在预处理阶段对DataLoader进行了优化,适应低资源环境高效处理海量数据。同时,通过精细的建模优化、领域内数据增强以及Adan优化器等手段,挖掘和展示了预训练语言模型出色的语义理解潜力。基于MusaBert,摩尔线程自主研发的MusaSim通过对比学习方法微调,结合百万对标注数据,MusaSim在多个任务如语义相似度、意图识别和情绪分析中均表现出色。 - 数据资源丰富:MusaBert除了自家高质量语义相似数据外,还融合了悟道开源200GB数据、CLUE社区80GB数据,以及浪潮公司提供的1TB高质量数据,保证模型即便在较小规模下仍具备良好性能。 当前,MusaBert已成功应用于摩尔线程的智能客服与数字人项目,并广泛服务于语义相似度、情绪识别、阅读理解与声韵识别等领域。为了降低大模型开发和应用难度,MusaBert及其相关高质量模型代码已在Colossal-AI仓库开源,可快速训练优质中文BERT模型。同时,通过摩尔线程与潞晨科技的深度合作,仅需一张多功能GPU单卡便能高效训练MusaBert或更大规模的GPT2模型,显著降低预训练成本,进一步推动双方在低资源大模型训练领域的共享目标。 MusaBert荣登CLUE榜单TOP10,象征着摩尔线程与潞晨科技联合研发团队在中文预训练研究领域的领先地位。展望未来,双方将携手探索更大规模的自然语言模型研究,充分运用上游数据资源,产出更为强大的模型并开源。持续强化在摩尔线程多功能GPU上的大模型训练能力,特别是在消费级显卡等低资源环境下,致力于降低使用大模型训练的门槛与成本,推动人工智能更加普惠。而潞晨科技作为重要合作伙伴,将继续发挥关键作用。
-
InfoQ,谈谈百度开源高性能搜索引擎 Puck-Ben:Puck是团队长期研究和努力的成果,作为Puck的负责人,我对这个项目有着深深的热爱和执着,对我个人而言,它不仅仅是一个搜索引擎,而是代表着团队心血和智慧的结晶,它是我们对技术的追求,对创新的执着,也是我们对未来的期望和愿景,Puck的每一次升级和优化都记录着我们的成长和进步。这是我们对技术的追求,对创新的执着,也是我们对未来的期望和憧憬,帕克的每一次升级和优化都记录着我们的成长和进步。 我对帕克的未来充满期待。首先,我希望 Puck 能够在开发者社区得到广泛应用,同时得到社区的反馈,不断优化和改进。我期待看到更多的人参与到Puck的开发和使用中来,通过大家的共同努力,让Puck成为人工智能领域有影响力的工具。其次,我希望Puck能够不断创新和优化,保持技术领先地位,不仅要适应当前的技术需求,更要预测和引领未来的技术趋势。最后,我希望Puck能在更多的实际应用中实现自身价值,为人工智能在各行各业的应用提供有力支撑,推动科技发展。 访谈嘉宾简介: Ben,百度搜索内容技术部主任架构师,负责多模态内容理解、超大规模内容关系计算、内容处理与生成、模型优化等方向。 欢迎加入朋克技术交流群:913964818 本部门招聘ANN搜索工程师、模型优化工程师、分布式计算研发工程师等多个职位。欢迎勇于接受挑战、具有优秀分析和解决问题能力的人才加入我们。 招聘邮箱:tianyakun@baidu.com --END-- 推荐阅读
-
腾讯人工智能实验室AI Lab主任张潼博士前沿对话:AI如何助力营销?-主持人: 围绕三个关键词“技术”、“生态”、“平台”,请两位分别从人工智能(AI)和营销科技(MarTech)的角度跟大家分享一下看法。 布林克: 现在所有的技术都是相互关联的,不仅仅是对营销专家来说,对用户来说也是全新的体验。比如说广告技术方面,过去只是用来管理广告,现在我们发现广告不同的触点只是刚刚开始,我们还可以分享不同的数据,更好地管理客户关系的数据。 张潼: AI作为一个核心的技术能力,其实能在金融、医疗和广告等非常广泛的领域应用。如果单从广告营销出发,AI很大的价值在于个性化。通过把多个场景中的数据进行系统整合、分析和预测,覆盖整个用户体验流程。