从研究角度看如何实现基于机器学习的智能运维

最编程 2024-05-04 14:09:26

...

清华大学计算机系副教授裴丹于运维自动化专场发表了题为《基于机器学习的智能运维》的演讲，现场分享了基于机器学习的智能运维目前面临的挑战和解决思路。以下为演讲实录，今天大概内容包括智能运维背景介绍、如何从基于规则上升到基于学习。

首先会做一个背景的介绍；为什么清华大学的老师做的科研跟运维有那么多关系？智能运维现在已经有一个很清晰的趋势，从基于规则的智能运维自动化逐渐转为基于机器学习了。再介绍几个跟百度的运维部门、搜索部门进行合作的案例；最后，还要讲一下挑战与思路。

一、智能运维背景介绍

谈一下参加这次大会的感受，昨天各位讲师们的报告，特别是今天早上几位讲师的报告特别精彩，讲到了在生产一线过程中遇到的各种挑战以及大家的实践和经验，我们又加了运维的群，对于像我这样在科研领域做运维相关科研的工作者来说，感觉找到了组织。

介绍一下我的经验，特别是跟海峰老师开场的时候，讲的一个概念是相关的。海峰老师提到说我们做运维很苦，正好我大概在去年这个时候，我在百度的运维部门，讲了一下做运维如何做得更高大上一些，我的题目叫做《我的运维之路》。我们先简单看一下，我个人学术上的官方简历。

我读了博士，然后在AT&T研究院实习，AT&T研究院前身是贝尔实验室的一部分，这里面大概有200个博士，有C发明者、防火墙之父，当然我其实没有怎么见到过他们，但是办公室是在一起的。之后在里面做了大概6年时间，发了不少论文，得了一些奖，发表了23项运维相关的专利。然后回清华做了不少科研，这是我的官方简历。

实际上我在做什么事情？我就是一个运维人员。在一个30万人的大公司里面做运维，当然主要是通过大数据分析的方法。我读博期间跟美国各种运维人员打交道了五年；在实习过程中，喜欢上了分析实际的运维数据；真正在那边工作的时候，基本上就是一个第五级的运维，做的事情是基于大数据技术管理网络和应用的性能，各种网络协议、IPTV、Video等等。

回到清华做科研的时候，开设的也是网络性能管理/应用性能管理相关的课程，所有的科研都是跟运维相关的，在国内有一些合作者，包括百度的运维部门、搜索部门以及中石油数据中心等等。我可以认为自己是一个运维人员，很高兴在这里跟大家分享我们之前的一些经验。

为什么说运维是可以做得很高大上的事情？这是一个会议叫SIGCOMM，网络里面最*的会议，如果计算机网络的事情是像电影一样，这就是奥斯卡，每年大概录用三四十篇论文，录用一篇，就跟中彩票一样。我们看它的Submission，就是这么多，跟我们运维相关的占了40%。

再看评委会，我只列出了AT&T研究院里面的前实习人员和前员工的一些同事们，基本上现在都到大学里当教授了。所以说运维苦不苦，是不是可以做得更高大上一些，取决于怎么做。

数据分析、机器学习，这是很好的路线。再看评委会，我只列出了AT&T研究院里面的前实习人员和前员工的一些同事们，基本上现在都到大学里当教授了。所以说运维苦不苦，是不是可以做得更高大上一些，取决于怎么做。数据分析、机器学习，这是很好的路线。

不光是最*的会议，我们还有一个专门做运维相关的会议。这个会议，就是这拨人里面，觉得SIGCOMM这个会一年30多篇，实在是收得太少了，我们再开一个会议，全部都是运维相关的，这是一个*的会议，是我科研领域一个主要的战场之一。

铺垫一下，就是说运维是有很多可以钻研的地方，有很多科研问题。

简单介绍一下我在清华大学的实验室，叫NetMan。我的网络管理实验室做的科研，基本上都是跟NPM、APM运维相关的。我们跟互联网公司做一些合作，主要做运维相关的自动化工作，跟SmoothAPP相关的运维工作，跟清华校园网WiFi做一些网络性能优化的工作。我们做了一个核心的基于云的运维算法平台，具体这些运维的应用，下面都有一个核心的算法，再下面还有一个大数据分析的平台，就是常用的各种开源工具。

前面所讲的是背景部分。我想要表达的一点，工业界、学术界应该在运维领域里面能够密切合作，各取所需。工业界有很多实际问题，有很多的经验，也有实际的数据，学术界老师们有时间，有算法，有学生，大家一起结合，这样就会产生很好的效果。

值得各位运维界同仁们关注的就是学术界的*会议，我比较推荐的是上面图中的这些会议，这些会基本上一年三五十篇论文的样子，简单浏览一下，跟大家做得工作是不是相关，浏览一下最新的会议论文集，看看有没有相关的，还是很有帮助的。美国的工业界，像谷歌、Facebook都已经在这些会议上发表过一些论文，包括他们在工程上的一些实践。

二、从基于规则到基于学习

简单介绍一下智能运维大概的历程，基于规则到基于机器学习。

我简单回顾一下，我们这个趋势，不光是说我们这个领域的趋势，整个人工智能领域发展的趋势。人工智能也是经历了起起伏伏，最近又非常火。基本历程，就是从基于专家库规则到逐渐变成机器学习，再到深度学习。

我讲一下几年前基于专家库规则到机器学习的经历。

我们在做降维分析的时候，需要一个规则集，什么事件导致另外一个事件，再导致额外*的事件，最后倒推回来，什么导致了这个事情。我们当时针对骨干网做的各种事件的关联分析，基本上是基于规则的。当时CDN的性能事件，这个事件导致这个事件，单独对它进行分析，如果这个事件发生，可以通过监测到的各种事件一直推到这儿。当时做出来的时候，起到了很好的效果，发表了论文，审稿评价也很高，也有专利，现在还在非常常规地使用，并且用得很好，效果很好。

但是这里面有个问题，规则是由运维人员给出来的，为什么能够运行的很好？因为在网络骨干网上面情况不是那么复杂，网络协议一层接一层，事件比较少，所以比较容易把规则弄出来。

我们跟百度进行合作的时候，发现不是那么好做。因为在互联网公司里面，大家都在讲微服务，模块特别多，规模很大，百度这边一百多个产品线，上万个微服务模块，上万台机器，每天上万个软件更新，想通过人把这些规则表达出来，运行到你的系统里，根本就不行，我们试了一下，很快就碰壁了。

最后怎么办？我们采用了基于机器学习，把这些规则挖出来。我们在做的过程中不断总结，不断遇到新的问题，实现了基于规则的智能运维过渡到基于机器学习。

机器学习本身已经有很多年了，有很多成熟的算法。要想把机器学习的应用做成功，要有数据，有标注数据，还要有工具(算法和系统)，还要有应用。对于我们运维领域来说，这几点到底是怎么做的？

第一点，是数据。互联网的应用天然就有海量日志作为特征数据，想各种办法做优化存储。在运行过程中遇到数据不够用还能按需自主生成，这是很好的。

第二点，是过程反馈。在运维日常工作中还会产生各种标注数据，比如说工单系统，发生一次运维事件之后，具体负责诊断的人员会记录下过程，这个过程会被反馈到系统里面，我们可以从里面学到东西，反过来提升运维水平。

第三点，就是应用。做出来的系统，我们运维人员就是用户，我们可以设计、部署、使用、并受益于智能运维系统，形成有效闭环。建模、测量、分析、决策、控制，很容易形成一个闭环。我们能够形成闭环，因为我们有这样的优势。

总结一下，基于机器学习的智能运维具有得天独厚的基础，互联网应用天然有海量日志作为特征数据，运维日常工作本身就是产生标注数据的来源，拥有大量成熟的机器学习算法和开源系统，可以直接用于改善我们的应用，所以我个人有一个预测，智能运维在今后若干年会有飞速的发展(待续)。

上一篇：交换机的发展史

下一篇：传播原理》教科书，理应如此！