运维:做了 5 依运维,依靠这个监控知识体系,我从 3K 变成了40K

智聪说说网
智聪说说网
智聪说说网
43262
文章
0
评论
2023-03-0612:27:08 评论 8

作者 | CSDN博主

责编 | 夕颜

出品 | CSDN(ID:CSDNnews)

从来没说过运维,因为我觉得操作和维护不需要太多的知识,然后我的一个操作和维护朋友告诉我大错特错,他从3开始K的运维一步步到40K是的,我甚至笑着说:我觉得我现在什么都能做。

既然说了,就说说最重要的。

既然说了,就说说最重要的。

监控是整个操作、维护甚至整个产品生命周期中最重要的环节。事先及时预警发现故障,事后提供追踪定位问题的详细数据。业内有许多好的开源产品可供选择。选择开源监控系统是省时省力、效率最高的方案。当然,对监控不太了解的朋友,看完以下文章可能会对整个监控系统有更深的了解。

监控目标

每个人对监控都有不同的理解,因为他们的行业、公司、业务和职位不同,但我们需要注意的是,监控需要从公司的业务角度来考虑,而不是使用监控技术。

对系统的实时监控:实际上是对系统的实时监控(即监控);

实时反馈系统的当前状态:当我们监控硬件或系统时,我们需要能够实时看到当前系统的状态,这是正常的、异常的或故障的。

确保服务的可靠性和安全性:我们的目的是确保系统、服务和业务的正常运行

确保业务持续稳定运行:如果我们的监控非常完善,即使出现故障,我们也可以在第一时间接收故障报警,并在第一时间处理,以确保业务持续稳定运行。

监控方法

1.了解监控对象:你知道我们想监控的对象吗?比如CPU到底是怎么工作的?

2.性能基准指标:我们应该监控这个东西的属性?比如CPU利用率、负载、用户态、内核态、上下文切换。

3.报警阈值定义:怎么样才算是故障,要报警呢?比如CPU负载有多高,用户态和和内核态分别跑多少算高?

4.故障处理流程:收到故障报警后,如何处理?处理过程是否更有效?

监控核心

发现问题:当系统发生故障报警时,我们将收到故障报警信息。

定位问题:故障邮件一般写某主机故障和具体故障,需要分析报警内容。例如,如果服务器无法连接,我们需要考虑是网络问题,还是负载过高导致长时间无法连接,或者开发触发防火墙禁止的相关策略,我们需要分析故障的具体原因。

解决问题:当然,在了解了故障的原因后,我们需要优先解决故障。

总结问题:解决重大故障后,需要总结故障原因和预防措施,避免以后重复。

监控工具

我们需要选择适合公司业务的监控工具进行监控。在这里,我对监控工具进行了简单的分类。

1、老牌监控

MRTG(Multi Route Trffic Grapher)瑞士奥尔滕是一套可用于绘制网络流量图的软件Tobias Oetiker与Dave Rand所开发,以GPL授权。MRTG最佳版本于1995年推出,使用Perl语言写成,可跨平台使用,数据采集SNMP协议,MRTG通过手机到达的数据Web页面以GIF或者PNG格式绘制图像。

Ganglia是一个跨平台的、可扩展的、高性能的分布式监控系统,如集群和网格。它以分层设计为基础,应用广泛的技术RRDtool存储数据。可视化界面适用于集群系统的自动监控。其精心设计的数据结构和算法使得从监控端到监控端的连接成本非常低。目前,数千个集群正在使用该监控系统,可以轻松处理2000个节点的集群环境。

Cacti(英语为仙人掌)PHP、MySQL、SNMP和RRDtool通过开发的网络流量监测图形分析工具snmpget获取数据使用RRDtool但用户不需要理解绘图RRDtool复杂参数。它提供了非常强大的数据和用户管理功能,可以指定每个用户查看树结构、主机设备和任何图片LDAP结合用户认证,也可以定制模板。在历史数据显示和监控方面,其功能相当好。Cacti通过添加模板,不同设备的监控添加具有可重用性,具有自定义绘图功能,具有较强的计算能力(数据叠加功能)

Nagios是一业级监控系统,可以监控服务的运行状态和网络信息,监控指定的本地或远程主机状态和服务,并提供异常报警通知功能。Nagios可运行在Linux和UNIX平台上。同时提供Web界面,方便系统管理人员查看网络状态、各种系统问题、系统相关日志等。Nagios该功能侧重于监控服务的可用性,可根据监控指标状态触发报警。目前Nagios但也占据了一定的市场份额,Nagios与时俱进,无法满足多变的监控需求。需要提高架构的可扩展性和使用方便性。其高级功能集成在商业版中Nagios XI中。

Smokeping主要用于监控网络性能,包括常规ping、www服务器性能,DNS查询性能、SSH性能等。底层也是用RRDtool做支持,特点是画图很漂亮,网络丢包和延迟用颜色和阴影标记,支持多张图叠在一起,作者也开发了MRTG和RRDtll等工具。Smokeping的站点为:http://tobi.oetiker.cn/hp。

开源监控系统OpenTSDB用HBase存储所有时、可伸缩的时间序列数据库,存储所有时序数据(无需采样)。它支持二级数据采集、永久存储、容量规划和现有报警系统。OpenTSDB从大型集群(包括网络设备、操作系统网络设备、操作系统和应用程序)中获取,并进行存储、索引和服务,使这些数据更容易理解,如Web化学、图形化等。

2、王牌监控

Zabbix是支持多种采集方式和客户端采集的分布式监控系统,具有专用性Agent代理,也支持SNMP、IPMI、JMX、Telnet、SSH在各种协议中,它将收集到的数据存储在数据库中,然后对其进行分析和整理,以满足触发报警的条件。其灵活的扩展性和丰富的功能是其他监控系统无法比拟的。相对而言,其整体功能对比以上各种监控系统,Zabbix它具有功能丰富、可扩展性强、二次开发能力强、使用方便等优点。读者可以建立自己的监控系统。

小米监控系统:Open-Falcon。Open-Falcon目标是做最开放、最有用的互联网企业级监控产品。

3、三方监控

目前市场上有很多不错的第三方监控,比如监控宝、监控容易、听云,很多云厂商都有自己的监控,但我不打算在这里重点介绍。想了解三方监控,可以去官网咨询。(避免植入广告)

监控流程

上面介绍了这么多,哪些监控工具最适合选择?这里推荐几种开源监控工具:Zabbix、Open-Falcon、LEPUS天兔(专门用于监控数据库)。但这篇文章还是基于的Zabbix来构建整个监控体系生态圈。让我们来谈谈Zabbix整个过程:

数据采集:Zabbix通过SNMP、Agent、ICMP、SSH、IPMI等数据采集系统;

数据存储:Zabbix存储在MySQL上,也可存储在其他数据库服务中;

数据分析:当我们事后需要复盘分析故障时,Zabbix它可以为我们提供图形、时间等相关信息,我们确定了故障的位置;

数据展示:Web界面显示,(移动APP、java_php开发一个Web界面也可以);

监控报警:电话报警、电子邮件报警、微信报警、短信报警、报警升级机制等;

报警处理:接到报警时,我们需要根据故障水平进行处理,如:重要紧急、重要不紧急等。配合相关人员快速处理故障。

监控指标

以上了解监控方法、目标、流程,也了解监控工具,有些人可能会想,我们想监控什么,这里我分类,包括硬件监控、系统监控、应用监控、网络监控、流量分析、日志监控、安全监控、API监控、性能监控、业务监控。

1、硬件监控

在早期阶段,我们通过机房检查来检查硬件设备的照明是否闪烁,以判断是否有故障,这是非常浪费人力,是一项重复的无技术内容的工作,我们知道。

当然,我们现在可以通过IPMI监控硬件的细节CPU、内存、磁盘、温度、风扇、电压等设置报警设置报警阈值(编制合理的报警范围) 。

IPMI监控硬件服务参考资料:Zabbix IPMI Interface

2、系统监控

中小企业基本都是Linux服务器,所以我们必须监控系统资源的使用,系统监控是监控系统的基础。

主要监控对象:

CPU上下文切换、运行队列和利用率有几个重要概念。

主要监控对象:

CPU有几个重要的概念:上下文切换、运行队列和利用率。这也是我们CPU监控的几个关键指标。

一般情况下,每个处理器的运行队列不3,CPU 在利用率方面,户态/内核状态的比例保持在70/30,空闲状态保持在50%。上下文切换应根据系统繁忙程度综合考虑。

针对CPU常用的工具有:htop、top、vmstat、mpstat、dstat、glances。Zabbix提供系统监控模板:Zabbix Agent Interface。

CPU整体状态

上下文切换

负载状态

内存:通常我们需要监控内存的利用率,SWAP利用率可以同时通过Zabbix描述内存利用率的曲线图发现服务内存溢出等。

常用的内存工具有:free、top、vmstat、glances。

内存使用率

IO分为磁盘IO和网络IO。除了进行性能调整外,我们还需要监控更详细的数据,日常监控只关注磁盘利用率、磁盘吞吐量度,网络也可以监控网卡流量。常用工具有:iostat、iotop、df、iftop、sar、glances。

磁盘使用率

读磁盘/写吞吐

网卡进出口流量

TCP11种状态信息

其他系统监控还包括运行过程端口、过程数、登录用户、Open File等。

其它相关监控

3、应用监控

在了解了硬件监控和系统监控之后,我们需要登录到服务器上查看服务器的运行情况 哪些服务,都需要监控起来。

{n}{n}

  应用服务监控也是监控体系中比较重要的内容,例如:LVS、HAProxy、Docker、Nginx、PHP、Memcached、Redis、MySQL、RabbitMQ等,相关的服务都需要使用zabbix监控起来。

{n}{n}

第十四届全国运动会在陕西西安隆重开幕 出席并宣布开幕式

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。

标签:运维:做了 5 依运维,依靠这个监控知识体系,我从 3K 变成了40K

智聪说说网
  • 本文由 发表于 2023-03-0612:27:08
  • 转载请务必保留本文链接:https://www.zhicongwang.com/107816.html