系统监控在IT领域是个很重要的事情。服务器运行过程中需要的各种CPU、内存、存储、其他I/O及网络资源等等的指标,就是直接指向系统健康程度、利用率及是否故障的。所以,任何一个体量的IT系统都无法忽视对监控的使用。基于公有云平台上的服务,监控亦是一个基本的服务,且基本都是免费提供给客户使用的,有些公有云上,甚至使用了英文单词”Eyes“来命名其监控服务。天翼云上原生自带一个监控服务,也就是本文将要介绍云监控服务。由于这个服务比较基础,因此我们也像云主机的服务一样只介绍一些强大的特性或容易被忽视的功能点。
本文就介绍云监控中的主机监控。主机监控主要针对的云主机进行监控,相对于云主机的基础监控来讲,多了很多操作系统层面的参数,比如:各个态的CPU使用率占比、内存使用情况、硬盘使用情况及进程使用情况等等,并且报表显示更加直观迅速,基于此的告警反应也是更加迅速的。但由于其需要在云主机内部安装agent,所以需要客户手动进行安装部署。这也给客户了一个选择,客户可以自行决定是否部署。并且这个服务也是免费的。
不像很多其他的公有云供应商一样,天翼云会对很对agent类的安装进行弱化,所提供的公共镜像都是尽量最小化包含的,这虽然给客户带来了一定安装部署工作,更重要的是将主动权和可控权交给客户。相比来说,个人认为这种将选择交给客户,将过程透明给客户的做法更加让客户使用起来有安全感。
使用主机监控首先是要基于云监控进行使用的,其使用步骤主要分为以下几步。
1、找到云监控服务界面的主机监控。
2、获取agent安装方法。
3、安装agent并修正。我们这里采用批量安装的方法安装。
4、查看监控指标。
1、主机监控位于云监控服务的主机监控菜单内,找到弹性云主机监控,就可以看到待被监控的主机。有时候新创建出来的云主机需要等待一段时间才能在监控面板中有所反应。
此时,插件状态显示配置异常,点击进入后,可以看到有待安装插件提示。
目前,只有基础监控是正常的。
2、获取插件安装配置的方法。
根据不同的操作系统选择后,就会告诉你安装方法,其实就是跑几条命令。本文采用批量安装的方式进行安装。
3、安装agent。批量安装需要首先安装好一台后,再批量部署。首先,通过VNC登录一台云主机,并执行单台安装方式。安装过程中所有的云主机都可以不用连接互联网。
安装成功后会自动启动。
之后再控制台上执行修复。
最后一个修复失败,暂时无需理会。隔一段时间后,数据采集正常,各项状态正常,监控就可以使用了。
之后在第一台机器上,继续执行下一条命令。
继续按照操作手册,在/user/local目录下新建iplist.txt将需要批量安装的节点私有IP粘贴到iplist.txt,每个IP保持一行。
执行批量安装agent命令。要将$password换成实际的密码,这里需要所有的批量安装的机器密码相同。
修复后,等待数据正常。
4、让我们来查看一下云监控的主机监控开启后,增加的指标。操作系统层面。
指标非常非常多,我们就不一一解释了。来看一下内存的参数指标。
硬盘的参数指标。
网卡的参数指标。
还支持进程级别的监控。进程总数监控及具体进程的监控。
可以设定具体需要监控的某个进程,去更好的排查进程资源占用情况。
可以看到选定的进程的具体参数。
至此,云监控的主机监控服务的内容就基本介绍完毕了。云监控的免费提供为使用公有云服务大大提供了便利性,也提高了性价比。要知道一套完整的监控体系搭建起来也是非常庞大的工程。需要考虑数据实时采集,保存,处理,以及监控平台的高可靠性。云监控还有告警功能,告警又是一套庞大的体系,邮件、短信接口,群组,权限等等问题都需要一一实现。充分利用好天翼云平台上的云监控服务,不仅事半功倍,更是为安全以及高效运维奠定了坚实的基础。
阿贾克斯