博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
记一次服务器宕机处理过程
阅读量:5885 次
发布时间:2019-06-19

本文共 1747 字,大约阅读时间需要 5 分钟。

今天整理之前的运维资料,发现了自己整理的一次刀片服务器(运行的vmware虚拟化)事故处理流程,所以记录下,备忘。

一、事件处理过程

14:10 接到机房运维工程师通知,Opmanager监控系统上出现了多台服务器宕机现象,并且均为虚拟机。

14:12 通知机房运维工程师检查HP刀片服务器是否有告警,远程登录vcenter进行检查。远程查看发现ESX0410.203.11.64)出现告警,告警信息如下图所示:

 14:15 通知工程师ESX04出现告警,然后确认该刀片服务器是否存活,并进入机房确认设备上是否有硬件上的告警。

14:16 检查逻辑上的网络接口是否存在异常

如下图所示,发现有两块网卡处于离线状态

14:18 检查其它刀片,发现ESXI02对应的网卡,发现为正常的

14:20 登录HP刀片管理控制台查看,未发现服务器告警信息。

14:19 参照其它EXSI,尝试更改vmnic6、vmnic7两块网卡模式,该操作无法生效

更改网卡模式无法生效

14:27 在ESX04进行手动迁移虚拟机到其他主机上,迁移失败。

14:58 ESX04主机上的虚拟机全部关机

15:20 重启ESXI主机,HA 自动将开着的虚拟机迁移到其他EXSI主机上启动

15:30 ESX04主机启动成功后,vsphereHA尝试自动将虚拟机迁移回ESX04主机失败,

15:50 手动迁移部分虚拟机回ESX04主机,观察运行状态。

二、日志分析

1、远程登录到ESXI的命令行,查看vmkernel的日志:

说明:由于esxi4采用的是utc时间,日志中显示的较时间时间会慢8小时

1
2
3
4
5
6
/var/log 
# cat /var/log/vmkernel.log | grep '2014-12-18'
2014-12-18T03:27:49.106Zcpu46:6396479)WARNING: ScsiDeviceIO: 1211: Devicenaa.60014380064900f30000800000e40000 performance hasdeteriorated. I
/O 
latency increased from average value of 3303 microseconds to68755 microseconds.
2014-12-18T03:31:54.595Zcpu8:16392)ScsiDeviceIO: 1191: Device naa.60014380064900f30000800000e40000performance has improved. I
/O 
latency reduced from 68755 microseconds to 13691microseconds.
2014-12-18T03:32:32.643Zcpu12:17017)MigrateNet: vm 17017: 2061: Accepted connection from <10.203.11.100>
2014-12-18T03:32:32.643Zcpu12:17017)MigrateNet: vm 17017: 2131: dataSocket 0x4100253292f0 receivebuffer size is 563560
2014-12-18T03:32:32.644Z cpu12:17017)WARNING:Migrate: 262: Invalid message 
type 
for 
new connection: 542393671.  Expecting message

如上面的日志显示:13:27,主机的性能开始下降,I/O延迟变的较大

2、查看10.203.11.100是否有相关告警:

如上图所示,提示esx04主机的网卡状态出现错误

3、收集的其它日志如下,暂未发现异常

整个处理过程到此基本完成,所有的刀片服务器中,也就这台偶尔抽风,也没有明显的特征

本文转自 冰冻vs西瓜 51CTO博客,原文链接:http://blog.51cto.com/molewan/1928339,如需转载请自行联系原作者
你可能感兴趣的文章
ionic 调用手机的打电话功能
查看>>
怎么使用阿里云直播服务应用到现在主流直播平台中
查看>>
判断点是否在三角形内
查看>>
知行合一
查看>>
jmeter插件之jsonpath提取响应结果和做断言
查看>>
[Contiki系列论文之1]Contiki——为微传感器网络而生的轻量级的、灵活的操作系统...
查看>>
Android 网络编程 记录
查看>>
微软同步发行Windows 10和Windows 10 Mobile系统更新
查看>>
Zeppelin的入门使用系列之使用Zeppelin运行shell命令(二)
查看>>
form表单下的button按钮会自动提交表单的问题
查看>>
那些年追过的......写过的技术博客
查看>>
python基础教程_学习笔记19:标准库:一些最爱——集合、堆和双端队列
查看>>
CSS魔法堂:Transition就这么好玩
查看>>
C/C++ 多线程机制
查看>>
如何使用Core Text计算一段文本绘制在屏幕上之后的高度
查看>>
2010技术应用计划
查看>>
Winform开发框架之权限管理系统改进的经验总结(3)-系统登录黑白名单的实现...
查看>>
JavaScript高级程序设计--对象,数组(栈方法,队列方法,重排序方法,迭代方法)...
查看>>
【转】 学习ios(必看经典)牛人40天精通iOS开发的学习方法【2015.12.2
查看>>
在 ASP.NET MVC 中使用异步控制器
查看>>