记一次磁盘故障排查-创新互联

事故背景：

物理机（192.168.200.10）安装了KVM虚拟化，虚拟化的机器无法正常启动，进入vnc界面查看到linux系统在读取硬盘的时候需要30s-60s左右，正常启动的话几秒钟即可。怀疑是和硬盘有关系。

解决思路：

1、查看当前系统硬盘负载情况
2、查看哪个进程占用了硬盘IO

成都创新互联专注于企业成都全网营销推广、网站重做改版、农安网站定制设计、自适应品牌网站建设、H5开发、商城网站定制开发、集团公司官网建设、外贸网站制作、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为农安等各大城市提供网站开发制作服务。

步骤1、使用iostat –x 1 iostat还有一个比较常用的选项-x，该选项将用于显示和io相关的扩展数据。如图


rrqm/s：每秒这个设备相关的读取请求有多少被Merge了（当系统调用需要读取数据的时候，VFS将请求发到各个FS，如果FS发现不同的读取请求读取的是相同Block的数据，FS会将这个请求合并Merge）；wrqm/s：每秒这个设备相关的写入请求有多少被Merge了。
rsec/s：每秒读取的扇区数；
wsec/：每秒写入的扇区数。
rKB/s：The number of read requests that were issued to the device per second；
wKB/s：The number of write requests that were issued to the device per second；
avgrq-sz 平均请求扇区的大小
avgqu-sz 是平均请求队列的长度。毫无疑问，队列长度越短越好。    
await：  每一个IO请求的处理的平均时间（单位是微秒毫秒）。这里可以理解为IO的响应时间，一般地系统IO响应时间应该低于5ms，如果大于10ms就比较大了。
         这个时间包括了队列时间和服务时间，也就是说，一般情况下，await大于svctm，它们的差值越小，则说明队列时间越短，反之差值越大，队列时间越长，说明系统出了问题。
svctm    表示平均每次设备I/O操作的服务时间（以毫秒为单位）。如果svctm的值与await很接近，表示几乎没有I/O等待，磁盘性能很好，如果await的值远高于svctm的值，则表示I/O队列等待太长，         系统上运行的应用程序将变慢。
%util： 在统计时间内所有处理IO时间，除以总共统计时间。例如，如果统计间隔1秒，该设备有0.8秒在处理IO，而0.2秒闲置，那么该设备的%util = 0.8/1 = 80%，所以该参数暗示了设备的繁忙程度
。一般地，如果该参数是100%表示设备已经接近满负荷运行了（当然如果是多磁盘，即使%util是100%，因为磁盘的并发能力，所以磁盘使用未必就到了瓶颈）。

记一次磁盘故障排查

由此得出：硬盘的负载已达到瓶颈；

步骤2、使用iotop，类似top命令。查看哪个进程占用了硬盘IO，如图：

记一次磁盘故障排查
得出结论，有台虚拟机（192.168.200.207）占用了硬盘IO，将该机器关机之后得到解决

另外有需要云服务器可以了解下创新互联cdcxhl.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

当前文章：记一次磁盘故障排查-创新互联
文章URL：http://cdxtjz.com/article/ccsceh.html

记一次磁盘故障排查-创新互联

事故背景：

解决思路：

步骤1、使用iostat –x 1 iostat还有一个比较常用的选项-x，该选项将用于显示和io相关的扩展数据。如图

步骤2、使用iotop，类似top命令。查看哪个进程占用了硬盘IO，如图：

其他资讯