Linux 发生 OOM 的时候,node-exporter 自带的指标只能报告有发生过 OOM,但是细节一概没有,还需要自己去查看,不太方便快速判断,也无法对一些特定 OOM 进行消音。 简单搜索了一下,好像也没有找到现成的方案,那就自己写一个能提供更多OOM信息的工具 sysoom ,原理就是分析内核OOM日志,获取我关心的一些信息,比如被杀的进程名字,占用的内存大小,所属 cgroup 等。 结合 alertmanager […]
Tag - linux
Saturday, March 21 2020
KVM云主机高负载之二
Saturday, March 21 2020. 计算机
一个上线不久,没什么访问量的网站,突然收到用户反馈说页面经常打不开,或者能打开,但是要等十几秒,卡顿非常严重,几乎无法正常使用了,自己人测试下也是相同的表现,看来问题在服务端,排除了网络影响后,就是后端有什么问题了,奇怪的是,并没有任何指标报警啊,服务器一切正常,研发表示也没有啥特别改动,程序日志也很正常。 […]
Saturday, December 7 2019
放弃 btrfs zfs
Saturday, December 7 2019. 计算机
先说 zfs,Ubuntu 16.04 (4.4内核)开始集成,几乎每个月都会遇到高IO挂起问题,升级到 18.04 (4.15内核)后解决,但是要命的问题:不支持docker。 再说 btrfs,磁盘限额功能有缺陷,必须关闭quota,否则就是定时炸弹一枚, 最最糟糕的是IO性能随时间急剧下降(跑docker,也就几千个subvolume),可能是CoW导致的碎片太严重?滚一滚日志都能让负载上天。 网上查下,说最好定期跑跑balance,但是跑的太慢,对IO影响也很厉害,遂 ctrl+c 中断之,结果文件系统只读了。。 [7296807.472310] BTRFS: error […]
Sunday, June 23 2019
解决 TOSHIBA 移动硬盘 Linux下使用异常
Sunday, June 23 2019. 计算机
到手一块 TOSHIBA DTB305 500G 移动硬盘,计划用来备份电脑的数据,先加密 cryptsetup -s 512 luksFormat /dev/sdb 居然失败,磁盘一直报错: May 23 23:38:20 mom kernel: scsi 6:0:0:0: Direct-Access TOSHIBA External USB 3.0 0114 PQ: 0 ANSI: 6 May 23 23:38:20 mom kernel: sd 6:0:0:0: [sdb] Spinning up disk... May 23 23:38:21 mom kernel: .ready […]
« previous entries - page 1 of 17
Last comments