Saturday, March 21 2020

KVM云主机高负载之二

一个上线不久,没什么访问量的网站,突然收到用户反馈说页面经常打不开,或者能打开,但是要等十几秒,卡顿非常严重,几乎无法正常使用了,自己人测试下也是相同的表现,看来问题在服务端,排除了网络影响后,就是后端有什么问题了,奇怪的是,并没有任何指标报警啊,服务器一切正常,研发表示也没有啥特别改动,程序日志也很正常。

因为卡顿情况存在,肯定有一个环节请求响应慢了,跟踪下来发现所有卡顿都是同一台云主机,检查监控指标,并不算高,但是看起来会比其他主机上的应用多吃一些CPU,重启应用无效,等手工迁移应用到其他云主机,卡顿问题立即消失,虽然不愿意承认,但是大家觉得云主机的宿主机是不是有什么问题,请厂商帮忙检查,结果是没有问题,一度陷入僵局。

经过仔细对比监控记录,发现有问题的主机上应用在凌晨闲时CPU占用率突然从2%提高到5%,而其他主机上应用一直是2%,我们把怀疑宿主机的依据给到厂商,虽然厂商觉得他们没问题,但是还是愿意帮忙做一下云主机的热迁移。好在热迁移后,问题立即消失,厂商表示不可思议,要求再迁移回来,问题马上复现,经过多次来回检验,厂商终于给出问题可能的原因:透明大页不足,导致分配到了小页,造成虚拟机性能下降。

透明大页完全依赖操作系统分配,如果内存不够富裕,碎片严重就可能无法分配到透明大页(transparent_hugepage),而被分配小页,造成虚拟机页表地址转换开销加剧,性能自然受影响,但是差到这个程度,也是出乎我的意料。难怪很多软件都要求禁用透明大页,可见确实是潜在的性能杀手。

最后解决方案,就是不要使用透明大页,直接使用大页(hugepages),qemu参数 -mem-path 指定即可。

大页是内核支持的预分配内存,一旦分配就从内存统计里消失,和透明大页是完全不同的,具体可以参考内核文档:

https://www.kernel.org/doc/Documentation/vm/transhuge.txt

https://www.kernel.org/doc/Documentation/vm/hugetlbpage.txt

Sunday, March 15 2020

捡到一次PHP性能提升的机会

PHP的程序并发稍微高一点就慢的不行,sys 消耗出奇的高,除了太慢被切换,平时 strace 总能发现php进程疯狂的stat文件,之前查的不是性能问题,就没有深究。 如果正在使用 open_basedir ,那么好消息,一次性能提升的机会来了;最近考虑升级到7.4,性能可能会好点,结果在更新配置文件的时候突然发现 open_basedir 有一行提示:Note: disables the realpath cache, 天!难怪stat这么多,搜索一通,找到 Bug #52312 ,没想到的是,这个禁用从5.2时代就开始了,但是这个禁用的提示到7.2才写出来,坑人! 禁用的原因是安全问题  […]

Continue reading

Monday, January 20 2020

KVM云主机高负载之一

Continue reading

Thursday, December 26 2019

无题圣诞

对于中国人来说新年才是节日,圣诞也不放假,有个锤子用? 我大概是高中时开始感受圣诞,因为学校旁边有一个小教堂。当时是住校生,没人管的那种,经常晚上跑出去玩,记得有天照例去游戏厅,老远就看到教堂那挤满了人,那大概就是圣诞了,人多到路口几乎堵上,真不知道这帮人寒冬里挤在门口等什么?听说是12点会开门,进去能拿礼物?  […]

Continue reading

Saturday, December 7 2019

放弃 btrfs zfs

先说 zfs,Ubuntu 16.04 (4.4内核)开始集成,几乎每个月都会遇到高IO挂起问题,升级到 18.04 (4.15内核)后解决,但是要命的问题:不支持docker。 再说 btrfs,磁盘限额功能有缺陷,必须关闭quota,否则就是定时炸弹一枚, 最最糟糕的是IO性能随时间急剧下降(跑docker,也就几千个subvolume),可能是CoW导致的碎片太严重?滚一滚日志都能让负载上天。 网上查下,说最好定期跑跑balance,但是跑的太慢,对IO影响也很厉害,遂 ctrl+c 中断之,结果文件系统只读了。。 [7296807.472310] BTRFS: error  […]

Continue reading

Friday, October 18 2019

苹果系统升级后证书不信任问题

同事升级苹果系统到最新的10.15导致内部系统证书提示无效,换火狐浏览器就没问题(还是火狐好!)。 查了半天,发现是苹果新系统对证书有效性校验的更严格了: iOS 13 和 macOS 10.15 中的可信证书应满足的要求 看到最后,就是新规定要求2019年7月1号以后签发的证书有效期不能超过825天(两年多一点),我们内部证书都好几年的,刚好签发日期在时间点之后,那么干脆重新签发证书,把签发时间提到6月份就好了。 PS, 这是苹果唯一值得称道的点,安全性。

Tuesday, October 8 2019

《我11》

wo11.jpg

得了,豆瓣也关张了,咱只能在自留地里玩了。 又看了一部三线建设相关电影,《我11》,完美复现我的童年啊,厂矿子弟可以看个情怀,别的就不推荐了。  […]

Continue reading

Sunday, October 6 2019

噢,1997快点儿到吧

想讨论一下香港,才发现自己其实对香港一无所知, 清晰的知道1997回归中国,说不定还是因艾敬的这首《我的1997》, 那时我才小学毕业,这首歌大街小巷都在放,唱的让人对香港有无限的遐想和希望。 除了鸦片战争、不平等条约、殖民地以外,就是武打警匪片、四大天王、美女俊男,香港到底是一个什么样的地方,又到底经历过什么,让它变成现在的模样? 豆瓣上看到友邻推荐《香港简史》,是该补一补课了,国内没有出版,所幸可以直接在谷歌图书买到电子版, 是繁体字,看着略微不习惯,基本上没有障碍,趁着假期终于看完了。 书里可以找到曾经听说过的各种关于香港的破碎信息如何拼合,还有你完全陌生的历史进程,  […]

Continue reading

Wednesday, October 2 2019

cacti 64bit counter need snmp v2

cacti里绘图的网卡带宽超过100M后,需要使用64位计数器,否则图都是错误的, 换64位后,snmp版本至少使用v2,否则取不到数据。害我查半天。

Saturday, September 28 2019

gtk程序终于可以显示jpg了

8月11号不知道删了什么或是更新了什么,似乎是卸载了jasper后发生的,所有gtk程序都识别不了jpg图片了,只有png图片可以正常显示,这下系统多处图案无法显示,连壁纸都没了,最大影响还是看图软件,gqview没法用,只好临时装gwenview来应急,但是看图太卡。 查了很久都没有结果,jpg相关软件重装更新都无效。。 碰巧今天更新adwaita-icon-theme失败,gtk-encode-symbolic-svg执行报错: Can't load file: 无法识别的图像文件格式  […]

Continue reading

Sunday, June 23 2019

解决 TOSHIBA 移动硬盘 Linux下使用异常

到手一块 TOSHIBA DTB305 500G 移动硬盘,计划用来备份电脑的数据,先加密 cryptsetup -s 512 luksFormat /dev/sdb 居然失败,磁盘一直报错: May 23 23:38:20 mom kernel: scsi 6:0:0:0: Direct-Access TOSHIBA External USB 3.0 0114 PQ: 0 ANSI: 6 May 23 23:38:20 mom kernel: sd 6:0:0:0: [sdb] Spinning up disk... May 23 23:38:21 mom kernel: .ready  […]

Continue reading

Sunday, June 16 2019

入手最佳便携电脑 Chromebook

因为使用频率其实不高,直接某宝买二手,三星 Chromebook Plus (ARM版)1650块。 作为一个外出需要携带电脑的人来说,谷歌本的优势实在太大了: 轻便,仅1kg,而且充电口是Type-C,可以和手机共用充电器 便宜,出门在外随便用,丢了也不心疼 支持安卓应用,几乎任意VPN都可以用了 续航长,目测5小时没问题 支持LXD,可以跑原生Linux程序 从引导到磁盘全都有校验和加密,丢失设备不心慌 嗯,性能不是我考虑的,出门在外能看网页,能SSH,还可以看电影,足矣。  […]

Continue reading

Monday, March 25 2019

什么值得买?冲牙器啊

我牙缝小,牙签没用,牙线用过太麻烦,牙线棒也不行,很多位置不好用力,被丁香医生安利过多次后,趁促销下手买了。 绝对是买过最值的东西了! 用了会上瘾,舒服,简单,闭着眼睛都能冲干净的感觉真好,以前经常感觉到的口腔异味也几乎没有了,棒!

Sunday, March 3 2019

再一个十年,为旧电脑续命

爱机在十年前升级后一直坚挺,但是编译时的高温还是经常自动关机,换了CPU风扇也不见效,怀疑是电源老化,16年买了个全汉400W,似乎不太容易自动关机了。 但岁月不饶人机,年前竟然经常性休眠后唤不醒,插拔大法换电池依然无果,表现就是开机后各风扇一阵响,然后断电,排除法确定是主板归西了,也是挺不容易的,十年来基本上是不掉电状态,不用的时候S3休眠,突然想起有一次启动BIOS还报过一次checksum error,偶发一次没有在意……  […]

Continue reading

Sunday, October 4 2015

为MySQL管理员准备的PostgreSQL简易指南

原文在此: PostgreSQL for MySQL Administrators CDH默认的数据库是postgresql, 一时间还真的弄不明白, 看完以后差不多可以开搞了.

Saturday, October 3 2015

多网卡多IP策略路由配置

默认外网eth1, 默认路由不用改, 为了正确路由到内网eth0: 新增外网 eth2, NewIP 配置路由: ip route add default via NewGW dev eth2 src NewIP table 200 ip rule add from NewIP table 200 ip rule add fwmark 0x200 table 200 配置iptables mangle 表: ( eth0 : LAN ) -A PREROUTING -i eth0 -m conntrack --ctstate RELATED,ESTABLISHED -j CONNMARK  […]

Continue reading

Sunday, April 5 2015

贞寿之门

zhenshouzhimen.jpg

我老家门口有这么一块石头牌坊,上书: 圣旨,贞寿之门,敕旌监生杨衍之妻寿妇雷氏亲见七代五世同堂百岁寿坊 以前没看懂是怎么回事,为啥皇帝对守寡到百岁的人要特地发圣旨来表彰? 直到今天看《经济史的趣味》中说到“守寡有理”这一节,才明白: 其实汉族社会在宋代为止寡妇通常都会再嫁,守节的是少数例外。 守节风气乃是在元朝被蒙古的婚姻制度扭曲混血而成的产物,是妇女在无奈之下的“理性选择”。 因蒙古人行收继婚,汉人视为乱伦,而不可接受,在元朝的统治之下经过磨合冲突,汉人作出兼顾理想与现实的均衡:丈夫死后寡妇不愿依法被收继,又想保留财产权、子女权、人身权的最好办法就是守寡不嫁。  […]

Continue reading

Saturday, January 24 2015

为革命,保护视力

每天对着电脑屏幕,状态不好的时候,眼睛总是会痛,感觉快要瞎了,怎么破? 看见公司一个同学总戴着一副奇怪的有色眼镜,终于忍不住问了,原来是保护眼睛的: GUNNAR 琥珀色镜片, 这东西原理说是可以过滤短波蓝光,眼睛不容易疲劳,才400块钱,马上买了,确实很有效果!值! 不过就算有这么好的东西,那些买的起肾6的穷鬼还是嫌贵,还有些麻烦的四眼(近视镜需要定制,价格翻番),又不肯戴隐形, 其实还有免费的午餐 —— 显示器调色温软件: 装个redshift就好了, 不支持你的系统?那去试试f.lux 要说效果嘛,当然是眼镜最好了,哈哈。

Sunday, January 18 2015

装CDH5的几个坑

一开始用 apache 官方的几个包来搭 hadoop,但是管理起来太麻烦,就直接用 cloudera 公司的 cloudera manager 来装 cdh5。 装的时候版本是5.2.0,后来跟着一路升级到5.3.0,cm 用着还是蛮舒服的,这里记录一下安装使用中遇到的几个坑: cdh5 依赖 python2.7 ,要设置成默认 python。 自架 kdc 的时候记得开启 tcp 监听端口88。 如果 kerberos 加密算法选的太高级,服务器端和客户端都要安装 jce,不然认证通不过都不知道是为什么。 在 lxc 里跑的话,启用 kerberos 的时候,dac_read_search  […]

Continue reading

Thursday, August 14 2014

拖延症

多年的拖延症患者,今天决定总结一下。 想做一件事情,总要等外部条件全部满足以后,才可能开工,比如: 等待一个好的天气, 等待一个合适的心情, 等待有个大段的时间, 等待相关知识都储备好了, 等待…… 当然,懒是根源,这是天性,无法回避,但是可以就以上各种借口逐个击破: 不要去管天气了,心情不糟糕就行,碎片时间也可以,借助提醒工具,相关知识总结记下来。 总之就是,马上开始,分阶段,逐步推进,不要一上来就追求完美。 试试看。

- page 1 of 52