隐藏的数据:WhatsApp的数据秘密
WhatsApp作为一款社交软件,几年间从默默无闻到风靡全球,其背后隐藏的数据是如何的庞大,可想而知。今天,就跟随大圣众包威客平台(www.dashengzb.cn)的脚步,一起窥探海量数据中的其中一部分。
一、基础统计
月4.65亿用户;
平均每日接收190亿消息,发送400亿消息,6亿张图片,2亿条语音,1亿段视频;
峰值期间1.47亿的并发连接数——电话连接到系统;
峰值期间每秒23万次登陆操作——手机上线及下线;
峰值期间每秒32.4万信息流入,71.2万流出;
约10个工程师致力于Erlang,他们肩负了开发与运维。
二、节日峰值
平安夜流出达146Gb/s,相当多的带宽用于服务手机;
平安夜视频下载达3.6亿次;
新年夜图片下载约20亿(46k/s);
新年夜图片最高下载次数为3200万次。
三、堆栈概况
Erlang R16B01(打了自己的补丁);
FreeBSD 9.2;
Mnesia(数据库);
Yaws;
使用了SoftLayer云服务和实体服务器。
四、硬件概况
大约550个服务器+备份;
150个左右的Chat服务器(每个服务器处理大约100万的手机、峰值期间1.5亿的连接);
250个左右的多媒体信息服务器;
2x2690v2 Ivy Bridge 10-core(总计40的超线程技术);
数据库节点拥有512GB的内存;
标准计算节点搭载64GB内存;
SSD主要用于可靠性,存储资源不足时还用于存储视频;
Dual-linkGigEx2(公共的面向用户,私有的用于后端系统);
Erlang系统使用的核心超过1.1万个。
五、系统概况
独爱Erlang;
语言非常棒,适合小工程团队;
非常棒的SMP可扩展性,可以运行高配的主机,并且有益于减少节点,运维复杂性只与节点数有关,而不是核心数;
扩展性就像扫雷,总可以在问题爆发之前发现并解决,世界级事件相当于做系统的压力测试;
可以飞快地更新代码。
六、架构概况
手机客户端连接到MMS(多媒体);
Chat连接到瞬态离线存储,用户之间的消息传输通过后端系统控制;
Chat连接到数据库,比如Account、Profile、Push、Group等。
七、多媒体数据库介绍
内存Mnesia数据库使用大约2TB的RAM,跨16个分片存储180亿条记录;
只存储正在发布的消息和多媒体,但是在多媒体发布时,会将信息储存在数据库中;
当下单服务器只运行100万的并发连接。
八、解耦
隔离瓶颈,让之不会存在整个系统中;
紧耦合会导致相继故障;
正在解决问题时,保持尽可能多的吞吐量;
异步处理以最小化吞吐量延时;
当延时不可预知及在不同点存在时,异步可以尽可能地保证吞吐量;
解耦可以让系统运行尽可能的快。
九、避免HOL阻塞
线头阻塞是首位处理会饿死队列中的其他项目;
分离读和写队列,特别是在表格上执行事务,写入方面的延时不会影响读取队列;
分离节点内部队列,只有当消息发送给问题节点时才会做备份,这将允许消息自由地传输,问题被隔离开来,给Mnesia打补丁以保证async_dirty级响应时间,App发送消息后就会被解耦,因此当一个节点发生故障时,不会导致负载问题;
在不确定延时场景下使用FIFO模型。
十、Meta Custering
需要一种方法来控制单集群体积,并允许它跨很长距离;
建立wandist,基于gen_tcp的分布式传输,由许多需要相互通信的节点组成;
1个基于pg2的透明路由层,建立一个单跳路由调度系统。
十一、分割服务
在2到32间进行分割,大部分服务都被分割成32个;
pg2addressing,分布式进程组,用于集群上的分片寻址;
节点进行主从设置,用于容灾;
限制访问单ets或者Mnesia进程的数量到8,这会让锁争用处于控制当中。
十二、优化系统
每条消息都被用户快速地读取,60秒内完成50%;
添加一个回写缓存,这样消息就可以在写入文件系统之前被交付,缓存命中率达98%;
如果IO系统因为负载而阻塞,缓存会对消息交付起到额外的缓冲作用,直到IO系统恢复;
给BEAM(Erlang VM打补丁)以实现异步文件IO来避免线头阻塞问题,在所有异步工作线程上轮训文件系统端口请求,在大型mailbox和缓慢磁盘的情况下可以缓解写入;
使用大量的fragments降低Mnesia表格的访问速度;
账户表格被分割成512份打入“island”,意味着用户和这512个分片间存在一个稀疏映射,大部分的fragments都是空的和空闲的;
哈希模式会导致建立大量的空bucket,有些甚至会非常长,而双线的变化解决了这个问题,并将性能从4提升到1。
十三、补丁略展
mnesia_tm是个非常大的选择循环,因此虽然负载未满,也可能会造成事务的积压,打补丁以收取事务流并且保存以作稍后处理;
添加多个mnesia_tmasync_dirty发送者;
存在许多的跨集群操作,因此Mnesia最好从附近的节点加载;
给异步文件IO加入循环调度;
使用ets哈希开防止w/phash2的同时发生;
优化ets main/name table来应对规模;
不要队列mnesia dump,因为队列中存在太多的dumps时,schema ops将不可行。
日600亿消息,月4.65亿用户,WhatsApp是怎样做到的?答案尽在Erlang。Erlang是一种可以应对大规模并发活动的编程语言和运行环境。在大数据产业日益繁盛的今天,它的地位将越来越重要。
原文地址:http://www.dashengzb.cn/articles/a-234.html
(更多大数据与商业智能领域干货、或电子书,可添加大圣花花个人微信号(dashenghuaer))