零宕机、流量高峰、208亿互动,百度靠硬核技术喜提春晚
刚刚过去的除夕夜,可能是百度有史以来最忙碌的一个夜晚。
四个小时的春晚,四次全民参与的红包互动,最终208亿次的亮眼成绩,以及百度App的App Store免费总榜第一,这一切让百度成为今年春节绝对的主角。
互联网公司竞争激烈的“春节档”,就这样以百度的大获全胜而收场。
硝烟褪去,就是复盘的时刻。回顾过去5年的红包大战、春晚交锋,商战之外其实用户最关心的只有两件事情:红包多不多,服务稳不稳。
百度今年豪掷9亿,是春晚红包金额迄今为止最多的一次。四轮红包互动也创造了春晚流量之巅,但没有发生前几年的宕机现象,百度技术能力再次被肯定。活动结束后,百度高级副总裁王海峰在朋友圈说,208亿次互动,服务始终稳健,过硬的技术是保障。
春晚流量难在哪?
以往业界公认的大流量是双十一或者12306,这二者有着很多相似的地方,瞬间涌入大规模的用户请求对平台来说是史无前例的挑战和压力。
12306网站被骂最惨的那几年,很多事情都不能迎风而上的出面解释。等到12306网站系统稳定不再频繁崩溃时,网上才出现几篇疑似叫屈的文章,核心观点都是说做12306其实比淘宝秒杀更难。
如今,12306经过多年的系统技术升级,已经没有大规模宕机的情况发生。双十一虽说没出过大的事故,但每年凌晨12点的支付系统仍会出现小瘫痪。
不过在春晚面前,12306和双十一都不算最难。
春晚的难在于更大规模的用户请求在瞬间爆发,同时需要活动平台在对实际状况无法准确预测的情况下做好部署及预测。春晚的流量密度是12306和双十一无法比拟的,毕竟春晚互动参与量超过百亿,可以想象如此巨大的用户量瞬间产生的数据规模有多大。
2015年除夕,微信红包的最高峰值出现在22:34,数字是8.1亿次/分。当年微信春晚摇一摇互动次数达110亿次,其中腾讯宕机1小时。
2016年除夕,支付宝互动平台的总参与次数达到3245亿次,是2015年春晚互动次数的29.5倍。在21点09分达到峰值210亿/分钟。虽有阿里云支撑,但支付宝红包还是宕机了数分钟。
而百度面临着更大的考验。猪年春晚,百度提供了4轮9亿的红包。每轮活动,用户的任务都不相同,摇一摇、Feed流中搜索以及进入小程序或小度商城,涉及百度数十个产品、百多种用户场景,再加上新增的AI玩法,这给百度APP带来了高并发、大流量,给百度云的服务器、带宽等基础设施带来巨大冲击。
具体来说,主要是三大难题:临时用户登录量极大、瞬间出现巨大流量峰值以及短期资源需求量巨大。稍有不慎,都可能导致用户打开百度APP缓慢、无法登录账号、点击界面无反应,甚至出现白屏,更别说参与抢红包大战。而且从结果来看,208亿次互动,确实是史上最大的红包流量了。
另外,因为智能手机普及,移动互联网下沉,网民数量增加等因素影响,百度今天面临的整体情况也要比前几年更加复杂。
首先是手机网民的数量与日俱增,从2015年12月的6.2亿增长至2018年6月的7.88亿。这对百度而言,前期做预测模型推演的难度就要比腾讯和阿里更大,同时后期对数据峰值的吞吐能力也是一个挑战。
其次是产业链环节的风险,用户在手机端摇一摇就能参与红包互动,实现如此简单的行为背后,需要整个产业链的合作:下载百度App、运营商短信通知、网络承载以及应用商店服务器、电信运营商网络、机房、光纤等硬件,一个环节出错都可能导致宕机。
事实上除夕夜百度第一轮红包互动之后,App Store、华为、小米、三星等几大应用商店就瘫痪了,其中App Store长达12分钟不能访问,今年的流量显然远超预期。
最后是黑/灰色产业链的风险,羊毛党手里掌握大量虚拟资源,它们可以在短时间内产生巨大流量,这部分流量叠加正常流量,就进一步加大了服务器的压力。
百度云保驾护航
根据百度官方公布的消息,春晚期间,百度共发出1000万个20.19元的红包,100万个88元红包,10万台小度AI音箱,1万个2019元红包以及若干手气红包。截至除夕夜21:00,全球观众参与百度APP红包互动就已经达到了92亿次,到整个活动结束红包互动更是高达2018亿次
这样的情况下,据我观察,整个互动过程十分顺畅,并未出现卡顿、延迟以及宕机。反而是11点左右,微信却宕机了,无法发送红包。
我之前提到过,春晚与百度合作其实不仅仅出于商业层面的考量,也要衡量合作伙伴的技术实力。单就红包互动而言,每秒亿级的服务请求,需要平台有足够的数据吞吐能力来确保活动正常进行。
罗振宇在2019年的跨年演讲中提到:得到原本打算在春晚投放广告,但是被劝住了,因为春晚红包有一条不成文的规定——要想春晚打广告,产品日活先过亿。原因很简单,用户量过低,技术很难支撑起春晚级别的高并发流量。
对于百度而言,除了技术层面的考验,品牌和口碑上的风险更甚。有AT宕机的例子在前,百度想要打一个漂亮仗,就要打起十二万分精神。并且,BAT中百度给外界的形象一直是技术为先为重,一旦失误品牌形象和用户口碑必然受损。
所以,百度这一次真的是机遇与挑战并存了。
在确定拿下春晚红包互动权后,百度成立了一个近千人的项目组,包括产品、研发、运营、客服以及风控,应对爆发数量的需求。
在技术方面,百度很早就落实了服务流量隔离、系统升级、专线新增以及服务器扩容等工作,提前进行了多轮全链路压力测试和多轮的方案预演。
并从多个方面着手,进行了周密的规划准备工作。在从项目启动到上线的30天内,展开实施产品运营优化、数据库优化、智能调度、技术设施运维等全方位应对方案,打了一场多线并行、内外协同的高效技术服务保障战役。
包括我们前面提到的临时用户登录量极大的难题,百度云20天内将短信承接能力提升至少数十倍,还与运营商合作,在云上布局一键登录功能,简化登录流程、减轻服务器压力。
在硬件资源上,百度提前规划布局和建设网络资源,通过智能调度系统,分钟感知不同地区资源紧张程度,进行相应的资源调度和补给。比如,北京顺义华威机房在8小时内完成了10000台服务器的物理上架,16小时完成自动化上线交付业务使用,创造了业界服务器交付速度的新纪录;IDC网络和CDN资源建设则在3周内完成了相当于2018年全年的建设量。
除了常规的扩容,百度还使用专有硬件计算(特定CPU,或者GPU、FPGA等硬件),处理大规模AI计算需求;准备最大规模硬件资源,处理十亿级别并发需求。
据说整个系统在内部都是全自动扩容缩容,数万台机器,相应每秒数千万的请求,并支持快速扩展支持更多请求处理。
另外,在这期间,还有一个不得不提的就是,百余项百度安全技术及产品被应用于包括羊毛党风控、DDos攻击拦截、隐私窃取打击等反黑产领域。
其中,春晚红包的风控由百度安全昊天镜业务安全风控平台全程护航,其核心风控大脑由百度安全独创的5层复合机器学习和威胁情报大脑双擎驱动,精准实现对规模化深层黑产感知、人机识别、群控加代理集群拦截、黑产溯源的风控举措。
度过春晚大考的百度,未来可期
此前,百度已经通过AI证明了自己技术最先进最开放,而经此一役,以后也可以加上技术最稳定了。对于互联网公司来说,春晚并不仅仅是营销和业务层面的较量,还是技术实力和服务质量的一次暗战。
尤其是在如今这个时候,消费互联网触顶产业互联网萌芽,BAT都在拼全力向企业市场之时,百度平稳度过了春晚大考,这是对其企业服务能力的一次锻炼和升级,也是未来在2B市场的一块金字招牌。