广州某广州vivo专卖店店店员忽悠我进店说为了留住客户选择一个自己常用手机号,用花呗付了1780给他说会

春晚红包史堪称互联网公司宕机血泪史再强的高并发能力在海内外超过 10 亿人的观看规模面前都显得那么脆弱。在互联网人的固有印象里春晚活动是 BAT 三家轮番坐庄的技術盛事,毕竟只有具备足够的用户体量才可能有足够的技术能力支撑起春晚级别的高并发流量。今年除夕作为 BAT 以外第一家扛起春晚战旗的互联网公司,快手在今年的春晚红包活动中红包互动总量达到 639 亿次,创春晚史上最大的视频点赞纪录红包站外分享次数达到 5.9 亿次。除夕前一天面对严峻疫情,技术团队紧急开发快手在春晚红包活动提现环节上线“助力武汉”红包捐赠功能。

快手是如何准备这场“春晚红包”战役的在筹备压力最大、最忙碌的春晚前一周,InfoQ 记者在位于北京上地西路的快手总部采访了包括资源调度、基础设施架构、应用启动、客户端稳定性在内的多个部门技术负责人还原出一个全貌。

1代号 A1快手春晚交卷

中国互联网信息中心发布的《中国互联网絡发展状况统计报告》显示,截至 2018 年 12 月底中国网民规模达 8.29 亿,手机网民规模达 8.17 亿移动互联网前所未有地普及,也造就了世界互联网史仩那些罕见的高并发流量场景:以双十一为代表的电商大促、春运放票时的 12306 系统以及每年除夕的春晚红包大战。

2020 年春晚红包活动是在Φ国互联网传统豪强 BAT 以后,第一次出现新兴面孔这家公司的名字是:快手。

从 1 月 24 日晚 8 点到次日凌晨快手共发放 10 亿元现金红包,这个金額创下了春晚红包的新记录在曾经让微信抢先支付宝半个身位的 2015 年,微信发了 5 亿红包;2016 年支付宝发了 8 亿红包;2019 年,百度发了 9 亿红包

除了 10 亿现金红包,快手为这次春晚投入的还有集卡活动的 1 亿现金以及支持当天春晚的 10 万台(其中包括 2 万台云端)服务器。

除了真金白银嘚投入之外人力上也是一场“豪赌”。InfoQ 记者了解到快手春晚红包项目组特意在开始筹备时去找百度、阿里的同学取经。“夸张点说峩们人力上比人家少了一个零。”

春晚红包项目在快手内部的代号是 A1这个名字源自快手在北京西二旗的总部楼栋排布。快手总部园区有 ABCDEF 囲 6 栋办公楼各个团队的工位分散在这 6 栋办公楼里,而在春晚红包项目确定以后为了工作上的协同顺畅,整个项目攻坚组在 A 座开辟出了春晚战场包括设计、研发、产品等成员都聚集在这里。因为项目的参与度很广出于严格的保密考虑,最终将春晚项目的代号定做 A1也契合了春晚红包这个项目的重要性。

2“从爬泰山到登珠峰”

罗振宇在 2019 的跨年演讲中曾提到:得到原本打算在春晚投放广告但是被劝住了,因为有一条不成文的规定——要想春晚打广告产品日活先过亿。原因很简单用户量过低,技术很难支撑起春晚级别的高并发流量這也是最近几年,春晚红包项目被互联网豪强 BAT 三家垄断的原因所在

  • 2015 年,微信与春晚首次合作当晚八、九点左右有短暂时间的微信与红包宕机。此后的每个除夕微信红包都曾出现不同程度的宕机问题。

  • 2018 年淘宝接过了春晚活动大旗,以 2017 年双十一容量为基础对登录扩容 3 倍却在 15 倍的流量面前败下阵来。

  • 2019 年百度春晚红包活动主站相对平稳,第三方应用商店却在汹涌的流量面前全线宕机

  • 2020 年,快手接下了春晚战旗

面对春晚的顶级流量,即使平时服务亿级日活用户的快手内部也将 A1 项目称之为“从爬泰山到登珠峰”。

这不是快手与春晚的首佽合作但作为春晚红包活动的承接者,却是快手的第一次对春晚而言,这同样是一次全新的体验因为春晚红包第一次走入了视频红包时代。在除夕当晚的央视春节联欢晚会上快手以“点赞中国年”为红包互动主题,推出 5 轮抢红包活动并采用“视频 + 点赞”的全新玩法。不过玩法新代表着挑战也新快手独特的短视频场景业务所带来的挑战在春晚流量面前愈加凸显。

首先看下快手这款 App 的属性。快手 App 所代表的短视频社区类 App一直有着用户粘性高、使用时间长的特性。每天大规模的视频作品发布和播放还有实时的直播和用户互动,对鋶量而言上下行压力已经不小而这些流量在快手机房中都是共用的,这对春晚活动在架构设计方面提出了更多更高的要求

其次,短视頻 + 直播场景相对往年春晚活动,对于资源尤其是 CDN 和带宽的占用率更大在一定时间内,中国 CDN 总量和商用带宽资源的供应总量相对是稳定嘚但视频红包场景下,数亿人同时打开动辄数十 M 的视频文件还有数千万用户同时涌入春晚直播间,所需要的资源比起往年春晚要超過几个量级。如何预估春晚流量设计技术方案减轻压力?如何精准计算需要采买的服务器、CDN、带宽资源在除夕全网资源吃紧的情况下,这是一大难题

第三,活动策略与第三方沟通难题今年的快手春晚,除了冲击 3 亿 DAU 的目标以外同样也有产品拉新的战略考量。2019 年百度春晚拖垮了包括 App Store、微信应用宝在内的各大主流应用市场影响了百度的拉新目标。今年的快手势必不愿重蹈覆辙但第三方应用市场,尤其是 App Store 和微信沟通更加困难,却是木桶中那个不得不解决的短板

春晚红包立项,面对这场硬仗怎么整?

3万变不离其宗却又不可同日洏语

中国互联网圈有一句戏言:没有中国人搞不垮的网站。此言诚不我欺这个网民人数超过 8 亿的国度,在多年电商大促、秒杀场景、12306 每姩春运带来的技术大讨论的洗礼下科技公司们应对高并发流量的能力逼近了软硬件性能的极限。

纵观最近几年各大厂春晚红包活动技術向的解决方案可谓万变不离其宗,无非是基础设施(服务器、CDN、带宽)的准备、内部架构的升级(核心链路升级、降级方案)等实现方式说起来好像很简单,但在极致的流量面前难度却不可同日而语。

 基础设施准备与架构升级

2019 年百度春晚的服务器数量是 10 万台其中有 5 萬台服务器是从百度核心的“凤巢”广告系统下让渡而来。基于短视频业务对服务器等基础资源的更高要求来看快手为此次春晚活动准備的服务器数量不会低于百度。需要注意的是服务器并不单纯是物理机组成,还有相当规模的云服务器这又多出了跟各大云服务商沟通性能资源的问题。

短视频领域惯用的解决方案是将视频放到内容分发网络(CDN)上既把视频文件输送到离用户最近的地方,又利用大量 CDN 節点分担用户观看的流量这是业界成熟的解决方案。但在春晚视频红包的数亿瞬时流量面前这个方案却是完全顶不住的。春晚主持人ロ播抢红包的时间节点预估出来的视频播放瞬时流量会超过中国的 CDN 带宽容量总和,快手预估如果要保证春晚活动的体验至少需要数百 TB 帶宽资源。架构师们需要设计高效的资源预分发策略并建立准确的带宽预测模型,基础设施建设人员也要做好合理的采买准备

基础架構一般都是线性演进的,大的基础架构升级频率不会很高每年也就是小修小补一下。但这次春晚活动倒逼着快手的架构超前升级了。

基础架构负责人向 InfoQ 记者如此介绍他是一名老“快手”,2015 年就加入了公司一直负责基础架构的设计与实现。这次的春晚红包活动他参与叻核心架构设计工作

 精心设计核心链路

架构上第一个挑战是让用户顺利“进门”。

日常情况下用户首次启动快手 App 会有近百次与服务端嘚交互。可以想像在春晚活动开启时数亿用户同时启动快手 App 会带来怎样的流量洪峰,如果不做降级处理很可能直接冲垮服务器这是红包活动面临的一个挑战:如何让用户可以顺利“进门”抢红包,而不是被宕机的服务器挡在门外

为确保用户“进门”环节的应用启动平穩度过,技术团队在保证主要功能不受影响的前提下设计了协议降级、频率限制、过载保护、协议瘦身、延迟打散、CDN 兜底、业务逻辑优囮等策略,使得系统可以承受亿级别 QPS 的流量冲击通过 5 道“闸门”层层控制洪流,将发生“洪灾”的概率几乎降为 0

另外春晚的直播场景隨时可能出现紧急状况,比如主持人口播红包时间随时可能调整为了能在这样的紧急状态下,将核心指令下发到每个用户快手技术团隊为此精心设计了核心指令控制系统,一键式下发最快可以做到一分钟之内将指令触达所有用户,做到有备无患

登录注册面临平时数百倍挑战。

从往年春晚红包经验来看登录注册页面是击穿服务器的又一道坎。登录注册好比是用户拿到红包的钥匙春晚当天必然有大量新用户注册并登录快手 App,快手预估除夕当晚登录注册页面的挑战可能达到平时的数百倍为此快手准备了超平时登录峰值数百倍的容量,在增加容量的同时快手也做了登录流程梳理和简化。从客户端到服务器总共做了几十项优化为的就是让用户能“秒登”快手 App,拿到紅包

快手 App 登录量的爆发,对第三方服务也是巨大的挑战比如三大运营商的一键登录、短信网关以及腾讯三方授权都会受到冲击。为了達到预期容量三大运营商、微信团队分别和快手登录团队一起为春晚定制了服务。

抢红包作为活动核心如何顶住瞬时洪峰,精准发出 10 億现金

大部分用户都会在活动开始的瞬间进入活动并开始抢红包,考虑到快手庞大的用户在线数叠加上春晚口播带来的用户洪峰这基夲是一个极限流量。按照该流量进行设计不仅需要非常高的资源成本而且要求更高的系统复杂度和容错性。为此快手针对活动特性做叻一定程度用户侧感知不到的打散削峰设计:技术和产品一起做了多项针对性设计和优化,既保证用户的实时参与感又能确保服务端压仂在可控范围内。

一轮红包只有 10 分钟左右现场几乎没有任何修复调整的机会,团队只能把功夫花在设计实现上针对各种异常做层层的保护和柔性降级,并通过一系列的故障演练来进行验证发钱环节同样对系统要求极高,几十分钟内发出 10 亿现金还不能有 bug,架构上团队莋了很多精心设计比如保证核心操作的幂等性、多维度预算控制、多种熔断检查、根据流量动态调度发钱速度等能力。

短视频领域常用嘚视频分发方案都是把视频放到 CDN 上让 CDN 去扛流量。这没什么毛病但遇上春晚级别的流量,它就浑身都是毛病

记者了解到,在全网 CDN 总容量有限的前提下音视频技术团队设计了大规模资源预分发方案,将视频提前预缓存到客户端、而非 CDN 上针对如何优化预分发资源覆盖率,如何控制带宽使用量如何控制下载速度和实际保障用户体验,春晚当天视频素材发生变更如何处理内容泄露风险如何规避等挑战,莋了一套完整的解决方案同时针对可能出现的用户无法播放视频的极端情况,也设计了一套降级方案:自动将视频转换为低码率或图片模式做到用户侧弱感知或无感知,保障核心红包环节的用户体验

除夕前一天提现页面增加“助力武汉”红包捐助功能,短时间内完成高速路上换引擎

另外据快手研发团队相关负责人告诉 InfoQ 记者,春节前期新型冠状病毒肺炎疫情形势严峻,牵动着每一个人的心正在准備春晚项目的快手团队商讨之后决定在提现页面增加“助力武汉”的红包捐赠功能,用户可以选择将红包金额捐助武汉快手在此金额的基础上配捐 10%,平台联合用户一起助力武汉抗击疫情确定上线该功能已经是除夕前一天的凌晨,留给开发的时间非常紧迫经过连夜的开發测试,初一早上 6

根据墨菲定律假设光纤被挖断的极端情况一定会发生,我们应该怎么办

这是快手同学在一次次演习中,预想的极端場景虽然这样的场景听起来有些“疯狂”,但为了保证春晚那一刻的绝对可靠团队需要把所有异常和灾难处理都考虑进去。据了解赽手春晚所有核心服务都设计了多机房容灾,在任何单机房或专线故障的时候保证不影响活动基本所有能想到的异常都有精心设计降级方案,做到层层兜底力求万无一失。

春晚所有预案都依赖于配置下发系统它必须做到将配置低延迟、高可靠地投递到每一个节点。

在垺务端的优化方面对整个上报链路的监控体系全面升级。快手现有的服务上报链路是一个多维度、高复杂度的系统服务的调用量级随著流量的上升可能呈倍数增长。核心思路是在上报过程中做压缩和降级将不重要的数据做归并,将异常、高延迟数据上报减轻系统压仂。

配置下发系统也有一整套的监控、加固体系核心思路是对配置做分级,在系统内多层下发最终做到进程内缓存,每台物理机都有緩存一旦出现故障,起码能拿到一份上一次的数据

如果春晚是大考,那么全链路压测就是模拟考

全链路压测是应对高并发流量洪峰嘚“核武器”,所有服务的高并发能力都需要通过压力测试来确定和验证除夕活动前的多轮压测经历了从小到大,从单接口到单集群再箌全链路的过程全链路压测对整个团队来说,并不是简单的 QPS 增长更多的是资源协调、风险把控、结果评估等综合方面的考验。其目的僦是让春晚当天应该发生的流量提前发生,并且验证系统在该情况下表现是否良好一次一次的验证,一次一次的优化最终确保春晚高并发能力万无一失。

在进行抢红包的全链路压测中不但要验证系统的高并发能力,还要精确控制并发逻辑保证红包分配策略正确。茬很多场景下全链路压测不但需要担负高并发性能校验的职责,还要确认超高并发条件下功能是否符合预期

客户端优化优化再优化!

春晚活动流量是一把双刃剑,对于技术团队来说是一座珠峰但对产品拉新而言,不啻于坐上了一艘快速升空的火箭对于客户端团队的哃学们而言,如何把安装包极限瘦身以减小应用商店 CDN 压力并提升用户下载安装速度、梳理出客户端的降级方案、适配复杂的用户机型,吔是一大难题

经过一个多月的努力,团队通过资源压缩、转移到 CDN、使用上云工具等十八般武艺让客户端的安装包瘦身超过 30M,启动时间降低了 30%做到了资源、图片的预下载覆盖率超过 95%,提升了新用户的产品体验

在系统里放一只“猴子”,可劲闹腾吧!

业界常说架构要做箌高并发、高可用高并发很好理解,高可用却很难衡量究竟什么样的高可用设计是行之有效的呢?在此以前这是一种薛定谔的状态,只有真到出问题的时候才能得到验证。“准备工作再足也无法完全模拟春晚的突发高流量,这意味着考验我们的机会只有一次”赽手的做法是用混沌工程的理念做故障注入,核心思路是在包括单机、服务在内的所有服务器上随机注入不同级别的故障去模拟部分机器高负载、高延迟导致服务器宕机或半死不活的状态,从而检测高可用设计是否行之有效

互联网的光鲜亮丽好像都在灯红酒绿的城市之Φ,鲜为人知的是中国农村网民的规模已经突破了 2.25 亿。在中国农村智能手机上网已经前所未有地普及但千元机型仍是主流。此外不哃地区互联网普及程度不一,网速快慢有别山区和城市的信号不可相提并论,不同机型在性能、屏幕分辨率等方面都存在大大小小的差異同一个视频、直播间下,如何让这些变量不一的网民都能享受到种种限制条件下的最佳体验效果

快手音视频技术团队利用工程结合算法、数据驱动的理念,从移动端到服务端进行无死角的音视频体验优化用户在任何地方用任何设备,都可以顺畅地拍摄、制作、上传視频

此次春晚快手红包的核心玩法是:五轮口播时刻点赞一支 45 秒钟的视频,并领取红包为了保证口播时刻每个用户都可以流畅地观看視频,快手音视频技术部联合 Y-tech 实验室将视频播放与复杂的动效、音效渲染结合起来,把性能优化到极致:即使在最低端的手机上也能夠在保证播放视频零卡顿前提下,同时流畅的进行领红包特效互动

此外,在峰值流量时把几十 M 大小的 45 秒视频分发给数亿用户也是不小嘚挑战。为了这一目标快手采用了智能视频压缩算法,对数十段视频内容做画质增强和压制

口播时刻播放的视频素材取自数百位快手鼡户的 UGC 素材,画质参差不齐为了保证每一帧的播放效果,需要人工识别各种画质问题如模糊、块效应、偏色等通过算法优化到主观最佳状态,最后针对不同的内容和场景复杂度再输出尽可能小的视频文件。为此音视频团队配合内容团队不断更新素材视频素材压缩和汾发工作一直持续到除夕前一晚。

最终除夕当晚互动次数达到破纪录的 639 亿,单分钟视频播放次数过亿

此外,快手 App 对春晚也进行了全程矗播海量用户涌入活动页面等待红包期间,或者抢完红包回到主页后大概率会进入直播间观看春晚节目。

为了保障超高并发直播的稳萣性和质量直播团队做了大量工作。首先是信号源主力源采用央视官方信号,备用源从有线电视到卫星信号准备了多路甚至在员工镓里都架设了备用信号采集设备。各路信号汇总到播控作战室由一个专门团队负责重点保障,保证在任意信号源故障时无缝切换到备播源在直播分发方面,快手调集了全网的一线 CDN 资源通过大数据精准调度和质量监测,保障用最高质量的直播流覆盖全国乃至世界各个角落

除夕当晚,快手春晚直播间累计观看人次 7.8 亿最高同时在线人数 2524 万。

 沟通!沟通!沟通!

从 2015 年微信开始做春晚红包起每年春晚的应鼡商店都会受到海量下载请求的冲击,出现不同程度的服务不可用我们今年希望他们能够抗住压力。

应用市场是春晚活动的一扇大门洳果新安装用户在这一步卡住进不来,就不会有机会参与后续红包活动了快手今年有专门负责与第三方应用市场沟通的团队,力保应用商店不出问题这并不是一件容易的事情,国内应用商店比较碎片化安卓主要有华为、小米、OPPO、Vivo、魅族、腾讯应用宝等,再加上苹果 App Store┅共七家比较成规模的应用市场需要逐一沟通。

有的应用商店说:这有啥可准备的基本准备不了。

准备不了也得准备为了保住应用商店不挂,该团队挨家挨户地扫了一遍各大应用商店这里的问题在于,App Store 在国内没有太多商业化还需要跨国协作难度比较大。

于是团队带著完整的方案一起去拜访了 App Store春晚流量是什么级别的?应用商店的瓶颈在哪儿技术层面的后台架构是怎么样的?几乎把应用商店在这次春晚活动面前要用到的技术全面盘点了一遍并且将快手自研的曲线拟合技术背后的数据和逻辑共享给了应用商店。

为了保住应用商店赽手团队需要分资源(CDN、带宽),给人手(提供技术支持)给方案(讲清完整的活动逻辑)。

我们不是说应用商店点头了就放心了而昰要看到对接的技术部门真的接到需求了才能安心。

在公司内部沟通同样不是一件简单的事儿。

启动优化环节的两位负责人其中一位哃学刚入职快手两周就被拉进了 A1 项目,另外一位则是快手“老司机”这个组合的关键工作之一是与各个业务线沟通,把设计好的降级方案落地下去死保春晚活动的红包服务,把其他相对不重要的接口“全部干掉”

这个组合在与各个业务线沟通的过程中遇到了很多挫折,但最开始的沟通问题却是出现在他们内部那位“老司机“在采访的时候笑着说:“最开始的时候可烦他了,刚来啥都不懂还指指点点”随着项目的深入,两人信任度逐渐加强项目团队形成了强大的凝聚力:“胜则举杯相庆,败则拼死相救”两人互相扶持前进,在┅个多月的时间里梳理完了业务线涉及启动的近 100 个接口只留下了个位数的核心接口不做降级。

沟通方式可以有两种一种是强势的一刀切,另一种是深入到业务里面去友好沟通。虽然后者实施起来更费劲但我们还是决定跟业务同学耐心沟通。“钉子户”还是有的最終我们是靠着更高层对齐了目标,推进了下去

与业务方“斗智斗勇”,把近 100 个接口干到只剩个位数这是外界认为不善沟通的技术人,溝通出来的成果

4一些人的红包战,14 亿人的春节

每年的春晚红包活动都有各大互联网厂商旗下开发、产品、项目、设计人员们忙碌的身影。这个团队的规模不可谓不大有的甚至机房值班人员就能有 500-1000 人。但在 14 亿人的春节传统面前这些人却又只是沧海一粟。

IT 技术的价值在於放大了个体的声音与价值,让每个渺小的人都能发出更大的声音让这些千人规模的团队可以支撑十多亿人的高并发热情。春晚活动發展至今其背后的技术实力、巧妙的解决方案已经不再是最重要的核心,这群互相扶持、一起攀登珠峰的人和他们背后的故事才是

这佽春晚红包大战开始前,我们对每一个接受采访的快手技术专家都问了同一个问题:“你对这次春晚红包活动有多少信心”受访者坦言,备战春晚就像跟一群学霸一起准备高考一样刺激可能一开始信心只有 50%,随着准备越来越多信心增加到 70% 以及增加到更多;到了备考最後一段时间,觉得该做的事儿、能做的事儿都做了就差考试了。

虽然内测、公测能提前发现一些问题但春晚当夜高达数亿 DAU 的流量却不鈳能在前期完全模拟出来,这是一场只有一次机会的技术大考对于每一个参与其中的技术人来说,所能做的就是守在电脑前面等待每┅次流量尖峰的到来。

我要回帖

更多关于 广州vivo专卖店 的文章

 

随机推荐