上演計算資源“乾坤大挪移” 京東云憑什么打贏春晚紅包保衛(wèi)戰(zhàn)?
虎年春晚,你搶到紅包了嗎?
“親愛的觀眾朋友們,看春晚,打開京東APP搖一搖,分15億紅包和好物?!?2022年央視春晚,全國人民跟隨主持人的口令,在一家人團聚一堂觀看晚會的溫馨時刻,搶到了一輪又一輪豐厚的紅包及好物。
15億元的總金額,刷新了歷年春晚記錄,與此同時,春晚紅包參與人數(shù)也格外引人矚目。根據(jù)本屆春晚獨家互動合作方京東發(fā)布的數(shù)據(jù),全球華人參與京東APP紅包累計互動量達691億次。此外,京東還聯(lián)合各大品牌送出了眾多好物年貨。在春晚40年歷史中,這是第一次向觀眾派送實物獎品。
在中國技術(shù)領(lǐng)域,春晚紅包互動項目一直都是一個“史詩級挑戰(zhàn)”。2015年,央視春晚開始嘗試與科技企業(yè)聯(lián)手發(fā)紅包,其十億級別的流量曾經(jīng)一度讓宕機成為家常便飯。
而近年來,這一情況則有所好轉(zhuǎn)。今年春晚,在紅包與好物的雙重考驗下,京東APP在除夕當(dāng)晚仍然保持了流暢體驗,沒有發(fā)生卡頓及宕機事故。而在這背后,則是京東云計算資源與技術(shù)實力提供的堅實支撐。
奮戰(zhàn)在一線的京東云工程師
春晚保衛(wèi)戰(zhàn):全球最大規(guī)模、最復(fù)雜場景的高流量并發(fā)實戰(zhàn)
給春晚觀眾發(fā)紅包,到底難在哪里?“世界頂流”的觀看人數(shù),自然是逃不開的話題。
在全球電視節(jié)目中,美國收視人數(shù)最高的節(jié)目當(dāng)屬超級碗橄欖球決賽,其2021年的電視觀眾人數(shù)為9162.9萬人;在歐洲,則是歐洲杯決賽,2020年的觀看人數(shù)為3.28億人;放眼全球,最具影響力的國際足聯(lián)世界杯決賽,2018年的觀看人數(shù)則為11.2億。
但在春晚面前,這些數(shù)字都顯得相形見絀。2021年,央視春晚的直播用戶受眾達到了12.72億人。其中,新媒體端直點播用戶規(guī)模7.34億人;而用戶觀看次數(shù)總量則達到了49.75億次。除央視外,全球還有170多個國家和地區(qū)的620多家媒體轉(zhuǎn)播了央視春晚。
12億的觀眾規(guī)模,如果按照50%的轉(zhuǎn)化率計算,也有6億之多。而春晚紅包互動的另一大挑戰(zhàn),在于龐大觀眾基數(shù)在短時間內(nèi)的集中涌入。絕大多數(shù)參與紅包互動的春晚觀眾,都會在主持人口播之后的幾秒鐘內(nèi)涌入APP。其QPS(每秒請求量)可達到數(shù)千萬、甚至上億級別。
“這相當(dāng)于讓整個春運期間的所有旅客,都集中在同一時刻上12306網(wǎng)站,搶同一列火車的票;或是連續(xù)幾年雙11的活躍用戶,集中在1分鐘內(nèi)一起‘剁手’?!庇袠I(yè)內(nèi)人士如此評價春晚紅包的并發(fā)量數(shù)據(jù)。
更可怕的是,在春晚期間,如此規(guī)模的流量沖擊還不止一次。今年除夕當(dāng)晚共發(fā)起了7輪搖紅包,主持人的每一次口播,都是一輪流量洪峰,也讓春晚紅包互動的復(fù)雜性進一步提升了至少一個數(shù)量級。
這無疑極大提高了春晚紅包項目的技術(shù)保障門檻。2019年,得到App創(chuàng)始人羅振宇在跨年演講中透露,得到曾經(jīng)與春晚洽談紅包合作,但被對方婉拒:“上春晚要滿足一個‘小門檻’——產(chǎn)品日活要超1億。要不然,廣告出來的那一瞬間,你的服務(wù)器就會崩掉”。
而在2022年,京東面臨的挑戰(zhàn)不限于此。今年1月5日,央視官宣今年春晚紅包互動合作方花落京東。1月24日,春晚紅包互動預(yù)約活動就宣告開啟。這意味著,京東籌備這場紅包戰(zhàn)役的時間僅有19天。
以往,科技企業(yè)面對春晚挑戰(zhàn),大多選擇通過采購、租用服務(wù)器的方式應(yīng)對流量洪峰。在春晚海量的流量面前,服務(wù)器自然是多多益善。增加服務(wù)器,如同在網(wǎng)游中“氪金”,盡管簡單粗暴,但確實十分有效。
但今年,面對超短的籌備時間,加之上游供應(yīng)鏈短缺等原因,京東沒有選擇增加服務(wù)器這一老路,而是嘗試在現(xiàn)有的計算資源基礎(chǔ)之上,進行高效、靈活的調(diào)度配置,以“巧力”替代“蠻力”,直面春晚挑戰(zhàn)。
春晚紅包背后,京東云上演“乾坤大挪移”
2022年元旦期間,一些京東高管接到緊急通知,立刻返回公司開會。在這場高度保密的會議上,許多高管第一次知道,京東準(zhǔn)備參與2022年虎年春晚的紅包互動項目。
1月5日,央視官宣京東成為虎年春晚紅包互動獨家合作伙伴。與此同時,一場緊鑼密鼓的技術(shù)協(xié)同備戰(zhàn)隨即在京東內(nèi)部啟動。
為了支援春晚項目,京東集團技術(shù)體系有超3000名技術(shù)人員參與了春晚項目的技術(shù)攻關(guān)與保障工作,除夕當(dāng)天參與一線值守的技術(shù)保障人員近2000人,共有超萬名技術(shù)人員協(xié)同作戰(zhàn)。而就春晚項目本身,就有近600個需求被快速拆分,3000多個任務(wù)需要有效跟蹤, 同時還要保證600多個上下游系統(tǒng)快速交付.. ...因此,這是一場超大規(guī)模的研發(fā)協(xié)同作戰(zhàn)。
京東云產(chǎn)品研發(fā)部工程師討論春晚項目
解決了人員的協(xié)同,春晚項目最艱難的計算資源調(diào)配,才剛剛開始。如何應(yīng)對史上最具挑戰(zhàn)性的春晚互動?在京東云技術(shù)團隊看來,照搬 “堆砌資源”的傳統(tǒng)解題思路是下策,第一,短期臨時投入過大,與京東云長期追求的精細化研發(fā)資源管理理念相悖。第二,疫情導(dǎo)致的全球供應(yīng)鏈緊張,讓堆砌資源的客觀路徑變得行不通。
基于多年來支持京東618、京東11.11的豐富技術(shù)經(jīng)驗,京東云決定另辟蹊徑,充分發(fā)揮云計算高彈性的優(yōu)勢,闖出一條新路。這條新路就是在不增加計算資源的背景下,對現(xiàn)有資源進行云端的靈活敏捷調(diào)度騰挪,實現(xiàn)快速變陣。
如何在資源零增加的基礎(chǔ)上,保證系統(tǒng)的穩(wěn)定運行,把用戶體驗做到極致呢?京東云有兩手絕活——云原生數(shù)字基礎(chǔ)設(shè)施和混合多云操作系統(tǒng)云艦,依托云原生數(shù)字基礎(chǔ)設(shè)施和云艦,京東云得以秒級調(diào)度近300萬個容器、超1000萬核算力資源,以超高彈性成功登頂云計算領(lǐng)域的“珠穆朗瑪峰”。
第一,京東云本身就建立在云原生架構(gòu)上,運營著全世界最大規(guī)模的Docker集群、Kubernetes集群,以及最復(fù)雜的Vitess集群之一。全面的云原生化,讓京東云可以快速適應(yīng)不同地域、不同設(shè)備的部署環(huán)境,實現(xiàn)資源快速靈活平滑擴容,從容平穩(wěn)地應(yīng)對大規(guī)模復(fù)雜流量場景的挑戰(zhàn)。
第二,所有容器都跑在京東云的混合多云操作系統(tǒng)云艦上,進行靈活實時的統(tǒng)一資源調(diào)度。云艦內(nèi)嵌的智能調(diào)度系統(tǒng),通過人工智能算法,對應(yīng)用的資源使用情況進行預(yù)測,彈性地對資源進行優(yōu)化,將算力優(yōu)先調(diào)度給需要高算力的業(yè)務(wù)中。每一條業(yè)務(wù)線的日常流量都存在波峰、波谷,而云艦內(nèi)置的阿基米德平臺則可以根據(jù)每一項業(yè)務(wù)的資源需求,動態(tài)調(diào)節(jié)資源量,以實現(xiàn)資源利用效率的最大化。
在春晚期間,這一技術(shù)被京東云云艦利用到極致。在主持人口播期間,云艦將絕大多數(shù)資源調(diào)配至春晚相關(guān)應(yīng)用鏈路,保障春晚紅包項目穩(wěn)定運行,讓用戶搶紅包不卡頓、不宕機。而在每一輪口播結(jié)束,用戶則會涌入京東APP的各種業(yè)務(wù)應(yīng)用,云艦則在分秒間再一次將計算資源調(diào)配至業(yè)務(wù)應(yīng)用線路,保障消費購物場景的絲滑體驗。
在整個春晚期間,主持人發(fā)起了7輪口播,京東云則在后端完成了14次模式切換。加之最初的資源池搭建及春晚結(jié)束后的資源池解散,在整個除夕夜,總計完成了16次對計算資源的“乾坤大挪移”,資源調(diào)配都在秒級完成。
與此同時,京東云也針對春晚用戶的行為習(xí)慣及操作邏輯,進行了針對性的全鏈路優(yōu)化。用戶每一次訪問操作的資源消耗,都被精準(zhǔn)地優(yōu)化、控制在最低限度。在此基礎(chǔ)上,京東云在春晚正式開始前完成了7輪壓力測試,在模擬場景下檢驗京東云的準(zhǔn)備工作。
智能化系統(tǒng)分級也功不可沒。京東云在全面容器化的基礎(chǔ)上,依托全系統(tǒng)應(yīng)用的自動化排序分級,自動完成非核心應(yīng)用的占用資源縮容(如網(wǎng)格搜索服務(wù)、訂單臺賬查詢、APP購物車服務(wù)、結(jié)算網(wǎng)關(guān)、運費系統(tǒng)等上千種應(yīng)用),為核心應(yīng)用騰挪出足夠資源,實現(xiàn)在資源一定的前提下,滿足用戶的核心需求。
在春晚期間,京東后端運行的所有項目都被劃分為S、A、B、C四個等級。與春晚紅包鏈路相關(guān)的項目被劃分為S級,獲得了最優(yōu)先的資源保障權(quán)。用戶賬戶、交易、支付等核心數(shù)據(jù)被列為A級,僅次于春晚紅包鏈路。而其他業(yè)務(wù)則會在春晚的數(shù)小時內(nèi)臨時降級,以優(yōu)先保障春晚項目的運行。
在云端,每一分計算資源被利用到極致;而在線下,各類極端黑天鵝事件也被京東云列入預(yù)案。春節(jié)前夕,京東云將柴油發(fā)電機開到了各個機房,并配置了足夠支撐12小時的防凍柴油,以防臨時停電;此外,京東云也協(xié)調(diào)了各個機房園區(qū)附近的施工單位,盡量避免在春晚期間動工,以免挖斷光纜等意外出現(xiàn)。
2022年,春晚紅包互動進入第8年。有了往年的經(jīng)驗教訓(xùn),京東云與央視得以將各類意外情況列入預(yù)案之中。在京東云內(nèi)部,即便是最簡版的預(yù)案劇本,也有整整61頁,機房專線中斷、CDN過載、短信通道堵塞等極端事件都得到了演練,并制定了相關(guān)的備用策略。
按照往年春晚紅包項目經(jīng)驗,春晚會吸引大量新用戶下載、注冊、登陸京東App,應(yīng)用商店和短信發(fā)送通道等供應(yīng)商也與京東云一同奮戰(zhàn),在春晚期間應(yīng)對流量洪峰。以往應(yīng)用商店宕機、用戶收不到登陸注冊驗證碼等現(xiàn)象也并未在今年復(fù)現(xiàn)。
此外,京東的物流、供應(yīng)鏈團隊,則完成了春晚項目的最后一重考驗。今年是京東“春節(jié)也送貨”的第十年,無論是用春晚紅包購買的商品,還是春晚上領(lǐng)到的好物年貨,都被及時送貨上門。
打贏春晚保衛(wèi)戰(zhàn),京東云收獲了什么?
僅19天備戰(zhàn)時間,不增添1臺物理服務(wù)器,京東云用最有限的資源,完成了一場最具挑戰(zhàn)性的技術(shù)實踐。這對于任何一家云計算廠商,都意義非凡。
京東云的成功,背后反映的是對技術(shù)趨勢的前瞻性預(yù)判,是京東云提前轉(zhuǎn)型云原生架構(gòu)的全面勝利。早在2014年,京東云就開始在生產(chǎn)環(huán)境內(nèi)大規(guī)模引入容器化架構(gòu)。近年來,京東云更是全面轉(zhuǎn)型云原生架構(gòu),運行著全球范圍內(nèi)最大的Docker及Kubernetes集群。
除夕當(dāng)天參與一線值守的京東云技術(shù)人員歡慶圓滿完成任務(wù)
在云原生時代,每一個應(yīng)用都被約束在獨立的容器之中,可以隨時根據(jù)業(yè)務(wù)場景需要,進行動態(tài)擴縮容。如果將物理服務(wù)器比作一艘巨型貨輪,傳統(tǒng)虛擬機相當(dāng)于貨輪內(nèi)分割出的一個個貨倉,貨物在其中隨意擺放,空間利用率有限;而容器化則相當(dāng)于在一個貨倉內(nèi)放置了大量形態(tài)各異、大小不一的集裝箱,后者不僅更適合裝運貨物,也可以更好地塞滿貨輪。
與傳統(tǒng)虛擬化技術(shù)相比,容器化的靈活性更強,可實現(xiàn)規(guī)模化擴展,資源利用率也更高。在此基礎(chǔ)之上,京東云將底層基礎(chǔ)設(shè)施全面標(biāo)準(zhǔn)化,并開發(fā)了混合多云操作系統(tǒng)云艦,可以在秒級時間內(nèi),完成對計算資源的快速調(diào)度。
這些新技術(shù)成為了京東云上層應(yīng)用的堅實支撐。如今,京東云已經(jīng)打造了一個積木化的技術(shù)架構(gòu)——在前端,基于云原生架構(gòu),云計算客戶可以根據(jù)自己的需求快速拼接出最適合自身需求的產(chǎn)品方案;而在后端,京東云基于混合多云操作系統(tǒng)云艦??梢造`活地調(diào)度各類計算資源,高效、靈活、敏捷地滿足客戶的各類彈性、個性化的需求。
在緊急時刻利用現(xiàn)有資源實現(xiàn)轉(zhuǎn)產(chǎn)的傳統(tǒng)產(chǎn)業(yè)基建案例并不鮮見。在疫情期間,比亞迪、五菱等中國企業(yè)在幾天時間內(nèi)就組建出一條條口罩生產(chǎn)線,喊出了“人民需要什么就造什么”的口號。在制造業(yè),靈活調(diào)度生產(chǎn)資源實現(xiàn)迅速轉(zhuǎn)產(chǎn),既體現(xiàn)了企業(yè)的擔(dān)當(dāng),也考驗著一家企業(yè)的技術(shù)能力。
數(shù)字化時代的云計算行業(yè)同樣如此。如今,云計算早已走出“租服務(wù)器”的簡單模式,行業(yè)正在由“幫客戶上云”轉(zhuǎn)向“把云上好”。相比之下,后者對于云計算廠商的技術(shù)實力提出了更高的挑戰(zhàn)。京東云在春晚上展現(xiàn)的對資源精準(zhǔn)騰挪的能力,在產(chǎn)業(yè)上云、政務(wù)上云的時代幾乎每時每刻都在發(fā)生,只是在規(guī)模上與春晚不在同一數(shù)量級。能夠在19天內(nèi)服務(wù)好春晚這一史詩級項目的京東云,在面對各類常規(guī)項目時,自然也會游刃有余。
事實上,從最初幾年春晚互動備戰(zhàn),用時幾個月卻仍無法避免搶紅包中的宕機問題,到需要緊急增加數(shù)萬臺服務(wù)器才能扛住流量洪峰,再到今年19天內(nèi)上萬人的技術(shù)團隊高效協(xié)同,不新增計算資源,僅憑對資源的彈性敏捷調(diào)度就能順利支撐全球最大規(guī)模網(wǎng)絡(luò)互動活動與全球最復(fù)雜應(yīng)用場景。京東云創(chuàng)造大型公共活動技術(shù)保障新歷史的背后,不僅僅展現(xiàn)了自身的技術(shù)實力,也可以看做是中國云計算行業(yè)整體崛起的一道剪影。在這道剪影的背后,則是中國云行業(yè)從“推動企業(yè)上云”到“幫助企業(yè)把云用好”的趨勢之變。
對京東云而言,從服務(wù)京東內(nèi)部到服務(wù)外部產(chǎn)業(yè),從支撐春晚舞臺到走向普羅大眾,京東云一直在進化,持續(xù)夯實自身技術(shù)實力,不斷拓展業(yè)務(wù)邊界。而登頂春晚紅包互動這一云計算領(lǐng)域的“珠穆朗瑪峰”,則更加切實展現(xiàn)了直面世界級流量洪峰時對自身的技術(shù)自信,體現(xiàn)了多年來京東云作為技術(shù)基石積累的扎實能力,而這種能力,隨著京東云在產(chǎn)業(yè)拓展上的持續(xù)深入,正在越來越多的領(lǐng)域得以廣泛應(yīng)用。相信假以時日,京東云必將在產(chǎn)業(yè)數(shù)智化的道路上越走越快,為產(chǎn)業(yè)智能化升級做出更大的貢獻。
標(biāo)簽: 保衛(wèi)戰(zhàn) 春晚 乾坤