7月27日,由中國互聯(lián)網(wǎng)協(xié)會指導、微博和新浪新聞主辦的“融合生態(tài)價值共創(chuàng)”2022新智者大會召開,中國互聯(lián)網(wǎng)協(xié)會理事長尚冰、微博CEO王高飛為大會致辭。據(jù)了解,首屆新智者大會匯集了來自中國工程院、清華大學、復旦大學等學界的頂尖專家,以及阿里巴巴、百度、360公司、微博等知名企業(yè)的創(chuàng)始人或高管,他們圍繞數(shù)字化轉(zhuǎn)型、AI安全、云科技、AI倫理、元宇宙等熱門技術(shù)話題向觀眾們分享了各自的研究與思考。
在“智驅(qū)萬物:AI推動萬物互聯(lián)的加速到來”議題中,微博COO、新浪移動CEO、新浪AI媒體研究院院長王巍發(fā)表了題為《云為數(shù)智技術(shù)融合應(yīng)用賦能微博復雜業(yè)務(wù)場景》的主題演講,向觀眾們分享了云計算、人工智能、大數(shù)據(jù)等技術(shù)在微博業(yè)務(wù)中的融合應(yīng)用。
微博COO、新浪移動CEO、新浪AI媒體研究院院長王巍做主題演講
以下為王巍先生演講實錄,內(nèi)容經(jīng)編輯略有刪減:
各位來賓、各位媒體同仁,正在觀看視頻的觀眾朋友們,大家上午好!我是王巍,今天很高興能夠代表新浪和微博跟大家分享交流。首先作為主辦方,我要感謝尚冰理事長、鄔賀銓院士以及各位嘉賓,對我們新智者大會的鼎力支持。另外,我還要感謝正在收看視頻的媒體和觀眾朋友對我們的厚愛。由于疫情原因,很遺憾這次沒能跟大家在線下相聚,我們只能通過視頻的方式,跟大家匯報智能信息時代,AI發(fā)展的一些前沿技術(shù)和應(yīng)用成果。
接下來,我會花點時間,跟大家分享,云計算、大數(shù)據(jù)、人工智能的前沿應(yīng)用,并以微博的核心業(yè)務(wù)為例,向大家介紹一下,在實踐中,我們是如何利用技術(shù)創(chuàng)新,為微博的復雜業(yè)務(wù)場景賦能的。
在分享之前,我想,先來回顧下互聯(lián)網(wǎng)的發(fā)展歷程。
如果說PC互聯(lián)網(wǎng)是網(wǎng)絡(luò)世界的開端,那么移動互聯(lián)網(wǎng)的興起則是順勢而為,讓網(wǎng)友將這無形的信息空間裝進了口袋。
移動互聯(lián)讓信息傳輸呈現(xiàn)出便捷即時化、垂直碎片化、云端化等特點,這使得信息的傳播效率、范圍和影響力等,都發(fā)生了根本變化。此后,隨著大數(shù)據(jù)、云計算、人工智能等技術(shù),與移動互聯(lián)網(wǎng)的疊加融合,我們逐漸過渡到了智能信息時代。
我們說,智能信息時代有四個特征——場景化、智能化、萬物皆媒和以人為本。
首先是場景化,體現(xiàn)在信息傳播的精準度。比如我們微博的一個用戶,正在環(huán)球影城游玩,在得到用戶授權(quán)后,我們就會根據(jù)用戶所處的場景,向他推送環(huán)球影城相關(guān)的新聞、資訊、游玩攻略等。
第二個智能化,智能化體現(xiàn)在人與技術(shù)的全方位交互,通過數(shù)據(jù)建模、算法訓練、機器學習等工作,實現(xiàn)人機協(xié)同的良性互動。
第三個萬物皆媒,萬物皆媒主要體現(xiàn)在,信息傳播終端的變化?,F(xiàn)在我們獲取信息的渠道,已經(jīng)不僅僅局限在手機上。在智能家居、智能穿戴、車聯(lián)網(wǎng)等方面,都成為了我們獲取信息的通道。這些智能設(shè)備廠商、智能汽車廠商,自然就成為了媒介的組成部分。
最后,我來講一下以人為本。其實這也是對以上三個特征的總結(jié)。無論技術(shù)發(fā)展得多么先進,它最終都要在人類社會中落地,都必須要考慮,終端用戶的需求和體驗。所以,以人為中心的AI發(fā)展道路,才能讓技術(shù)真正成為我們的伙伴,幫助我們生活得更加美好。
大家看到,我的PPT里,還有一個元宇宙。從去年開始,元宇宙就引發(fā)了廣泛的討論,比如數(shù)字孿生、數(shù)字人、XR、區(qū)塊鏈技術(shù)等,包括微博在內(nèi)的很多公司也都在做布局。今天下午的元宇宙專題論壇,我們也會聽到來自元宇宙領(lǐng)域創(chuàng)業(yè)者、投資等專業(yè)人士的分享。我認為目前基于AI、區(qū)塊鏈、XR等前沿技術(shù)的應(yīng)用場景,已經(jīng)體現(xiàn)了一些元宇宙的雛形。諸如游戲、社交等領(lǐng)域,都是元宇宙非常好的應(yīng)用場景,我相信這些應(yīng)用場景,會引爆大家參與元宇宙的熱情。
當前我們處在智能信息時代。新一代智能信息技術(shù)蓬勃發(fā)展,協(xié)同創(chuàng)新所驅(qū)動的智能經(jīng)濟,打破了原有的社會聯(lián)結(jié)架構(gòu),相應(yīng)的這些技術(shù),也驅(qū)動著互聯(lián)網(wǎng)生態(tài)格局發(fā)生著巨變。
我們微博搭建的技術(shù)架構(gòu),也是以云計算為基礎(chǔ)、以大數(shù)據(jù)為依托、以人工智能為中樞的技術(shù)架構(gòu),用來應(yīng)對微博眾多且復雜的業(yè)務(wù)場景,比如微博的社交關(guān)系、用戶的多元興趣、以及全民關(guān)注的熱搜產(chǎn)品等等。而在這些復雜業(yè)務(wù)場景背后,起到至關(guān)重要作用的則是我們的技術(shù)研發(fā)團隊對于技術(shù)的創(chuàng)新賦能。下面我就圍繞熱點應(yīng)對、算法推薦、內(nèi)容安全這三塊微博比較核心的業(yè)務(wù),來分享一些我們的探索與創(chuàng)新。
第一部分,跟大家分享,我們?nèi)绾卫迷朴嬎慵軜?gòu)的優(yōu)勢和技術(shù)創(chuàng)新,在短時間內(nèi)聚集大量算力,從而幫助微博,從容應(yīng)對熱點帶來的的流量洪峰。
我先介紹一下IT建設(shè)的發(fā)展過程。IT建設(shè)所依賴的基礎(chǔ)資源經(jīng)歷了從服務(wù)器到云化資源的發(fā)展歷程,目前正在快速進入云原生階段。
我們先看服務(wù)器階段。這個階段IT建設(shè)的特點是以硬件設(shè)備為中心,業(yè)務(wù)應(yīng)用隨不同廠商設(shè)備、操作系統(tǒng)的差異化進行定制;設(shè)備的安裝和調(diào)試,應(yīng)用的部署和運維,基本靠人力完成,自動化程度低,缺乏統(tǒng)一的設(shè)備和應(yīng)用管理能力。
來到云化階段,傳統(tǒng)模式下分布離散的設(shè)備被統(tǒng)一起來,實現(xiàn)了各類資源如計算、存儲、網(wǎng)絡(luò)的池化。然后企業(yè)通過統(tǒng)一的虛擬化平臺,為上層業(yè)務(wù)提供資源管理接口,實現(xiàn)資源管理能力的自動化,從而屏蔽一部分基礎(chǔ)設(shè)施的差異,使得應(yīng)用的通用性增強。但因為云平臺軟件的差異化,這個虛擬平臺無法在不同云廠商間進行能力共享,所以企業(yè)的應(yīng)用部署還是以資源為中心。
那么在云原生階段,企業(yè)的關(guān)注點才開始從以資源為中心轉(zhuǎn)移到以應(yīng)用為中心,包括應(yīng)用敏捷交付、快速彈性、平滑遷移、無損容災(zāi)等。因此,企業(yè)開始考慮如何將基礎(chǔ)設(shè)施與業(yè)務(wù)平臺融合,為業(yè)務(wù)應(yīng)用提供標準的運行、監(jiān)控、治理平臺,并將業(yè)務(wù)的應(yīng)用能力下沉到平臺側(cè),更好的幫助企業(yè)實現(xiàn)應(yīng)用的自動化。
微博目前就處在從云化向云原生轉(zhuǎn)變的過程中,通過技術(shù)創(chuàng)新,在快速彈性和資源容災(zāi)等方面都取得了很好的效果。下面我們來看應(yīng)用案例。
熱點應(yīng)對一直是微博業(yè)務(wù)中面臨的最大挑戰(zhàn),微博作為全民關(guān)注的社交媒體平臺和輿論廣場,全社會的重大事件都會在這里發(fā)酵,很多事件都成為了全民關(guān)注的超級熱點,這些熱點事件通常是不可預知的。
以最近全民關(guān)注的“唐山事件”為例,事件當天的熱點流量較日常流量峰值翻了一倍。
如果按常規(guī)方案,微博除了采購應(yīng)對日常流量的服務(wù)器之外,還要額外常備大量的服務(wù)器以應(yīng)對這種突發(fā)熱點,這會造成日常服務(wù)器大量閑置,付出較高的成本。
如何用更小的資源成本,應(yīng)對突發(fā)的熱點流量。這是我們面臨的第一個挑戰(zhàn)。
那么,隨著微博用戶體量的不斷增加,微博上面的熱點也越來越多,而且用戶逐漸養(yǎng)成了來微博消費熱點、“吃瓜”的習慣。進而帶來的是熱點流量越來越高,熱點流量洪峰到來的速度也越來越急。
如何更快的把擴容服務(wù)器部署到線上,這是我們面臨的第二個挑戰(zhàn)。同時,只要擴容速度足夠快,我們?nèi)粘5姆?wù)冗余就可以降到更低,能夠大幅節(jié)約成本。
我們通過不斷的技術(shù)創(chuàng)新和應(yīng)用,來應(yīng)對這些挑戰(zhàn)。
微博很早就應(yīng)用了微服務(wù)+Docker容器化技術(shù),提升服務(wù)運維的效率,實現(xiàn)了服務(wù)動態(tài)擴縮容能力。并且搭建了以“私有云+公有云”為資源底座的混合云平臺,通過這個平臺抹平自有實體服務(wù)器和多個公有云資源的差異,實現(xiàn)了高效的彈性部署和自動擴縮容能力。
當前我們已具備10分鐘調(diào)度超過一萬臺的擴容能力,用較低的成本,獲取足夠的服務(wù)器來應(yīng)對熱點流量,從而解決了上面說到的第一個挑戰(zhàn)。
另外,我們建立了熱點監(jiān)測機制和熱點聯(lián)動體系,并通過微博自研的Weibo Mesh技術(shù),實現(xiàn)不同服務(wù)間跨語言的高效調(diào)用,提升整體服務(wù)的性能,和聯(lián)動擴容效率。
微博從公有云獲取服務(wù)器、部署服務(wù)鏡像、啟動服務(wù)及預熱、直到線上流量承接全流程,擴容時間大幅縮短,很好的解決了第二個挑戰(zhàn)。即使面對冬奧期間,多個熱點事件疊加爆發(fā)的影響,也能夠從容應(yīng)對,超級流量洪峰。
當然,在當前技術(shù)架構(gòu)下,調(diào)用公有云還是需要時間的,所以日常常備服務(wù)池,仍需要一定資源冗余,這樣做能為動態(tài)擴容爭取一些時間。那么,熱點來的越急,需要冗余的資源就要更多。同理,如果我們能讓擴容效率更高,對應(yīng)的資源冗余就能夠降到較低水平。
針對這個問題我們采用了在離線實時混合部署技術(shù)。利用CPU實時搶占式調(diào)度技術(shù)與容器化技術(shù)相結(jié)合,實現(xiàn)微博服務(wù)在離線實時混合部署能力。混合部署池變成核心在線服務(wù)的臨時動態(tài)資源池;日常流量期間正常執(zhí)行離線任務(wù)和服務(wù),熱點流量到來時,可以秒級承接核心服務(wù)的熱點流量。
上面講了熱點應(yīng)對,接下來,我想以微博的推薦業(yè)務(wù)為例,和大家分享在智能信息時代,我們?nèi)绾斡肁I新技術(shù),驅(qū)動平臺業(yè)務(wù)的智能化發(fā)展。
首先我們來看人工智能的技術(shù)發(fā)展趨勢。如果我們回顧機器學習的發(fā)展歷程,可以看出AI的總體發(fā)展趨勢是:訓練數(shù)據(jù)的海量化及多樣化,AI模型的復雜化及通用化,算力的高效化及規(guī)?;?。
我們看屏幕上展示了四個相對具體的AI發(fā)展方向。
首先,是多模態(tài)數(shù)據(jù)融合。隨著5G網(wǎng)絡(luò)等通信技術(shù)的快速發(fā)展,圖片、視頻類型模態(tài)內(nèi)容,在網(wǎng)絡(luò)內(nèi)容中占比越來越高,所以進行模態(tài)融合非常必要,比如同時對微博的文本、圖片、視頻進行多模態(tài)融合,可以更好理解微博所講的內(nèi)容。
其次,是超大規(guī)模圖計算。相對其他機器學習模型,超大規(guī)模圖計算有個特殊的優(yōu)勢:通過信息在網(wǎng)絡(luò)中的傳遞,促進信息的流動、匯聚與集成,比如對于行為少的冷啟動用戶,我們可以通過他關(guān)注列表中的人,以及這些人發(fā)布的內(nèi)容,通過信息傳播來推導這個用戶的興趣。
第三,我介紹下AI研發(fā)的啞鈴模式。目前的AI研發(fā)重點,一個是越來越大的超級大模型,一個是模型小型化技術(shù)。我們都知道,目前隨著模型參數(shù)規(guī)模越來越大,模型效果越來越好,高精度模型仍然在持續(xù)增大,比如2018年Google的Bert剛出來的時候,模型參數(shù)規(guī)模是3億,不算太大,但是之后這個數(shù)字快速增長,Open AI研發(fā)的GPT2模型,參數(shù)規(guī)模15億,GPT3模型,參數(shù)規(guī)模1750億,2021年Google發(fā)布Switch Transformer,參數(shù)規(guī)模1.6萬億。另一方面,雖然說模型越大效果越好,但是因為模型過大,有時會導致無法落地實際應(yīng)用。所以研發(fā)的另外一個重點,是將這些大模型小型化、輕量化,比如模型蒸餾、模型剪枝等技術(shù),也是業(yè)界特別關(guān)心的。
另外一個趨勢,是AI模型從專用模型走向通用模型。谷歌在2021年下半年公開的Pathways模型框架,首先提出這一構(gòu)想,希望通過構(gòu)造一個通用的大模型,達到“一個模型做千萬件事”的目標。具體的思路是,不同任務(wù)數(shù)據(jù)輸入后,通過路由算法,選擇神經(jīng)網(wǎng)絡(luò)的部分路徑,到達模型輸出層。不同任務(wù)既有參數(shù)共享,也有任務(wù)獨有的模型參數(shù),通過這種方式來達成“一個模型做千萬件事”的目標。
講完行業(yè)趨勢,下面,我介紹一下我們的微博推薦業(yè)務(wù)。微博環(huán)境下做推薦系統(tǒng),既具有鮮明的微博特色,同時又面臨著復雜的業(yè)務(wù)場景。這種特點及復雜性主要體現(xiàn)在三個方面:
首先是無處不在的社交關(guān)系。我們知道,微博作為國內(nèi)最大的社交媒體網(wǎng)絡(luò),目前月活用戶達到5.82億,這樣的用戶規(guī)模構(gòu)建起了多樣的復雜網(wǎng)絡(luò)。
其次,微博內(nèi)容具有時效性強、多樣性高的特色,很多網(wǎng)絡(luò)事件都是第一時間在微博引爆的,而且作為綜合媒體,微博涵蓋了幾十個高質(zhì)量的垂直領(lǐng)域內(nèi)容。
第三,是多元化場景的推薦需求。我們微博有很多場景,比如關(guān)系流、熱點流、視頻流等,都有很強的推薦需求,要給用戶分發(fā)他們感興趣的“千人千面”的內(nèi)容。
那么,面對復雜的業(yè)務(wù)場景,我們是如何應(yīng)用AI和大數(shù)據(jù)對推薦系統(tǒng)賦能的?微博推薦系統(tǒng)整體由三部分構(gòu)成:內(nèi)容理解、用戶理解,以及推薦系統(tǒng)。下面我展開來講。
首先,我們來看在微博內(nèi)容理解方面做的一些工作:要想搞明白一個微博到底在說什么,僅僅理解文本內(nèi)容是不夠的,必須采用多模態(tài)理解技術(shù),融合博文、圖片、視頻等多種媒體信息。我們結(jié)合微博特色,訓練了自己的微博多模態(tài)預訓練模型,通過“對比學習”,這種自監(jiān)督學習方法,來進行多模態(tài)預訓練。
以圖中展示的例子來簡單介紹下:大家可以看到,我們可以利用微博自帶的‘話題‘,來自動構(gòu)造訓練數(shù)據(jù)。比如我們可以把兩個都寫著“訓練中的拉什福德”的微博當作正例,隨機選擇一些不同話題的微博作為負例,這樣就能自動構(gòu)造訓練數(shù)據(jù)。對于某條微博,其中的文本內(nèi)容通過Bert編碼,圖像和視頻內(nèi)容通過ViT編碼,然后通過fusion子網(wǎng)絡(luò)進行信息融合,形成微博的embedding編碼。這是一種預訓練過程,經(jīng)過預訓練,學好的微博編碼器可以拿來對新的微博內(nèi)容進行多模態(tài)編碼,形成embedding,應(yīng)用在推薦等下游任務(wù)中。
在微博用戶理解方面,我們采取了超大規(guī)模圖計算,來更好地理解用戶的閱讀興趣是什么。微博的社交媒體屬性天然匹配大規(guī)模圖計算,可以表達用戶之間的關(guān)注關(guān)系、用戶和博文的轉(zhuǎn)評贊等互動行為。我們以用戶和博文作為圖中的節(jié)點,以用戶間的關(guān)注關(guān)系、用戶和博文的閱讀及轉(zhuǎn)評贊等互動行為構(gòu)造圖中的邊,建立起包含10億規(guī)模節(jié)點、100億規(guī)模邊的超大規(guī)模圖。通過大規(guī)模圖計算中的信息傳播、匯聚和集成,形成表征用戶興趣的embedding向量,可以更好地理解用戶興趣。
當我們理解了微博在講什么,理解了微博用戶的興趣,那么就會通過微博推薦系統(tǒng),將高質(zhì)量的微博,個性化地分發(fā)給對此感興趣的用戶。我在前面提到過,微博在多元場景都有推薦需求,比如推薦流、關(guān)系流、視頻流等,每個場景都需要個性化的用戶體驗。
那么,如何在這種復雜場景下構(gòu)造高效率的推薦系統(tǒng)呢?我們在這里采取了多場景建模的方式。我們希望只構(gòu)建一個推薦模型,用它來服務(wù)多個場景。那么如何表示場景間的共性和個性呢?我們通過網(wǎng)絡(luò)參數(shù)在場景間共享,或者場景自己獨享私有網(wǎng)絡(luò)參數(shù),來體現(xiàn)場景的共性與個性。比如看這張模型圖,在模型的底層特征輸入層,以及網(wǎng)絡(luò)中間的一部分“專家子網(wǎng)絡(luò)”,這些網(wǎng)絡(luò)參數(shù)是各個場景共享的;而其他子網(wǎng)絡(luò)參數(shù)則是某個場景所獨有的。通過這種方式,就可以兼顧場景的共性與個性,能夠通過一個模型服務(wù)多個場景,節(jié)省模型資源。
上面我分享了我們技術(shù)創(chuàng)新對熱點應(yīng)對和算法推薦的賦能,接下來我要跟大家介紹下,微博在內(nèi)容安全層面所做的一些技術(shù)創(chuàng)新和應(yīng)用。
微博結(jié)合自身復雜的業(yè)務(wù)場景,自研圖神經(jīng)網(wǎng)絡(luò)的分布式訓練框架,結(jié)合對比學習,對用戶特征和社交圖網(wǎng)絡(luò)編碼,學習用戶高階特征。由于海量標注數(shù)據(jù)的成本非常高,我們基于無監(jiān)督的方法,學習用戶的embedding,構(gòu)建用戶圖網(wǎng)絡(luò)模型。然后基于小規(guī)模的標注數(shù)據(jù)進行監(jiān)督微調(diào)訓練,支持離線挖掘、實時預測,實現(xiàn)了對潛在風險信息的主動預警。
另外,在日常的運營中,微博嚴格貫徹執(zhí)行《網(wǎng)絡(luò)安全法》、《數(shù)據(jù)安全法》、《個人信息保護法》等法律法規(guī)和相關(guān)管理規(guī)定,投入大量資源,對有害不良信息進行清理整治,以凈化網(wǎng)絡(luò)環(huán)境。隨著治理不斷深入,黑灰產(chǎn)也呈現(xiàn)出激烈對抗的態(tài)勢,違規(guī)圖文信息更加多樣、手段更加隱蔽,難以通過單模態(tài)判斷有害信息,所以我們必須通過圖文多模態(tài)算法,利用NLP模型(如Bert)和CV模型(如:VIT),深層次融合圖片+文本特征,然后通過特征融合網(wǎng)絡(luò)進行編碼,對內(nèi)容合規(guī)性作出及時有效地評估,從而有效控制灰黑產(chǎn)的違規(guī)行為。
此外,為了進一步貫徹落實2022年“清朗”系列專項行動的相關(guān)要求,全面整治飯圈拉踩引戰(zhàn)、網(wǎng)絡(luò)暴力等問題。我們依托海量的微博文本語料,自研預訓練模型,對站內(nèi)數(shù)據(jù)進行深度語義理解、情感分析,建立了性別對立、粗俗冒犯、網(wǎng)暴預測等方面識別能力,對可能遭受言論攻擊的用戶進行保護,幫助國家和社會來營造安全、文明、和諧的網(wǎng)絡(luò)生態(tài)環(huán)境。在這里,我還想再補充說下微博對于技術(shù)的態(tài)度。曾有人說,算法沒有價值觀,但我們認為,算法的價值觀體現(xiàn)的是背后掌握算法的人的價值觀。所以多年來,我們也一直踐行著這樣的價值理念,用資深的運營團隊和審核團隊,努力去訓練AI,努力使我們的算法具有正確的價值觀。
以上,我們談了微博在利用云計算應(yīng)對突發(fā)熱點、運用AI和大數(shù)據(jù)為算法推薦、內(nèi)容安全賦能的一些探索和成果。最后回到大會的主題“融合生態(tài)價值共創(chuàng)”,我想說,技術(shù)的發(fā)展速度有時超乎我們的想象。曾經(jīng)我們暢想的未來已經(jīng)站在眼前。無論是互聯(lián)網(wǎng)企業(yè)還是傳統(tǒng)企業(yè),都應(yīng)該在萬物互聯(lián)的格局下,重新思考未來的發(fā)展戰(zhàn)略,用AI思維去思考,用更加開放的心態(tài)與新技術(shù)去融合,讓云計算、AI、大數(shù)據(jù)等技術(shù),成為我們發(fā)展的基礎(chǔ)底色,為社會創(chuàng)造更大價值。
以上就是我分享的全部內(nèi)容,感謝大家的收看,最后預祝大會圓滿成功。謝謝大家!
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )