編者注:本文作者M(jìn)artin Casado和Peter Lauten來自風(fēng)險投資公司Andreessen Horowitz。Martin頭銜有很多:SDN之父、第一家SDN初創(chuàng)公司Nicira的聯(lián)合創(chuàng)始人,在Nicira被VMware收購之后曾擔(dān)任VMware的網(wǎng)絡(luò)和安全業(yè)務(wù)組執(zhí)行副總裁,他在2016年年初從VMware離職之后,成為Andreessen Horowitz的合伙人。
長期以來,數(shù)據(jù)一直被譽為企業(yè)的一條具有競爭力的護(hù)城河,而最近一波人工智能初創(chuàng)企業(yè)的出現(xiàn),進(jìn)一步強化了這種說法。同樣地,網(wǎng)絡(luò)效應(yīng)也被稱為構(gòu)建軟件業(yè)務(wù)的一股防御力量。因此,我們經(jīng)常能聽到有人將這兩個詞組合在一起,即所謂的“數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)”。
但對于那些我們關(guān)注的初創(chuàng)企業(yè)來說,我們現(xiàn)在想知道是否有能證明數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)的實際證據(jù)。此外,我們懷疑,即使是更直接的數(shù)據(jù)規(guī)模效應(yīng),作為許多公司的防御策略,其價值也有限。這不僅僅是一個學(xué)術(shù)問題,它對于指導(dǎo)企業(yè)創(chuàng)始人更好地分配時間和資源具有重要意義。如果你創(chuàng)辦了一家初創(chuàng)企業(yè),假設(shè)你正在收集的數(shù)據(jù)相當(dāng)于一條牢固的護(hù)城河,那么你在其他領(lǐng)域的投資可能會相對不足,而這些領(lǐng)域?qū)嶋H上能真正提高你的企業(yè)的長期防御能力,例如垂直化發(fā)展、市場主導(dǎo)地位、售后賬戶控制、品牌制勝等等。
換句話說,將數(shù)據(jù)視為一條神奇的護(hù)城河,可能會對企業(yè)的創(chuàng)始人產(chǎn)生誤導(dǎo),使他們無法專注于贏得勝利真正需要的東西。那么,數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)真的存在嗎?規(guī)模效應(yīng)與傳統(tǒng)的網(wǎng)絡(luò)效應(yīng)有何不同?初創(chuàng)企業(yè)如何才能建立更持久的數(shù)據(jù)護(hù)城河,或者至少我們應(yīng)該弄清楚數(shù)據(jù)在他們的戰(zhàn)略中發(fā)揮的最佳作用是什么?
數(shù)據(jù)+網(wǎng)絡(luò)效應(yīng)≠數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)廣義上講,當(dāng)用戶、客戶或者端點等等組成的系統(tǒng)在網(wǎng)絡(luò)中按結(jié)構(gòu)排列時,“網(wǎng)絡(luò)”就會發(fā)揮作用。無論這些網(wǎng)絡(luò)是否圍繞參與特性(如社交網(wǎng)絡(luò))或協(xié)議(如以太網(wǎng)、電子郵件、加密貨幣)構(gòu)建,它們通常都會圍繞支持網(wǎng)絡(luò)結(jié)構(gòu)的技術(shù)、產(chǎn)品或服務(wù)來構(gòu)建。
當(dāng)參與網(wǎng)絡(luò)的價值隨著更多的節(jié)點進(jìn)入網(wǎng)絡(luò),或者隨著現(xiàn)有節(jié)點之間的參與增加而增加時,網(wǎng)絡(luò)效應(yīng)就會發(fā)生。想象一下,如果你試著打一個單向電話,或者只給世界上的某五個特定的人打電話;隨著越來越多的用戶加入網(wǎng)絡(luò),電話系統(tǒng)變得越來越有價值。網(wǎng)絡(luò)效應(yīng)的例子很多,更常見的、更現(xiàn)代的可能還包括社交網(wǎng)絡(luò)、在線市場和加密網(wǎng)絡(luò)。
具有網(wǎng)絡(luò)效應(yīng)的系統(tǒng)通常具有一種特性,即節(jié)點之間通過定義的接口或協(xié)議進(jìn)行直接交互。加入網(wǎng)絡(luò)需要遵守一些標(biāo)準(zhǔn),這就增加了所有節(jié)點的直接交互,并使這些交互變得越來越有粘性。但是,當(dāng)談到關(guān)于數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)的流行說法時,我們通常不會看到相同的粘性的、直接交互,更不用說由于協(xié)議或接口導(dǎo)致的節(jié)點間的機(jī)械依賴關(guān)系了。
一般來說,僅僅擁有更多的數(shù)據(jù)并不會帶來固有的網(wǎng)絡(luò)效應(yīng)。
大多數(shù)數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)實際上是規(guī)模效應(yīng)大多數(shù)關(guān)于數(shù)據(jù)防御的討論實際上都?xì)w結(jié)為規(guī)模效應(yīng),這是一種動態(tài)效應(yīng),適用于網(wǎng)絡(luò)效應(yīng)的更寬松定義,其中節(jié)點之間沒有直接交互。例如,如果你最喜歡的電影X的大部分觀眾也傾向于看Y節(jié)目,即使這些用戶之間沒有直接互動,Netflix的推薦引擎可以預(yù)測,你很可能也喜歡看Y節(jié)目。更多的數(shù)據(jù)意味著更好的推薦,會吸引更多的客戶,又會帶來更多的數(shù)據(jù)……這就是著名的“飛輪效應(yīng)”。
然而,即使有規(guī)模效應(yīng),我們?nèi)匀徽J(rèn)為數(shù)據(jù)在大多數(shù)情況下都不算是一個足夠強大的護(hù)城河。在傳統(tǒng)經(jīng)濟(jì)中,隨著時間的推移,固定前期投資的經(jīng)濟(jì)效益會隨著規(guī)模變得越來越有利,而數(shù)據(jù)規(guī)模效應(yīng)往往會產(chǎn)生完全相反的動態(tài)效應(yīng):向語料庫添加惟一數(shù)據(jù)的成本實際上可能會上升,而增量數(shù)據(jù)的價值卻會下降!
以一家使用聊天機(jī)器人來回應(yīng)客戶咨詢的公司為例。從下圖中可以看出,從客戶支持記錄入手,創(chuàng)建一個初始語料庫可能會為一些簡單的咨詢直接提供答案,例如“我的包在哪里?”。但絕大多數(shù)的問詢都要比上述情況混亂得多,其中許多問題只被問過一次,例如“我一直在等的那個會放到我前門臺階上的東西現(xiàn)在在哪里?”。因此,在這種有限的情況下,隨著時間的推移,收集有用的查詢變得更加困難。而且,在本例中收集了40%的查詢之后,我們發(fā)現(xiàn)收集更多的數(shù)據(jù)實際上沒有任何好處!
當(dāng)然,數(shù)據(jù)規(guī)模效應(yīng)減小的點隨域而異。但無論這種情況在什么時候發(fā)生,最終的結(jié)果往往是相同的:在數(shù)據(jù)規(guī)模方面,保持領(lǐng)先的能力往往會放緩,而不是加快。隨著數(shù)據(jù)量的增長和競爭的加劇,具有防御能力的護(hù)城河非但沒有變得更強,反而受到了侵蝕。
這樣做的目的不是要對數(shù)據(jù)作為防御護(hù)城河的效用作出明確的說明,我們的目的是要說明防御能力不是數(shù)據(jù)本身固有的。而且,除非你了解目標(biāo)域的數(shù)據(jù)旅程的生命周期,否則無法保證數(shù)據(jù)的可防御性。下文列出的框架可能會提供些許幫助。
一個用于理解數(shù)據(jù)旅程的實用框架最小可行語料庫
當(dāng)大多數(shù)人談?wù)摼W(wǎng)絡(luò)效應(yīng)時,他們關(guān)注的是克服激活或冷啟動的問題(通俗地稱為“先有雞還是先有蛋”問題),即獲得足夠的早期節(jié)點,使網(wǎng)絡(luò)對所有節(jié)點都有用,并使業(yè)務(wù)的經(jīng)濟(jì)效益具有競爭力。在大多數(shù)網(wǎng)絡(luò)效應(yīng)業(yè)務(wù)中,激活問題很難解決,特別是當(dāng)你需要網(wǎng)絡(luò)已經(jīng)啟動好并在運行中以吸引流量的時候。
但對于許多具有數(shù)據(jù)規(guī)模效應(yīng)的企業(yè)業(yè)務(wù)來說,這并不一定正確。激活我們所認(rèn)為的“最小可行語料庫”就足以開始針對它進(jìn)行訓(xùn)練,這也是初創(chuàng)企業(yè)數(shù)據(jù)旅程的第一個轉(zhuǎn)折點。這個初始語料庫可以有多種來源:從可用的來源自動捕獲數(shù)據(jù),比如抓取網(wǎng)頁;讓早期用戶用他們的數(shù)據(jù)交換一些東西;通過轉(zhuǎn)移學(xué)習(xí)重新利用來自其他領(lǐng)域的數(shù)據(jù);甚至是綜合生成數(shù)據(jù),通過編程創(chuàng)建數(shù)據(jù)進(jìn)行訓(xùn)練。
在數(shù)據(jù)旅程的早期,達(dá)到最小可行語料庫需要相對較低的投資,而且這顯然不會是一條持久的護(hù)城河。
數(shù)據(jù)采集成本
在給定的語料庫中,隨著時間的推移,獲取下一個數(shù)據(jù)塊的成本往往會越來越高。為你的語料庫帶來新信號的獨特數(shù)據(jù)可能更難在噪聲中找到,而且隨著時間的推移需要更長的時間來清晰地標(biāo)記。這在許多依賴于所謂“數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)”的領(lǐng)域里是正確的。
另一方面,由于傳統(tǒng)的網(wǎng)絡(luò)效應(yīng),用戶獲取成本會隨著時間的推移而下降,因為加入網(wǎng)絡(luò)的價值會增加。此外,伴隨著傳統(tǒng)網(wǎng)絡(luò)效應(yīng),也往往會出現(xiàn)一種伴隨而來的、更內(nèi)在的病毒式傳播。在這種模式下,激發(fā)節(jié)點是為了促進(jìn)網(wǎng)絡(luò)增長,從而為網(wǎng)絡(luò)增加更多的價值。這些特性都不適用于數(shù)據(jù)效應(yīng),因為數(shù)據(jù)成本上升。
增量數(shù)據(jù)價值
當(dāng)你在收集數(shù)據(jù)時,添加到語料庫中的數(shù)據(jù)的價值也會變得越來越小。這是為什么呢?即使新的任意批數(shù)據(jù)的收集成本與最后獲得的批數(shù)據(jù)相同,但考慮到你獲得的一些新數(shù)據(jù)已經(jīng)與現(xiàn)有語料庫重疊,因此它的價值更低。隨著時間的推移,情況只會變得更糟:新數(shù)據(jù)帶來的價值會越來越低。
在我們所見過的大多數(shù)初創(chuàng)企業(yè)中,早期的新數(shù)據(jù)適用于整個客戶群。但是,超過某個特定的點——例如上面示例圖中的漸近線——所收集的新數(shù)據(jù)將只適用于特殊用例中的小子集。因此,隨著數(shù)據(jù)集的擴(kuò)展,任何數(shù)據(jù)規(guī)模效應(yīng)護(hù)城河的價值都會降低。
數(shù)據(jù)新鮮度
這一點似乎很明顯,但再怎么強調(diào)也不為過。在許多實際的用例中,數(shù)據(jù)會隨著時間的推移而過時,變得無關(guān)。比如說街道變了,氣溫變了,態(tài)度變了等等。
不僅如此,隨著時間的推移,許多數(shù)據(jù)初創(chuàng)公司的專有見解最初都會減弱,因為隨著越來越多的人收集數(shù)據(jù),數(shù)據(jù)的價值也會下降。當(dāng)競爭對手在同一領(lǐng)域追逐你時,你的預(yù)測優(yōu)勢就會減弱。而且,隨著時間的推移,隨著規(guī)模的擴(kuò)大,僅僅保持現(xiàn)有語料庫的新鮮度就需要大量的工作,更不用說保持領(lǐng)先了。
從這個意義上說,數(shù)據(jù)就像一種商品。
什么時候數(shù)據(jù)是具有防御性的?可以通過什么方式來管理它們?這并不是說數(shù)據(jù)毫無意義!但擁有大量數(shù)據(jù)并不代表有長期防御能力。要在這之間劃上等號確實需要更多深思熟慮。由于數(shù)據(jù)護(hù)城河顯然不能單獨通過數(shù)據(jù)收集持續(xù)(或自動發(fā)生),因此,仔細(xì)考慮映射到數(shù)據(jù)旅程上的策略可以幫助你與數(shù)據(jù)優(yōu)勢競爭,并且是以更有意識、更主動的方式保持?jǐn)?shù)據(jù)優(yōu)勢。當(dāng)你的公司突然逼近一條漸近線或收益遞減點時,針對性地制定計劃總比盲目行動要好得多。
激活初始語料庫,與現(xiàn)有對手競爭
正如前文所述,在某些域中激活數(shù)據(jù)并沒有那么困難。然而,創(chuàng)始人實際上可以利用這一優(yōu)勢,與擁有數(shù)據(jù)但未能正確應(yīng)用數(shù)據(jù)的現(xiàn)有對手正面交鋒。在激活到一個最小可行的語料庫之后,在構(gòu)建正確數(shù)據(jù)集方面處于領(lǐng)先地位的初創(chuàng)企業(yè)可以充分利用這一技術(shù),在現(xiàn)有競爭對手尚未搞清楚如何理解數(shù)據(jù)之前加快速度,占領(lǐng)高地。
要趕上現(xiàn)有的存儲大量數(shù)據(jù)的公司,生成合成數(shù)據(jù)是另一種方法。據(jù)我們所知,有一家初創(chuàng)公司生產(chǎn)合成數(shù)據(jù),用于在企業(yè)自動化領(lǐng)域培訓(xùn)系統(tǒng)。因此,一個團(tuán)隊只需要少數(shù)工程師,就能夠激活他們的最小可行語料庫了。該團(tuán)隊最終擊敗了兩家大型企業(yè),贏得了勝利。這兩家大型企業(yè)都依賴于數(shù)十年來在全球范圍內(nèi)收集的現(xiàn)有數(shù)據(jù)。對于當(dāng)前問題的解決,他們都不是合適的人選。
了解數(shù)據(jù)的分布情況
對數(shù)據(jù)語料庫的分布有一個清晰的理解將會促進(jìn)你對數(shù)據(jù)策略的認(rèn)知,也會讓你感知到你實際上可以創(chuàng)建的防御能力有多大,這取決于應(yīng)用程序空間。
數(shù)據(jù)的分布及其對應(yīng)的值隨領(lǐng)域的不同而有很大的差異。因此,深入了解分布的形狀,并制定正確的策略來捕捉它是至關(guān)重要的。是否存在難以獲取的大量關(guān)鍵數(shù)據(jù)?如果真的存在,將語料庫擴(kuò)展成“長尾”的計劃是什么?在你的領(lǐng)域,準(zhǔn)確性有多重要?什么樣的錯誤率是可以接受的?如果機(jī)器學(xué)習(xí)在發(fā)給同事的電子郵件中預(yù)測出錯誤的自動完成功能,這并不是世界末日,但在自動駕駛汽車的領(lǐng)域中,對象分類不準(zhǔn)確可能是一個生死攸關(guān)的問題。如果不仔細(xì)觀察,例如,如果沒有正確地將權(quán)重應(yīng)用于時間序列數(shù)據(jù)(請參閱“災(zāi)難性遺忘”),甚至很難發(fā)現(xiàn)錯誤的數(shù)據(jù)分布。
如果你是先行者,那么我們之前分享的挑戰(zhàn)——許多領(lǐng)域的大量經(jīng)驗教訓(xùn)都是在異常用例的長尾中獲得的——也可能成為一個優(yōu)勢。對于將這些經(jīng)驗教訓(xùn)嵌入產(chǎn)品和銷售過程的企業(yè)公司來說尤其如此。盡管一些投資者不愿在復(fù)雜的市場中艱難跋涉,因為他們只看到了規(guī)模和利潤率上的困難,但我們相信,進(jìn)入復(fù)雜市場的道路上必然會留下傷疤,而傷疤本身是有防御功能的。
了解數(shù)據(jù)對產(chǎn)品的改進(jìn)程度
在某些領(lǐng)域,擁有更多的數(shù)據(jù)會帶來更好的產(chǎn)品,以至于隨著時間的推移而增加的開銷和數(shù)據(jù)價值的遞減都將被克服。例如,如果你有一個準(zhǔn)確率達(dá)到85%的癌癥篩查,它會比準(zhǔn)確率80%的更容易被使用。使用越多就能提供更多的數(shù)據(jù),從而提高準(zhǔn)確性。
雖然我們還沒有看到這些效應(yīng)在實踐中發(fā)揮出來,但有幾個例子表明,數(shù)據(jù)優(yōu)勢可以在產(chǎn)品方面建立贏家通吃的風(fēng)格優(yōu)勢,這顯然是一個強大護(hù)城河的形成基礎(chǔ)。
當(dāng)然,理解數(shù)據(jù)對產(chǎn)品的貢獻(xiàn)程度并不總是那么簡單直接。通常,選擇算法或其他產(chǎn)品特性調(diào)優(yōu)的影響要比單獨擁有更多數(shù)據(jù)要大得多。
在質(zhì)量和數(shù)量之間權(quán)衡
在創(chuàng)建數(shù)據(jù)語料庫時,最棘手的問題之一就是如何平衡質(zhì)量和數(shù)量之間的關(guān)系。為什么要平衡關(guān)系呢?解決規(guī)模過大的問題可能會導(dǎo)致在廣泛的用例范圍內(nèi)得到相對不錯的估計,但對其中任何一個用例來說都不算好;而解決規(guī)模過小的問題可能導(dǎo)致一個語料庫能夠很好地解決范圍狹窄的問題,但是卻不能滿足客戶期望的整個用例集。
在實踐中,這可能意味著將更多的精力放在為一個范圍狹窄的用例標(biāo)記豐富的數(shù)據(jù)上,或者更廣泛地向在更多用例中有用的數(shù)據(jù)開放。顯然,對任何語料庫來說,深度和寬度都是關(guān)鍵屬性,但是在任何方向上的平衡錯誤都會嚴(yán)重影響性能。當(dāng)涉及到保持競爭優(yōu)勢時,保持對特定領(lǐng)域的質(zhì)量和數(shù)量權(quán)衡的領(lǐng)先地位將使你添加到數(shù)據(jù)護(hù)城河中的增量數(shù)據(jù)的價值能夠?qū)崿F(xiàn)最大化。
保障專有數(shù)據(jù)來源安全
我們在這篇文章中提出的問題是數(shù)據(jù)規(guī)模效應(yīng)究竟存在于何處,又會持續(xù)多久?對于這個問題,我們希望創(chuàng)始人能夠捫心自問。這并不意味著一家公司無法從專有數(shù)據(jù)中獲得實際的防御能力。顯然,有很多行業(yè)(比如制藥業(yè))和反例主宰了它們的市場數(shù)十年,特別是當(dāng)它們出于行業(yè)結(jié)構(gòu)原因有權(quán)訪問專有數(shù)據(jù)集時(如Equifax、LexisNexis、Experian等),他們便獲得了防御能力。
積累專有數(shù)據(jù)是一種能夠增強防御能力的策略。當(dāng)數(shù)據(jù)源不足或不愿向多個供應(yīng)商(如政府采購商)提供數(shù)據(jù)時,這種策略最為有效?,F(xiàn)在,安全性要求和遵從性標(biāo)準(zhǔn)的門檻升至歷史最高水平,為獲得敏感數(shù)據(jù)而進(jìn)行的供應(yīng)商審查本身就可能成為針對競爭對手的一道護(hù)城河。
即使承擔(dān)組裝、清理和標(biāo)準(zhǔn)化大型公共數(shù)據(jù)集池的所有前期成本,也會產(chǎn)生一種規(guī)模效應(yīng),新興競爭對手將不得不從頭再創(chuàng)造這種效應(yīng),尤其是在首先需要專門知識來查找、理解和清理數(shù)據(jù)的情況下。那些被證明是負(fù)責(zé)任的數(shù)據(jù)保管人的初創(chuàng)企業(yè)可以贏得客戶的信任,而客戶只會與他們分享日益敏感的數(shù)據(jù),從而形成一道護(hù)城河。
數(shù)據(jù)護(hù)城河不是萬能的數(shù)據(jù)是許多軟件公司產(chǎn)品戰(zhàn)略的基礎(chǔ),它可以通過多種方式增強防御能力,但不要把它當(dāng)作魔杖。大多數(shù)關(guān)于數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)的敘述都是圍繞著數(shù)據(jù)規(guī)模效應(yīng)展開的,正如我們在本文中所概述的,如果沒有正確地規(guī)劃,這些效應(yīng)有時會產(chǎn)生相反的效果。但是,記住不要假設(shè)您有數(shù)據(jù)網(wǎng)絡(luò)效應(yīng),因為您可能沒有;也不要假設(shè)數(shù)據(jù)規(guī)模效應(yīng)將永久存在,因為這幾乎可以肯定不會發(fā)生。
相反,我們鼓勵初創(chuàng)企業(yè)更全面地考慮防御能力。更強大的長期防御能力更可能來自包裝差異化技術(shù);了解該領(lǐng)域,并將其反映在您的產(chǎn)品中;主導(dǎo)市場競爭,并贏得人才大戰(zhàn),打造一支世界級的一流團(tuán)隊。這些努力終將有所回報,你會獲得強大的防御能力,最終贏得市場,這遠(yuǎn)比獲得數(shù)據(jù)本身來得更有價值。(來源:獵云網(wǎng))
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 特斯拉CEO馬斯克身家暴漲,穩(wěn)居全球首富寶座
- 阿里巴巴擬發(fā)行 26.5 億美元和 170 億人民幣債券
- 騰訊音樂Q3持續(xù)穩(wěn)健增長:總收入70.2億元,付費用戶數(shù)1.19億
- 蘋果Q4營收949億美元同比增6%,在華營收微降
- 三星電子Q3營收79萬億韓元,營業(yè)利潤受一次性成本影響下滑
- 賽力斯已向華為支付23億,購買引望10%股權(quán)
- 格力電器三季度營收同比降超15%,凈利潤逆勢增長
- 合合信息2024年前三季度業(yè)績穩(wěn)健:營收增長超21%,凈利潤增長超11%
- 臺積電四季度營收有望再攀高峰,預(yù)計超260億美元刷新紀(jì)錄
- 韓國三星電子決定退出LED業(yè)務(wù),市值蒸發(fā)超4600億元
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。