精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    大模型風起云涌,向量數(shù)據(jù)庫終有“用武之地”?

    科技云報道原創(chuàng)。

    每逢淘金熱,最后的贏家都是賣鏟人,而非淘金者。在近兩年的大模型風口下,向量數(shù)據(jù)庫就成了這把鏟子。

    隨著大模型快速發(fā)展,向量數(shù)據(jù)庫正在成為企業(yè)便捷使用大模型、最大化發(fā)揮數(shù)據(jù)價值的關(guān)鍵工具。據(jù)IDC調(diào)查數(shù)據(jù)顯示,全球在AI技術(shù)和服務上的支出2023年將達到1540億美元,到2026年將超過3000億美元。其中,向量數(shù)據(jù)庫為AI的開發(fā)、增強內(nèi)容生成的準確性提供了重要技術(shù)支撐。

    在今年數(shù)據(jù)庫領(lǐng)域所有的技術(shù)趨勢中,向量數(shù)據(jù)庫無疑成為了最受資本熱捧的一個。隨著5月份大模型廠商掀起一輪又一輪價格戰(zhàn),接連調(diào)低大模型API的價格,高性價比的大模型+向量數(shù)據(jù)庫,在行業(yè)應用、企業(yè)市場又顯現(xiàn)出了商業(yè)價值。

    為什么向量數(shù)據(jù)庫會隨著大模型的發(fā)展而爆發(fā)?它又將給AI行業(yè)帶來怎樣的機會?

    大模型的必經(jīng)之路

    首先,我們需要厘清向量數(shù)據(jù)庫在大模型當中扮演了什么角色。

    大模型解決的是計算問題,而向量數(shù)據(jù)庫則解決存儲問題。這是從2023年初向量數(shù)據(jù)庫崛起開始,至今為止行業(yè)內(nèi)公認的看法。

    人們常常把大語言模型比喻成大腦,但這是一個被切除了顳葉的大腦,缺乏記憶,并且常常出現(xiàn)幻覺。為了解決這些問題,常常需要借助向量數(shù)據(jù)庫。

    現(xiàn)實生活中兩人進行對話,大致需要三步流程:一方首先拋出話題作引子;另一方會先調(diào)動記憶判斷自己是否了解這個話題,然后再分析給出應該做出何種回答。如此循環(huán)往復直到互動結(jié)束。

    為讓計算機完成這樣的互動過程,并持續(xù)在一對一或一對多的情況下變成日常,AI科學家提出了CVP結(jié)構(gòu),即“ChatGPT(以ChatGPT為代表的大模型)+Vector Database(向量數(shù)據(jù)庫)+Prompt(提示詞)”,分別承擔計算機分析、記憶、引子的功能。

    放到大模型上,針對其有可能出現(xiàn)的幻覺問題,可以將所需領(lǐng)域的專業(yè)知識存入向量數(shù)據(jù)庫,當要prompt時,系統(tǒng)自動的從向量數(shù)據(jù)庫中根據(jù)相似度查找最相關(guān)的專業(yè)知識,把這些知識和你的提示詞一同提交給大模型,這樣就可以有效減少幻覺的出現(xiàn)。記憶的問題也類似,可以選擇把部分你和大模型的聊天記錄存入向量數(shù)據(jù)庫。這是向量數(shù)據(jù)庫近期出現(xiàn)熱度的原因。

    向量數(shù)據(jù)庫和傳統(tǒng)數(shù)據(jù)庫的不同點之一是,傳統(tǒng)的數(shù)據(jù)庫只能處理計算機容易了解和處理的數(shù)據(jù)、字符串等結(jié)構(gòu)化數(shù)據(jù),通過點查和范圍查進行精確匹配,輸出只有符合查詢條件和不符合條件的答案,而向量數(shù)據(jù)庫處理的是各種AI應用產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),通過近似查進行模糊匹配,輸出的是概率上的提供相對最符合條件的答案,而非精確的標準答案。

    以O(shè)penAI背后的GPT模型預訓練所用的數(shù)據(jù)為例,GPT-3.5的“知識庫”共包含3000億單詞的數(shù)據(jù),匯聚了來自開源語料庫、維基百科、各類圖書與新聞報道、Reddit與Twitter平臺文章等大量互聯(lián)網(wǎng)文本數(shù)據(jù)。GPT-4在此基礎(chǔ)上體量更大,且為了支持多模態(tài)專門收集各類圖像、視頻素材,這其中非結(jié)構(gòu)化數(shù)據(jù)應占有極大比重。

    正如冰山效應所喻示的“巨大的冰山往往是八分之一浮在水面上,八分之七沉沒在水面之下”,真實世界中絕約80%的數(shù)據(jù)都為非結(jié)構(gòu)化數(shù)據(jù),只有約20%的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)復雜且難處理,反而導致有效利用率遠低于結(jié)構(gòu)化數(shù)據(jù)。因此,打造面向非結(jié)構(gòu)化數(shù)據(jù)的向量數(shù)據(jù)庫也變成了一場從0到1的拓荒。

    近年來,一些數(shù)據(jù)庫廠商已經(jīng)開始原生支持向量嵌入和向量搜索的功能,并提供了相應的向量索引和查詢優(yōu)化技術(shù)。這使得開發(fā)人員能夠更方便地在數(shù)據(jù)庫中存儲和查詢向量數(shù)據(jù),而無需依賴額外的工具或庫。

    除了大語言模型的推動外,向量數(shù)據(jù)庫在自身技術(shù)上也取得了重大突破,特別是在性能優(yōu)化、數(shù)據(jù)處理能力和安全性方面。各數(shù)據(jù)庫廠商和研究機構(gòu)都在致力于改進向量數(shù)據(jù)庫的算法和架構(gòu),以提高其處理大規(guī)模數(shù)據(jù)的能力。

    ChatGPT的爆發(fā)徹底改變了向量數(shù)據(jù)庫的發(fā)展速度。2023年3月,在英偉達全球開發(fā)者大會上,CEO黃仁勛力挺向量數(shù)據(jù)庫對構(gòu)建專有大型語言模型的重要價值,“向量數(shù)據(jù)庫的一個新型重要用例是大型語言模型,在文本生成過程中可用于檢索領(lǐng)域特定事實或?qū)S惺聦?。英偉達將推出一個新的庫,即RAFT,用于加速索引、數(shù)據(jù)加載和近鄰檢索。我們正在將RAFT的加速引入到Meta的AI向量相似性搜索FAISS、Milvus開源向量數(shù)據(jù)庫以及Redis?!彼缡钦f。

    在資本市場,近一年來向量數(shù)據(jù)庫是當之無愧的“資本寵兒”,Qdrant、Chroma、Weaviate先后獲得融資,成立短短幾年的Pinecone宣布1億美元B輪融資,估值達到7.5億美元??梢?,無論從技術(shù)演進還是資本市場來看,向量數(shù)據(jù)庫都是這兩年最亮眼的技術(shù)。

    向量數(shù)據(jù)庫的商業(yè)化探索

    在大模型興起之前,傳統(tǒng)數(shù)據(jù)庫已經(jīng)在不斷嘗試與AI結(jié)合,主要涉及以下幾個方向:AI for DB、DB for AI、預測估算。隨著大模型的興起,可以看到在這些方向上,數(shù)據(jù)庫與AI間的關(guān)聯(lián)比以往任何時候都要密切。

    在“AI for DB”方面,將AI技術(shù)嵌入到傳統(tǒng)數(shù)據(jù)庫中,使其具備更智能的功能。例如,通過大模型,數(shù)據(jù)庫可以實現(xiàn)更高級的數(shù)據(jù)分析、智能搜索和推薦等功能。AI技術(shù)的應用使得數(shù)據(jù)庫能夠更好地理解和處理數(shù)據(jù),提供更精確的查詢結(jié)果和分析報告。

    對于“DB for AI”方面,傳統(tǒng)數(shù)據(jù)庫可以為大模型提供結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)高效的存儲和查詢能力。由于大模型通常需要處理大規(guī)模的數(shù)據(jù),傳統(tǒng)數(shù)據(jù)庫的可伸縮性和性能變得尤為重要。數(shù)據(jù)庫可以通過融合查詢和差異化存儲等技術(shù),提供快速的數(shù)據(jù)訪問和處理能力,滿足大模型對數(shù)據(jù)的高效需求。

    此外,大模型的興起還為數(shù)據(jù)庫注入了預測估算的能力。大模型可以通過學習歷史數(shù)據(jù)和模式,對未來的趨勢和結(jié)果進行預測和估算。傳統(tǒng)數(shù)據(jù)庫可以集成模型,實現(xiàn)對數(shù)據(jù)的預測分析。這使得數(shù)據(jù)庫可以不僅提供對歷史數(shù)據(jù)的查詢和分析,還能夠提供對未來數(shù)據(jù)的預測和估算結(jié)果,幫助用戶做出更準確的決策。

    事實上,不僅是大模型廠商,云計算廠商憑借在AI基礎(chǔ)設(shè)施、商業(yè)生態(tài)、市場規(guī)模效應方面的已有優(yōu)勢,也開始聚焦向量數(shù)據(jù)庫市場進行各種技術(shù)和商業(yè)化嘗試,這些嘗試或許會讓向量數(shù)據(jù)庫加速走向商業(yè)成功。

    首先,多元化部署能力。垂直行業(yè)大模型,數(shù)據(jù)都是私有機密的,客戶一般不愿意放到公有云上,這對一部分支持混合多云的云廠商是一大利好,通過私有部署、分布式、混合云等多種方案,打消行業(yè)客戶將數(shù)據(jù)放到云端的現(xiàn)實疑慮。

    其次,一體化AI能力。向量數(shù)據(jù)庫的火爆,本質(zhì)是由AI驅(qū)動的,而AI Native時代的數(shù)據(jù)工程,還有許多復雜問題尚待解決,比如檢索效率,在處理大規(guī)模數(shù)據(jù)的并行任務時,保持快速響應時間是一個挑戰(zhàn),需要優(yōu)化索引結(jié)構(gòu)和搜索算法;高負載下的系統(tǒng)穩(wěn)定性,需要確保數(shù)據(jù)庫系統(tǒng)具備高可用性和容錯能力,防止服務中斷;存儲海量的向量數(shù)據(jù),成本效益比要進一步優(yōu)化……目前來看,云廠商具備從底層算力集群、Maas模型平臺到全棧工具鏈的AI能力,有望通過技術(shù)協(xié)同創(chuàng)新,持續(xù)優(yōu)化向量數(shù)據(jù)庫的性能和成本。

    第三,產(chǎn)業(yè)服務能力。各行業(yè)對AI與業(yè)務的結(jié)合熱情高漲,但大多還處于嘗試探索期,需要結(jié)合自身場景、AI應用、IT設(shè)施等多種因素試錯并迭代。這個過程中,隨叫隨到、幫助客戶及時解決問題的ToB服務能力,也是非??粗氐摹I罡a(chǎn)業(yè)的公有云,有望降低很多企業(yè)在AI技術(shù)革命中的機會成本。

    從某種程度上而言,無論是向量數(shù)據(jù)庫,還是大模型,歸根結(jié)底,人們在追捧它時的心態(tài),焦慮大于需求。而這種焦慮則來源于“害怕被落下”。

    而向量數(shù)據(jù)庫的熱潮,在一定程度上外化了人們的焦慮。但這并不能否定向量數(shù)據(jù)庫的實際價值,甚至更長遠的價值。

    雖然,目前向量數(shù)據(jù)庫仍處于發(fā)展初期,但可以確定的是,向量數(shù)據(jù)庫與大模型一定是捆綁關(guān)系。因此,未來其演進方向也一定隨著大模型能力的演進而發(fā)生變化。

    不可否認的是,向量數(shù)據(jù)庫的未來有星辰大海,也有曲折的前路。背靠大模型,向量數(shù)據(jù)庫成為資本追捧的“寵兒”。然而,在未來的AGI時代,向量數(shù)據(jù)庫還有更多實事要干。

    免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

    極客網(wǎng)企業(yè)會員

    免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    2024-05-31
    大模型風起云涌,向量數(shù)據(jù)庫終有“用武之地”?
    科技云報道原創(chuàng)。每逢淘金熱,最后的贏家都是賣鏟人,而非淘金者。在近兩年的大模型風口下,向量數(shù)據(jù)庫就成了這把鏟子。隨著大模型快速發(fā)展...

    長按掃碼 閱讀全文