近日,OSC 源創(chuàng)會上海站正式閉幕。據(jù)悉,OSC 源創(chuàng)會由開源中國社區(qū)主辦,是聚焦開源、創(chuàng)新的技術(shù)沙龍,聚集了最優(yōu)質(zhì)的技術(shù)資源與行業(yè)案例,對話最優(yōu)秀的技術(shù)領(lǐng)軍人物,為廣大開發(fā)者帶來最新開源技術(shù)、前沿技術(shù)視角以及落地實踐經(jīng)驗。
本次源創(chuàng)會以 LLM 基礎(chǔ)設(shè)施為主題,話題聚焦大模型平臺建設(shè)與基礎(chǔ)設(shè)施研發(fā),邀請了來自 Zilliz、百度、VMware 等多位業(yè)界專家參與?,F(xiàn)場,專家們從向量數(shù)據(jù)庫探討到自動化編程新范式,從深度學(xué)習(xí)聊到大模型底座,用多個角度分享了自己在大模型相關(guān)技術(shù)與應(yīng)用的見解。
Zilliz AI 云平臺負(fù)責(zé)人陳將受邀參加并進(jìn)行《向量數(shù)據(jù)庫 - AI 時代的信息檢索引擎》的主題分享。陳將主要介紹了從傳統(tǒng)的信息檢索系統(tǒng)到 AI 時代信息檢索系統(tǒng)的演化,分享了向量數(shù)據(jù)庫等基礎(chǔ)設(shè)施在其中的應(yīng)用和案例。
|Zilliz AI 云平臺負(fù)責(zé)人陳將
陳將表示,今年隨著大模型的火爆,向量數(shù)據(jù)庫也開始出圈了。很多人對向量數(shù)據(jù)庫的認(rèn)知都是從 AI 大模型開始的,因為大模型雖然很強(qiáng)大但往往缺乏領(lǐng)域知識,所以業(yè)界流行用向量數(shù)據(jù)庫打造大模型的記憶體。除此之外,向量數(shù)據(jù)庫在信息檢索領(lǐng)域還有非常多的應(yīng)用。
事實上,向量數(shù)據(jù)庫是一種劃時代的信息檢索引擎。人工智能和深度學(xué)習(xí)的創(chuàng)新使我們能夠創(chuàng)建一種機(jī)器學(xué)習(xí)模型,即 embedding 模型。Embedding 模型將所有類型的數(shù)據(jù)表征為向量,以捕獲其特征和含義。相比之下,傳統(tǒng)的全文檢索使用的是基于關(guān)鍵詞的方式。向量編碼能夠更準(zhǔn)確地捕捉數(shù)據(jù)的語義信息,提供更準(zhǔn)確的搜索結(jié)果。例如通過智能手機(jī)拍照后搜索相似的圖像,而傳統(tǒng)的全文檢索往往只能通過關(guān)鍵詞匹配來進(jìn)行搜索。向量數(shù)據(jù)庫使用高效的算法和索引結(jié)構(gòu),如 k 最近鄰(k-NN)索引、分層可導(dǎo)航小世界(HNSW)和倒排文件索引(IVF),以實現(xiàn)在高維空間中的快速檢索。然而,傳統(tǒng)的數(shù)據(jù)庫并不擅長于向量搜索,性能不可同日而語。
此外,陳將提到,向量數(shù)據(jù)庫在 AI 時代的信息檢索中具有重要的地位和優(yōu)勢。它通過將數(shù)據(jù)編碼為向量,并利用高效的搜索算法和索引結(jié)構(gòu),提供更精確、快速和準(zhǔn)確的搜索結(jié)果,在網(wǎng)頁搜索、推薦系統(tǒng)、視頻圖像搜索,檢索增強(qiáng)生成等領(lǐng)域助力應(yīng)用開發(fā)者以更強(qiáng)大更優(yōu)秀的產(chǎn)品體驗。
陳將所在的 Zilliz 不僅是向量數(shù)據(jù)庫賽道的領(lǐng)先者,也在大模型時代為 AI 應(yīng)用開發(fā)者提供了非結(jié)構(gòu)化數(shù)據(jù)檢索產(chǎn)品 Zilliz Cloud Pipelines。Zilliz Cloud Pipelines(https://zilliz.com/zilliz-cloud-pipelines) 可以將文檔、文本片段和圖像等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成可搜索的向量并存儲在 Collection 中,幫助開發(fā)者簡化工程開發(fā),助力其實現(xiàn)多種場景的 RAG 應(yīng)用,將復(fù)雜生產(chǎn)系統(tǒng)的搭建和維護(hù)簡化成 API 調(diào)用,真正做到降低檢索系統(tǒng)搭建門檻,輕松實現(xiàn) RAG 應(yīng)用。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )