AGI 時代,真的可以用向量數(shù)據(jù)庫+大模型在 48 小時內(nèi)迅速搭建出一個 AI 應用嗎?
這場黑客松比賽給出了答案,它就是 AGI Playground Hackathon,一場聚集了國內(nèi)頂尖向量數(shù)據(jù)庫、大模型公司與創(chuàng)新開發(fā)者的 AGI 盛宴。
與國內(nèi)其他比賽不同,AGI Playground Hackathon 詮釋了 CVP Stack 開發(fā)范式的強大,除了大模型以外,首次全量使用向量數(shù)據(jù)庫進行應用開發(fā),讓更多開發(fā)者切實地感受到向量數(shù)據(jù)庫作為大模型記憶體在檢索和存儲等方面的能力。本次比賽給出了“生產(chǎn)力工具的新想象”、“泛娛樂體驗的新可能”和“創(chuàng)新開發(fā)” 三個賽題,最大程度地給予開發(fā)者更多的創(chuàng)作空間。而現(xiàn)場 34 個各具特色的開發(fā)成果展示,也為 AGI 從業(yè)者帶來了更多的思考和想象。
CVP Stack 的試煉場,向量數(shù)據(jù)庫的應用狂歡
對于 AGI 時代的開發(fā)者而言,AGI Playground Hackathon 無疑是驗證創(chuàng)意的絕佳戰(zhàn)場,據(jù)了解,此次參賽的開發(fā)者無一例外全部使用了 CVP Stack 的開發(fā)范式,這也是國內(nèi)黑客松比賽中,首次在應用開發(fā)過程中大規(guī)模地應用向量數(shù)據(jù)庫(Zilliz Cloud)。
何為 CVP Stack?具體來看,“C”代表大模型(ChatGPT)負責向量計算;“V”代表向量數(shù)據(jù)庫(Vector Database),負責向量存儲;“P”代表 Prompt 工程,負責向量交互。
這里需要著重講一下向量數(shù)據(jù)庫。向量數(shù)據(jù)庫是一種為了高效存儲和索引 AI 模型產(chǎn)生的向量嵌入(embedding)數(shù)據(jù)而專門設計的數(shù)據(jù)庫。在傳統(tǒng)的關系型數(shù)據(jù)庫中,數(shù)據(jù)通常以表格的形式存儲,而在向量數(shù)據(jù)庫中,數(shù)據(jù)以向量的形式存儲。向量(embedding)是一組數(shù)值,可以表示一個點在多維空間中的位置??梢哉f,向量數(shù)據(jù)庫非常擅長處理大量的高維 embedding 數(shù)據(jù)。
隨著大模型時代的到來,向量數(shù)據(jù)庫進入到更多開發(fā)者的視野中。諸如 ChatGPT、Bard、Claude 和 LLaMA 這樣的大模型可以產(chǎn)生海量向量嵌入數(shù)據(jù)來表達復雜的語義關系,但模型本身的存儲空間有限,無法持久保存這些數(shù)據(jù)。而向量數(shù)據(jù)庫就像一塊外置的記憶塊,可以長期存儲這些數(shù)據(jù),供模型隨時調(diào)用。而在 CVP Stack 的開發(fā)范式中,不可或缺的恰恰是向量數(shù)據(jù)庫對于高維復雜數(shù)據(jù)的向量檢索能力及其長期存儲能力。
那么,向量數(shù)據(jù)庫真正的效果的使用效果如何?在最后一天的 Demo Day 中,選手們普遍反映,本次開發(fā)過程中所使用到的向量數(shù)據(jù)庫 Zilliz Cloud,在自己開發(fā)的應用中承載了重要的功能,通過其高效的向量檢索與強大的存儲能力大大提升了項目的落地效率和效果:
“Pilotx” 團隊表示:Zilliz Cloud 的性能是世界級,用在 C 端性能略過剩;
來自【泛娛樂】賽道的“碼頭狗狗”用到的是 Zilliz Cloud 的向量檢索和存儲功能,不僅將 prompt 信息存儲在向量數(shù)據(jù)庫中,還會用其檢索與當前事件相似度的信息;
來自【創(chuàng)新開發(fā)】的“真 666”團隊則通過 Zilliz Cloud 分別搭建了公共向量數(shù)據(jù)庫及專屬向量數(shù)據(jù)庫,滿足項目交互過程中對專業(yè)領域知識數(shù)據(jù)和用戶數(shù)據(jù)的需求;……
AGI 不止 48 小時
一場 AGI 黑客松比賽的開發(fā)時間只有 48 小時,然而從開發(fā)者的視角來看,48 小時只是創(chuàng)意的初步實踐,真正的考驗才剛剛開始;對于比賽的發(fā)起者(Zilliz、智譜 AI、Founder Park)而言,舉辦黑客松的初心以及比賽過程中帶來的沉淀更具價值,AGI 絕不止于 48 小時。
Zilliz 創(chuàng)始人兼 CEO 星爵表示,聯(lián)合發(fā)起 Hackathon 的原因有 3 點:
其一,大模型正當其時,已經(jīng)從模型端創(chuàng)新走向應用端創(chuàng)新?;乜唇衲晟习肽?,可以看到,國內(nèi)有很多公司在大模型方面可謂百花齊放,做出了優(yōu)秀的模型,經(jīng)歷了從蓄勢待發(fā)到走近廣大開發(fā)者的過程。
其二,目光投向海外,過去一年各類 Hackathon 活動如火如荼,尤其是北美,在開發(fā)者聚集的城市基本每個周末都會舉辦一場黑客松。這在一定程度上推動了 AI 創(chuàng)新的百花齊放,國內(nèi)當下需要這樣促進開發(fā)者交流與火花碰撞的機會。
其三,無論是大語言模型的應用還是上個時代移動應用程序的興起,都清晰地指出,更長期的創(chuàng)新一定來自應用層。如何以 AI 創(chuàng)新、大模型的創(chuàng)新為各行業(yè)賦能,是當下亟待解決的問題。為此,在當下大模型爆發(fā)、開發(fā)者正當時的階段,Zilliz 希望將大家組織到一起,進行一場屬于這個時代的創(chuàng)新盛宴。
誠如星爵所言,黑客松的選手向所有人展示了國內(nèi) AIGC 開發(fā)者技術力與創(chuàng)新力,帶來了諸如知識庫、金融、健康、短視頻、寵物、兒童繪畫、殘障人士關愛等豐富的場景。
如“社交駭客”團隊的項目,可以看作“AI 時代的 Facebook”,即利用 AI,全網(wǎng)尋找和你興趣最相符的好友,分析 Ta 的個人資料,甚至可以和 Ta 的賽博分身互動。一方面,該項目展示了深度挖掘信息的強大技術能力;另一方面,也帶來了 AI 技術與倫理的碰撞。
又如,“AI 康復”團隊的 AI 口語康復項目。該項目旨在用 AI 幫助恢復聽力的成人聽障群體學說話,主要解決成人聽障人群上課時間有限、價格昂貴以及課后練習無反饋的問題。由 AI 針對學員的自身情況設計專屬的訓練課程,提供資料查詢、瞬時反饋和長期反饋。
對此,Zilliz 合伙人&產(chǎn)品負責人郭人通評價道,見過太多服務于多數(shù)人的 AI 項目,但“AI 康復”團隊的項目卻是瞄準小眾群體,并讓人眼前一亮。語音-文本跨模態(tài)的技術選型非常好地匹配了聽障群體的口語練習剛需。這個項目同時給整個行業(yè)提出了幾點思考:在 AI 落地階段高度內(nèi)卷的大背景下,如何提高公益類 AI 項目的關注度;面向小眾群體的公益類 AI 項目的存活路徑探索。
值得一提的是,“AI 口語康復”項目同時獲得了本次黑客松“最具創(chuàng)意獎”及【生產(chǎn)力工具】賽道冠軍,該項目采用 RAG(Retrieval-augmented generation 檢索增強生成)架構(gòu)將聽障成人語音康復專業(yè)文檔 embedding 后存入 Zilliz Cloud 。在回答用戶提問時,通過向量檢索,大模型可以實現(xiàn)知識庫的準確反饋和類真人老師的真實糾音效果,避免大模型幻覺問題。
過去半年 RAG 應用數(shù)量呈現(xiàn)出持續(xù)井噴的狀態(tài)。Zilliz 預計未來至少一年的時間里 RAG 仍會保持迅猛增長的態(tài)勢。未來,其涵蓋的內(nèi)容會從文本跨越到圖片、視頻等多模態(tài),甚至用戶的 profile。最終解決“企業(yè)數(shù)據(jù)如何高效使用”的問題。從這個角度看,RAG 在之前、現(xiàn)在以及未來都會是一個持續(xù)的增長點。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )