隨著企業(yè)、機(jī)構(gòu)中非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用的日益增多以及AI的爆發(fā)式增長(zhǎng)所帶來(lái)的大量生成式數(shù)據(jù),所涉及的數(shù)據(jù)呈現(xiàn)了體量大、格式和存儲(chǔ)方式多樣、處理速度要求高、潛在價(jià)值大等特點(diǎn)。但傳統(tǒng)數(shù)據(jù)平臺(tái)對(duì)這些數(shù)據(jù)的處理能力較為有限,如使用文件系統(tǒng)、多類不同數(shù)據(jù)庫(kù)存儲(chǔ)上述數(shù)據(jù),在數(shù)據(jù)存儲(chǔ)管理、查詢分析效率、數(shù)據(jù)價(jià)值挖掘等方面都存在一定的瓶頸,例如傳統(tǒng)數(shù)據(jù)庫(kù)查詢是點(diǎn)查和范圍查的一種精確查詢,無(wú)法滿足大模型下如智能問(wèn)答、智能推薦等場(chǎng)景。
因此,企業(yè)急需一款或數(shù)款管理好非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)管理平臺(tái)。業(yè)內(nèi)常用的做法,是利用人工智能中的表示學(xué)習(xí),將這些非結(jié)構(gòu)化數(shù)據(jù)抽象、轉(zhuǎn)換為高維度的多維向量,由此可以結(jié)構(gòu)化地在向量數(shù)據(jù)庫(kù)中進(jìn)行管理,實(shí)現(xiàn)快速、高效的數(shù)據(jù)存儲(chǔ)和檢索過(guò)程,結(jié)合相似性檢索特性,進(jìn)而更高效地支撐更廣泛的應(yīng)用場(chǎng)景,比如智能推薦場(chǎng)景等。同時(shí),隨著大語(yǔ)言模型應(yīng)用中對(duì)長(zhǎng)文本處理和領(lǐng)域知識(shí)表示使用的深入,對(duì)向量數(shù)據(jù)庫(kù)的需求也日益迫切。
近日,在向星力•未來(lái)數(shù)據(jù)技術(shù)峰會(huì)上,星環(huán)科技正式發(fā)布了分布式向量數(shù)據(jù)庫(kù)Transwarp Hippo。作為一款企業(yè)級(jí)云原生分布式向量數(shù)據(jù)庫(kù),星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo支持存儲(chǔ)、索引以及管理海量的向量式數(shù)據(jù)集,提供向量相似度檢索、高密度向量聚類等能力,有效地解決了大模型在知識(shí)時(shí)效性低、輸入能力有限、準(zhǔn)確度低等問(wèn)題,讓大模型更高效率地存儲(chǔ)和讀取知識(shí)庫(kù),降低訓(xùn)練和推理成本,激發(fā)更多的AI應(yīng)用場(chǎng)景。在賦予大模型擁有“長(zhǎng)期記憶”的同時(shí),還可以協(xié)助企業(yè)解決目前最擔(dān)憂的大模型數(shù)據(jù)隱私泄露問(wèn)題。
大模型的快速應(yīng)用,推動(dòng)向量數(shù)據(jù)庫(kù)向高擴(kuò)展、高性能、實(shí)時(shí)性方向發(fā)展
大模型正在與企業(yè)應(yīng)用迅速結(jié)合,重塑企業(yè)應(yīng)用中人與數(shù)據(jù)的交互方式。然而,不管是通用模型,還是微調(diào)出來(lái)的行業(yè)模型,都存在著一定的局限性:
* 實(shí)時(shí)性難題:模型訓(xùn)練需要很長(zhǎng)的時(shí)間,可能需要半年或一年,實(shí)時(shí)資訊、新聞、市場(chǎng)行情等快速變化的信息,無(wú)法及時(shí)地內(nèi)置到模型當(dāng)中。
* 長(zhǎng)Token難題:大模型的輸入Token(文本中的最小單位)能力受到算力和工程化程度的限制。在這種限制下,例如無(wú)法將一家上市公司的全部年報(bào)數(shù)據(jù)輸入進(jìn)大模型,導(dǎo)致不能進(jìn)行全面的分析。
* 精度校正難題:大模型雖然經(jīng)過(guò)大量數(shù)據(jù)的長(zhǎng)期訓(xùn)練,但很多場(chǎng)景下精準(zhǔn)度還是不夠,需要補(bǔ)充知識(shí)庫(kù)進(jìn)行校正,讓其能夠給出更準(zhǔn)確的結(jié)果和更實(shí)時(shí)的信息。
目前,大模型訓(xùn)練所使用的數(shù)據(jù)包含了如文檔、圖片、音視頻等各種類型的非結(jié)構(gòu)化數(shù)據(jù)。用戶可以通過(guò)表示學(xué)習(xí)的預(yù)處理方式將這些數(shù)據(jù)轉(zhuǎn)化為多維向量,并存儲(chǔ)在向量數(shù)據(jù)庫(kù)中,從而可以很好地解決上述三個(gè)問(wèn)題。比如,在應(yīng)用端與大模型進(jìn)行交互時(shí),將輸入的文字、圖片等問(wèn)題信息進(jìn)行向量化,先進(jìn)行語(yǔ)義搜索,找到相關(guān)的信息,將其拼接成提示詞傳遞給大模型,大模型通過(guò)計(jì)算分析后反饋結(jié)果。
星環(huán)科技創(chuàng)始人、CEO孫元浩表示,“向量數(shù)據(jù)庫(kù)承擔(dān)了中間存儲(chǔ)的角色,我們認(rèn)為向量數(shù)據(jù)庫(kù)就是大語(yǔ)言模型的海馬體,是一個(gè)記憶體。其基本功能是能夠存儲(chǔ)多維向量,并提供進(jìn)一步的檢索。”
向量數(shù)據(jù)庫(kù)早先被用于文本搜索或者語(yǔ)義搜索,過(guò)去不少公司用來(lái)做個(gè)性化推薦、構(gòu)建知識(shí)圖譜等。隨著大模型的興起,向量數(shù)據(jù)庫(kù)可以讓大模型更高效率地存儲(chǔ)和讀取知識(shí)庫(kù),并以更低的成本進(jìn)行模型微調(diào),進(jìn)一步地激發(fā)AI應(yīng)用場(chǎng)景。此外,幾千、上萬(wàn)種應(yīng)用帶來(lái)海量的數(shù)據(jù),需要一個(gè)高擴(kuò)展的向量數(shù)據(jù)庫(kù)來(lái)存放更多的數(shù)據(jù)信息。而向量數(shù)據(jù)復(fù)雜度的提升,模型推理速度的加快等也要求能夠提供高性能的檢索能力。實(shí)時(shí)動(dòng)態(tài)變化的數(shù)據(jù),對(duì)向量數(shù)據(jù)庫(kù)的實(shí)時(shí)寫入、實(shí)時(shí)更新、實(shí)現(xiàn)召回能力的要求變高,通過(guò)將實(shí)時(shí)資訊、實(shí)時(shí)新聞、市場(chǎng)行情等快速變化的信息及時(shí)地內(nèi)置到模型中,使其能夠提供更實(shí)時(shí)、更精準(zhǔn)的結(jié)果。
星環(huán)科技分布式向量數(shù)據(jù)庫(kù)Transwarp Hippo
星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo作為一款企業(yè)級(jí)云原生分布式向量數(shù)據(jù)庫(kù),基于分布式特性,可以對(duì)文檔、圖片、音視頻等多源、海量數(shù)據(jù)轉(zhuǎn)化后的多維向量進(jìn)行統(tǒng)一存儲(chǔ)和管理。通過(guò)多進(jìn)程架構(gòu)與GPU加速技術(shù),充分發(fā)揮并行檢索能力,實(shí)現(xiàn)毫秒級(jí)高性能數(shù)據(jù)檢索,結(jié)合相似度檢索等技術(shù),幫助用戶快速挖掘數(shù)據(jù)價(jià)值。
與開(kāi)源的向量數(shù)據(jù)庫(kù)不同,星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo具備高可用、高性能、易拓展等特點(diǎn),支持多種向量搜索索引,支持?jǐn)?shù)據(jù)分區(qū)分片、數(shù)據(jù)持久化、增量數(shù)據(jù)攝取、向量標(biāo)量字段過(guò)濾混合查詢等功能,很好地滿足了企業(yè)針對(duì)海量向量數(shù)據(jù)的高實(shí)時(shí)性檢索等場(chǎng)景。
* 云原生技術(shù),支持彈性擴(kuò)縮容
星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo采用全面容器化部署,支持服務(wù)的彈性擴(kuò)縮容,同時(shí)具備多租戶和強(qiáng)大的資源管控能力。
* 高擴(kuò)展性,海量向量數(shù)據(jù)存儲(chǔ)
與直接利用各類算法lib不同,星環(huán)Hippo存儲(chǔ)和計(jì)算都可以充分利用分布式特性,按需靈活擴(kuò)展,滿足大規(guī)模集群部署需求;通過(guò)Raft算法確保數(shù)據(jù)的強(qiáng)一致性;并提供故障遷移,數(shù)據(jù)修復(fù)等數(shù)據(jù)保障能力。
* 深度優(yōu)化,高性能數(shù)據(jù)檢索
星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo支持多進(jìn)程架構(gòu)與GPU加速,充分發(fā)揮并行檢索能力;支持基于檢索速度和內(nèi)存使用的特定優(yōu)化,以及寄存器級(jí)算法優(yōu)化;同時(shí)提供多類索引支持,滿足不同需求不同體量的業(yè)務(wù)場(chǎng)景。
* 動(dòng)態(tài)更新,實(shí)時(shí)檢索
星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo提供數(shù)據(jù)動(dòng)態(tài)更新的能力,對(duì)于實(shí)時(shí)插入/更新的數(shù)據(jù),可以快速完成數(shù)據(jù)的加載和索引的構(gòu)建,解決向量數(shù)據(jù)T+1的傳統(tǒng)處理邏輯,滿足實(shí)時(shí)動(dòng)態(tài)變化數(shù)據(jù)的向量檢索分析。
* 多樣化接口,豐富場(chǎng)景支持
星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo供標(biāo)準(zhǔn)的Python、Restful、CPP、Java API等接口,可輕松對(duì)接各類應(yīng)用和模型,提高應(yīng)用開(kāi)發(fā)和調(diào)用的效率。同時(shí),提供類SQL接口,滿足入庫(kù)等特定場(chǎng)景,大幅降低使用和操作的難度。
* 多模型聯(lián)合
基于TDH多模型統(tǒng)一技術(shù)架構(gòu),向量數(shù)據(jù)與關(guān)系型數(shù)據(jù)、圖數(shù)據(jù)、時(shí)序數(shù)據(jù)等多種模型數(shù)據(jù)可進(jìn)行統(tǒng)一存儲(chǔ)管理,并通過(guò)統(tǒng)一接口實(shí)現(xiàn)數(shù)據(jù)跨模型聯(lián)合分析。
具備高可用、高性能、易拓展等特點(diǎn)的星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo,可以很好地滿足企業(yè)針對(duì)海量向量數(shù)據(jù)的高實(shí)時(shí)性等場(chǎng)景。
* 文本檢索
傳統(tǒng)搜索引擎更偏向于詞/句的精確查詢,星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo通過(guò)向量引擎提供自然語(yǔ)言處理能力,可以更好地支持基于語(yǔ)義的查詢分析,讓查詢更滿足人性化的需求。
* 語(yǔ)音/視頻/圖像檢索
星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo將多維向量特征構(gòu)建成高效的向量索引,實(shí)現(xiàn)數(shù)據(jù)的相似性檢索,可覆蓋人臉識(shí)別、語(yǔ)音識(shí)別、視頻指紋等多類AI場(chǎng)景。
* 個(gè)性化推薦
星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo可與各類深度學(xué)習(xí)平臺(tái)搭建的模型進(jìn)行耦合,通過(guò)向量相似度檢索,可以對(duì)用戶行為與喜好等多方面進(jìn)行分析、挖掘,做到千人千面的推薦效果。
* 智能搜索,智能問(wèn)答
知識(shí)圖譜的目的在于將結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及這些數(shù)據(jù)、實(shí)體之間的關(guān)聯(lián)關(guān)系進(jìn)行存儲(chǔ)和表達(dá)。通過(guò)星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo可以將這些信息更好地進(jìn)行表達(dá)和處理,給出符合需求的一系列近似答案和推薦查詢。
向量數(shù)據(jù)庫(kù)與圖數(shù)據(jù)庫(kù)聯(lián)合,低成本、高效構(gòu)建特定領(lǐng)域大模型應(yīng)用
基于星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo,可以有效地解決大模型在知識(shí)時(shí)效性低、輸入能力有限、準(zhǔn)確度低等問(wèn)題。通過(guò)將最新資料、專業(yè)知識(shí)、個(gè)人習(xí)慣等海量信息向量存儲(chǔ)在星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo中,可以極大地拓展大模型的應(yīng)用邊界,讓大模型保持信息實(shí)時(shí)性,并能夠動(dòng)態(tài)調(diào)整,使大模型擁有“長(zhǎng)期記憶”。
通過(guò)建立垂直領(lǐng)域的知識(shí)庫(kù),對(duì)大模型輸出結(jié)果進(jìn)行校正,可以提高結(jié)果的精準(zhǔn)度,在一定程度上解決“AI幻覺(jué)”問(wèn)題。
此外,通過(guò)星環(huán)分布式向量數(shù)據(jù)庫(kù)Hippo對(duì)向量數(shù)據(jù)進(jìn)行存儲(chǔ),有效解除大模型對(duì)輸入的限制,并且大模型在安全機(jī)制下訪問(wèn)向量數(shù)據(jù)庫(kù)中的隱私數(shù)據(jù),可以充分保證數(shù)據(jù)安全,杜絕隱私泄露風(fēng)險(xiǎn)。
然而,大模型只有向量數(shù)據(jù)庫(kù)還不夠。在召回的基礎(chǔ)上通過(guò)提示工程確保數(shù)據(jù)更精確,更貼近實(shí)際場(chǎng)景,同樣也是重要的一環(huán)。星環(huán)科技將分布式向量數(shù)據(jù)庫(kù)Hippo和分布式圖數(shù)據(jù)庫(kù)StellarDB結(jié)合,并以此作為微調(diào)的數(shù)據(jù)憑依,可以更低成本、更高效地構(gòu)建特定領(lǐng)域的大模型應(yīng)用。
圖數(shù)據(jù)庫(kù)StellarDB和知識(shí)圖譜聯(lián)合,與大模型可視化端到端構(gòu)建工具一起,提供了知識(shí)抽取融合、知識(shí)建模、知識(shí)圖譜生成存儲(chǔ)、基于大模型的知識(shí)問(wèn)答等閉環(huán)功能??蛻粢灾R(shí)圖譜作為大語(yǔ)言模型提示即可發(fā)起模型微調(diào),以較低代價(jià)就可獲得行業(yè)的專屬大語(yǔ)言模型問(wèn)答應(yīng)用。
將向量數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)與大語(yǔ)言模型結(jié)合,可以構(gòu)建業(yè)務(wù)域知識(shí)圖譜和業(yè)務(wù)系統(tǒng)的應(yīng)用服務(wù),進(jìn)一步提高人機(jī)交互的效率,提供更靈活的組合業(yè)務(wù)服務(wù),激發(fā)出更多更深入的業(yè)務(wù)場(chǎng)景AI應(yīng)用。
例如,在詢問(wèn)某開(kāi)源通用大模型關(guān)于某集團(tuán)玉米收儲(chǔ)價(jià)格、某集團(tuán)主要合作上下游企業(yè)等問(wèn)題,通用大模型沒(méi)有行業(yè)知識(shí),無(wú)法給出準(zhǔn)確答案。而把農(nóng)業(yè)知識(shí)圖譜和向量數(shù)據(jù)庫(kù)結(jié)合后,可以從知識(shí)圖譜中去獲取或者補(bǔ)充大模型的答案,使其可以精確地回答新收豬價(jià)以及價(jià)格影響等。
通過(guò)這樣的組合可以解決大模型目前存在的三大問(wèn)題。一是能夠把實(shí)時(shí)的知識(shí)、變化的信息放到大模型中,二是能夠校正結(jié)果的準(zhǔn)確性,極大地提升精準(zhǔn)度,三是構(gòu)建相應(yīng)的知識(shí)圖譜,增強(qiáng)大模型的能力。
在星環(huán)科技此次推出的金融領(lǐng)域大模型“無(wú)涯”中,基于星環(huán)科技自身在金融領(lǐng)域積累的上百萬(wàn)金融專業(yè)領(lǐng)域的語(yǔ)料,結(jié)合圖數(shù)據(jù)庫(kù)StellarDB、深度圖推理算法技術(shù),形成了大規(guī)模高質(zhì)量的金融類事件訓(xùn)練指令集,共同鑄就了星環(huán)開(kāi)發(fā)金融領(lǐng)域大語(yǔ)言模型的堅(jiān)實(shí)底座。星環(huán)“無(wú)涯”大模型能夠理解金融行業(yè)的術(shù)語(yǔ),也能夠執(zhí)行特定的任務(wù),比如分析上市公司的年報(bào)、公告,生成新聞?wù)袛嗵囟ㄐ侣勈录a(chǎn)生的影響等,提升分析師、研究員、投資經(jīng)理的效率。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )