今年以來,大模型如雨后春筍在海內(nèi)外得到廣泛應(yīng)用,但直接落地到企業(yè)存在諸多痛點(diǎn):對業(yè)務(wù)場景理解有限,知識產(chǎn)出質(zhì)量較差;企業(yè)核心知識又難以共享,外部模型的使用存在安全與合規(guī)風(fēng)險(xiǎn)。為解決這些痛點(diǎn),將大模型與企業(yè)內(nèi)部知識庫深度融合,可發(fā)揮各自技術(shù)優(yōu)勢,實(shí)現(xiàn)快速遷移。作為企業(yè)級知識管理系統(tǒng)的領(lǐng)軍企業(yè),深藍(lán)海域進(jìn)行了系列技術(shù)探索,有效推動了模型與知識庫的零成本融合。
一、大模型與企業(yè)知識庫融合的技術(shù)挑戰(zhàn)
眾所周知,企業(yè)內(nèi)部構(gòu)建的知識庫中往往存有大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),覆蓋了各類業(yè)務(wù)規(guī)則、流程、案例等專業(yè)信息,可以為模型提供海量的優(yōu)質(zhì)培訓(xùn)素材。但實(shí)現(xiàn)落地應(yīng)用仍存在諸多技術(shù)難題:
1. 專業(yè)知識的理解與適配
大模型對企業(yè)專業(yè)知識的理解有限,而知識庫中的業(yè)務(wù)概念復(fù)雜多樣,如何使模型快速適配專業(yè)知識,提高輸出質(zhì)量,是實(shí)現(xiàn)高效融合的難點(diǎn)之一。
2.多源異構(gòu)數(shù)據(jù)的統(tǒng)一管理
企業(yè)的數(shù)據(jù)不僅存在于知識庫中,還分布在公司的多個(gè)異構(gòu)系統(tǒng)和數(shù)據(jù)庫里。如何將這些多源異構(gòu)的數(shù)據(jù)(不僅限于知識)進(jìn)行有效地關(guān)聯(lián)和挖掘,并最終統(tǒng)一匯總到一個(gè)集成的平臺或模型中,實(shí)現(xiàn)企業(yè)數(shù)據(jù)和知識的有效連接、管理和應(yīng)用。
3. 數(shù)據(jù)隔離與安全管控
企業(yè)知識庫中存有大量業(yè)務(wù)機(jī)密與核心競爭信息,需要確保數(shù)據(jù)安全。而公開大模型的訓(xùn)練和使用會產(chǎn)生數(shù)據(jù)泄露風(fēng)險(xiǎn)。如何在模型培訓(xùn)與使用中實(shí)現(xiàn)數(shù)據(jù)的隔離與管控,是企業(yè)應(yīng)用的首要難題。
4. 技術(shù)環(huán)境差異與成本高昂
大模型的訓(xùn)練與部署對算力提出極高要求,與企業(yè)技術(shù)環(huán)境存在差異。而部署和遷移大模型需要占用大量計(jì)算資源,存在一定成本,因此,如何縮減技術(shù)接入成本是一個(gè)難點(diǎn)。
5. 用戶交互的連續(xù)性與上下文理解
知識問答與會話式交互對上下文理解和連續(xù)性有更高要求。如何實(shí)現(xiàn)深度交互式問答也是一個(gè)難點(diǎn)。
總體來說,實(shí)現(xiàn)零成本落地,提升質(zhì)量,保證安全,是大模型與企業(yè)知識庫融合面臨的核心技術(shù)挑戰(zhàn)。業(yè)內(nèi)亟需突破與創(chuàng)新來推動大型模型真正進(jìn)入應(yīng)用領(lǐng)域。
二、深藍(lán)海域的技術(shù)方案的創(chuàng)新實(shí)踐
為促進(jìn)大模型順利落地企業(yè)知識管理,減少甚至消除接入成本,深藍(lán)海域進(jìn)行了一系列技術(shù)創(chuàng)新,實(shí)現(xiàn)模型與知識庫的深度融合。
1. 搜索引擎技術(shù)的應(yīng)用與創(chuàng)新
傳統(tǒng)搜索依賴關(guān)鍵詞匹配存在局限性。深藍(lán)海域整合全文搜索、原子化搜索、大模型問答、知識加工等多種搜索模式,實(shí)現(xiàn)了大模型生成答案結(jié)果的溯源,查閱追蹤其引用、參考的知識來源等,平衡可信與創(chuàng)新。值得一提的是深藍(lán)小魚智答系統(tǒng)通過預(yù)訓(xùn)練模型和領(lǐng)域知識微調(diào),實(shí)現(xiàn)了對專業(yè)知識的精準(zhǔn)表達(dá)和建模。
2.向量檢索與知識切分技術(shù)
深藍(lán)海域利用不同算法對企業(yè)知識進(jìn)行細(xì)粒度切分,使每個(gè)知識點(diǎn)簇都可以被獨(dú)立向量化表達(dá)。這就實(shí)現(xiàn)了對非結(jié)構(gòu)化專業(yè)知識的精準(zhǔn)表示和建模。同時(shí),不同粒度的知識切分也參與向量空間的統(tǒng)一建構(gòu)。搜索時(shí),可以準(zhǔn)確匹配每個(gè)知識碎片的語義信息。這就像拼圖游戲一樣,從細(xì)微處出發(fā),最終達(dá)成對企業(yè)整體知識圖譜的還原和重構(gòu)。這樣,就能夠在海量的知識碎片中定位到用戶提問問題相關(guān)性最強(qiáng)的片段,從而提供給大模型準(zhǔn)確的知識來源,用于解答用戶的問題,減少大模型回答問題的“幻覺”。
3. 系統(tǒng)架構(gòu)設(shè)計(jì)的安全與控制保障
深藍(lán)海域構(gòu)建了涵蓋數(shù)據(jù)采集、模型訓(xùn)練、預(yù)測服務(wù)的一整套安全系統(tǒng)架構(gòu)。環(huán)境全部運(yùn)行于企業(yè)內(nèi)部網(wǎng)絡(luò),實(shí)現(xiàn)了數(shù)據(jù)和模型的嚴(yán)密訪問控制。數(shù)據(jù)流動全程加密傳輸,算法模塊采用嚴(yán)格的權(quán)限控制,核心模型組件甚至可以做到單獨(dú)隔離。上述設(shè)計(jì)確保了從數(shù)據(jù)源到模型輸出的全鏈路安全,極大降低了核心知識泄密風(fēng)險(xiǎn),使得方案可以安全可控地應(yīng)用與企業(yè)生產(chǎn)環(huán)境。在使用大模型進(jìn)行提問時(shí),首先是由知識庫來決定哪些知識和知識原子是當(dāng)前用戶被授權(quán)使用的,只有得到授權(quán)的知識和知識原子才可以被大模型調(diào)用,用來生成答案。
4.低成本模型遷移技術(shù)
深藍(lán)海域支持使用低成本的推理計(jì)算資源,快速落地體現(xiàn)成果,項(xiàng)目前期投入風(fēng)險(xiǎn)低。支持多種大模型集成對接,允許靈活的部署選擇大模型的尺寸,支持API調(diào)用、本地私有化部署,實(shí)現(xiàn)快速落地大模型的部署安裝與業(yè)務(wù)對接。這使得企業(yè)可以輕松使用先進(jìn)的對話模型,卻無需付出昂貴的技術(shù)與資源成本。
5. 對話增強(qiáng)技術(shù)的創(chuàng)新運(yùn)用
深藍(lán)海域提供多輪對話、全庫智答、知識加工等能力,支持上下文理解和連續(xù)性。系統(tǒng)能夠基于單篇知識內(nèi)容進(jìn)行詳細(xì)的提問和解答,幫助用戶快速定位知識點(diǎn),使得模型可以連貫理解會話流程,極大提高了復(fù)雜問題、連環(huán)問答的正確率,實(shí)現(xiàn)了從零開始快速遷移模型至特定業(yè)務(wù)場景,避免全量重訓(xùn)帶來的高昂成本。
數(shù)據(jù)顯示,深藍(lán)海域大模型+企業(yè)知識庫技術(shù)方案與客戶的企業(yè)知識庫實(shí)現(xiàn)了零接入。應(yīng)用于某大型跨境貿(mào)易企業(yè)后,提升了客戶重復(fù)問題自助解決率超60%。另一工業(yè)制造企業(yè)在應(yīng)用員工培訓(xùn)問答平臺后,日均問答量提升至3000+,整體工作效率顯著改善。
通過搜索引擎、對話增強(qiáng)等核心技術(shù)的創(chuàng)新應(yīng)用,深藍(lán)海域?qū)崿F(xiàn)了模型與知識庫的零成本對接,并解決了效率、質(zhì)量與安全的關(guān)鍵挑戰(zhàn)。此類融合無疑是大模型落地企業(yè)的重要一環(huán)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )