智能客服機(jī)器人的核心是企業(yè)知識(shí),而企業(yè)知識(shí)獲取的核心步驟,是企業(yè)知識(shí)庫(kù)的構(gòu)建。
構(gòu)建邏輯是:結(jié)構(gòu)化企業(yè)數(shù)據(jù),存入企業(yè)問(wèn)答知識(shí)庫(kù)。之后,根據(jù)知識(shí)庫(kù)進(jìn)行線上的FAQ問(wèn)答(基于常見(jiàn)問(wèn)答對(duì)的)、MRC問(wèn)答(基于機(jī)器閱讀的)等,對(duì)應(yīng)構(gòu)建形成 {問(wèn)題:答案}、{文檔}等知識(shí)庫(kù)。
過(guò)往,這種企業(yè)知識(shí)庫(kù)的構(gòu)建,都是離線的、耗時(shí)的、需要人工反復(fù)校驗(yàn)的。尤其是上線后,為了提高機(jī)器人的問(wèn)答準(zhǔn)確率,就需要運(yùn)營(yíng)人員基于具體業(yè)務(wù)去持續(xù)做優(yōu)化,如用戶關(guān)鍵詞抽取、實(shí)體抽取、同義詞理解等等,耗時(shí)很多。
在AIGC時(shí)代,這一切都將改變。
構(gòu)建知識(shí)庫(kù)的速度和問(wèn)答準(zhǔn)確率,都將極大提升。主要是因?yàn)閿?shù)據(jù)來(lái)源更容易無(wú)限擴(kuò)展,不再局限于結(jié)構(gòu)化、半結(jié)構(gòu)化的企業(yè)文檔,說(shuō)明書(shū),文字、語(yǔ)音、圖片、視頻等都可以被快速提取出有效信息,輸入給大型預(yù)訓(xùn)練語(yǔ)言模型理解后問(wèn)答,或者直接存儲(chǔ)到知識(shí)庫(kù)中,搜索后推出,也可二者結(jié)合。
1. FAQ文本知識(shí)庫(kù)
FAQ(Frequently Asked Questions),即常見(jiàn)問(wèn)題解答,是指整理和歸納常見(jiàn)問(wèn)題及其對(duì)應(yīng)答案的文檔或資源集合。這些問(wèn)題通常是某個(gè)業(yè)務(wù)場(chǎng)景下,客戶會(huì)經(jīng)常遇到的問(wèn)題,可以幫助客服機(jī)器人快速、準(zhǔn)確地解決常見(jiàn)問(wèn)題,提升客戶滿意度。
FAQ文本知識(shí)庫(kù)的創(chuàng)建、擴(kuò)寫對(duì)運(yùn)營(yíng)崗位的消耗較大。舉個(gè)簡(jiǎn)單的例子:
query: “工作過(guò)多個(gè)城市,現(xiàn)在如何查詢自己的公積金是屬于哪個(gè)公積金中心?”。
我們需要對(duì)這個(gè)query擴(kuò)展相似問(wèn),自動(dòng)生成多個(gè)相似問(wèn)。通過(guò)這種方式快速豐富知識(shí)庫(kù)問(wèn)題,同時(shí)提高實(shí)際線上問(wèn)答的語(yǔ)義搜索結(jié)果可靠性。
就在這個(gè)過(guò)程中,擴(kuò)展生成的相似問(wèn),需要經(jīng)過(guò)多步自動(dòng)化校驗(yàn),包括答案一致性校驗(yàn)、口語(yǔ)化校驗(yàn)、相似性校驗(yàn)、屬性分類校驗(yàn)等等。
答案一致性校驗(yàn)是指“從擴(kuò)展的相似問(wèn)題中,那些與原始query的標(biāo)準(zhǔn)答案相關(guān),且該標(biāo)準(zhǔn)答案能對(duì)其進(jìn)行解答的問(wèn)題”。這樣,它們有可能組成標(biāo)準(zhǔn)問(wèn)題-相似問(wèn)題對(duì),答案也相同。
下面是通過(guò)答案一致性校驗(yàn)的相似問(wèn):
通過(guò)答案一致性校驗(yàn)后,還是會(huì)有很多問(wèn)題。例如:
很多問(wèn)題是有效問(wèn)題,卻不是該業(yè)務(wù)下的常見(jiàn)表述,簡(jiǎn)單來(lái)說(shuō)就是不夠口語(yǔ)化。這些問(wèn)題,不僅會(huì)增加知識(shí)庫(kù)的冗余,還會(huì)影響其他業(yè)務(wù)的搜索結(jié)果。針對(duì)這類問(wèn)題還需要進(jìn)行口語(yǔ)化校驗(yàn),校驗(yàn)后保留如下:
經(jīng)過(guò)上述校驗(yàn)的問(wèn)答對(duì),往往還會(huì)存在一個(gè)問(wèn)題,就是相似性過(guò)高。這些問(wèn)題,往往只是簡(jiǎn)單換了個(gè)詞匯,存儲(chǔ)知識(shí)庫(kù)的必要性低。因此,我們還需要做一輪相似性校驗(yàn),具體來(lái)說(shuō),就是根據(jù)業(yè)務(wù)特性設(shè)定去除和保留比例,通過(guò)聚類、相似度計(jì)算去除冗余部分。校驗(yàn)后保留如下:
可以看到,經(jīng)過(guò)系列校驗(yàn)后,保留下來(lái)的相似問(wèn)已經(jīng)有很高的質(zhì)量了。
在知識(shí)庫(kù)的的構(gòu)建方面,除了標(biāo)準(zhǔn)問(wèn)、相似問(wèn)的生成,還必須關(guān)注業(yè)務(wù)覆蓋率這個(gè)指標(biāo),一般來(lái)說(shuō),業(yè)務(wù)覆蓋率越高,知識(shí)庫(kù)的質(zhì)量也越高。
例如,“公積金”查詢會(huì)涉及地點(diǎn)、時(shí)間、金額、查詢方式、繳費(fèi)方式等問(wèn)題維度,維度越多,覆蓋率就越高。
舉個(gè)例子:可對(duì)“公積金歸屬地查詢”這個(gè)原始問(wèn)題拓展出的所有相似問(wèn)題,進(jìn)行分類,進(jìn)一步發(fā)現(xiàn)更多有價(jià)值的句子。從下面分類結(jié)果看到,其中的類別1和原始問(wèn)題答案相同,其他類別下的問(wèn)題,是“公積金”相關(guān)的其他維度的業(yè)務(wù)問(wèn)題,只是答案和原始問(wèn)題的可能不同。那么,這些句子如果能加入知識(shí)庫(kù),就拓展了“公積金”相關(guān)的業(yè)務(wù)覆蓋率。
對(duì)上面初始拓展的39個(gè)問(wèn)題,分類如下:
類別1:公積金歸屬地的基本查詢。
詢問(wèn)如何查詢公積金的歸屬地,包括城市、地區(qū)、省份、縣、區(qū)等,關(guān)注點(diǎn)尋找基本的位置信息。
分類結(jié)果包含:1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 16, 18, 19, 21, 22, 24, 25, 27, 28, 30, 31, 33, 34, 37。
類別2:公積金歸屬地查詢的具體步驟和流程
關(guān)注查詢公積金歸屬地的步驟、流程,關(guān)注點(diǎn)是更詳細(xì)的查詢指導(dǎo)。
分類結(jié)果包含:11, 23。
類別3:公積金歸屬地查詢的工具和平臺(tái)
詢問(wèn)關(guān)于查詢公積金歸屬地的工具、軟件、系統(tǒng)、平臺(tái)、網(wǎng)址等,關(guān)注點(diǎn)是查詢工具和平臺(tái)的選擇。
分類結(jié)果包含:14, 17, 20, 26, 29, 32, 35, 38。
類別4:公積金歸屬地的詳細(xì)信息查詢
詢問(wèn)如何查詢公積金歸屬地的具體地址、郵編、電話號(hào)碼、郵寄地址等詳細(xì)信息,關(guān)注點(diǎn)獲取更具體的信息。
分類結(jié)果包含:15, 24, 27, 30, 33, 36, 39。
上面分類后的類別2、類別3、類別4,是經(jīng)過(guò)答案一致性校驗(yàn)后,被排除的。查詢知識(shí)庫(kù)如果有相似query或答案,可進(jìn)入到下一輪的自動(dòng)化校驗(yàn),對(duì)符合條件的可人工校驗(yàn)入庫(kù)。另外,新增的這些問(wèn)題,還可做預(yù)測(cè)性的FAQ (PFAQ),預(yù)測(cè)用戶可能會(huì)遇到的問(wèn)題,并提前提供問(wèn)答。
2. MRC文本知識(shí)庫(kù)
MRC問(wèn)答,也就是機(jī)器閱讀理解(Machine Reading Comprehension)的問(wèn)答,系統(tǒng)通過(guò)閱讀和理解自然語(yǔ)言文本,并根據(jù)這些文本回答給定的問(wèn)題。在我們的機(jī)器人中,是將query和與它最相關(guān)的文本塊給與LLM,輸出answer。
通過(guò)文檔上傳,文檔切片分塊,向量化存儲(chǔ)后,即可語(yǔ)義搜索。問(wèn)答時(shí),根據(jù)文檔搜索結(jié)果和query一起加入Prompt,輸入LLM理解后回答。
受限于語(yǔ)言模型的理解能力,過(guò)往的MRC的問(wèn)答效果一般?,F(xiàn)在,結(jié)合LLM模型, 文檔理解和問(wèn)答的準(zhǔn)確性,已經(jīng)能解決常見(jiàn)問(wèn)題。
在智能問(wèn)答客服機(jī)器人中,為進(jìn)一步提高問(wèn)答效果,對(duì)于分塊文檔,還可增加問(wèn)答對(duì)的抽取。一方面結(jié)合原始的分塊文檔,可以提高query理解的準(zhǔn)確性,另一方面,對(duì)于文檔切片后引起的塊內(nèi)知識(shí)不完全,是個(gè)很好的補(bǔ)充。
常用的tricks,比如在原有的文檔切片的基礎(chǔ)上,提取摘要、關(guān)鍵詞、關(guān)鍵句等信息,作為補(bǔ)充,也可提取問(wèn)答對(duì)作為補(bǔ)充。
問(wèn)答對(duì)的提取如下,例如分塊后的文檔如下:
進(jìn)行問(wèn)答對(duì)抽取,得到如下:
通過(guò)對(duì)切片后的文檔進(jìn)行問(wèn)答對(duì)抽取,可以快速完成多源數(shù)據(jù)的知識(shí)庫(kù)構(gòu)建。
更重要的是,這種文檔的直接切片分塊,知識(shí)構(gòu)建,在文檔上傳后,即可進(jìn)行智能問(wèn)答。好處是,快速更新的企業(yè)知識(shí),也能夠快速應(yīng)用在業(yè)務(wù)中。
以上方法構(gòu)建的企業(yè)知識(shí)庫(kù),生成校驗(yàn)極快。并且在機(jī)器人的問(wèn)答準(zhǔn)確性上,結(jié)合模型強(qiáng)大的理解能力,語(yǔ)義搜索后的多個(gè)潛在答案通過(guò)LLM進(jìn)一步加工,答案準(zhǔn)確性極高。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )