精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 7x24h快訊 > 極客快訊 >

Sobot 智齒科技：AIGC給「構(gòu)建企業(yè)知識(shí)庫(kù)」帶來(lái)的改變

人閱讀
2023-06-13 14:31:35
來(lái)源：中華網(wǎng)
相關(guān)關(guān)鍵詞
- 智齒科技
- AIGC

智能客服機(jī)器人的核心是企業(yè)知識(shí)，而企業(yè)知識(shí)獲取的核心步驟，是企業(yè)知識(shí)庫(kù)的構(gòu)建。

構(gòu)建邏輯是：結(jié)構(gòu)化企業(yè)數(shù)據(jù)，存入企業(yè)問(wèn)答知識(shí)庫(kù)。之后，根據(jù)知識(shí)庫(kù)進(jìn)行線上的FAQ問(wèn)答(基于常見(jiàn)問(wèn)答對(duì)的)、MRC問(wèn)答(基于機(jī)器閱讀的)等，對(duì)應(yīng)構(gòu)建形成 {問(wèn)題：答案}、{文檔}等知識(shí)庫(kù)。

過(guò)往，這種企業(yè)知識(shí)庫(kù)的構(gòu)建，都是離線的、耗時(shí)的、需要人工反復(fù)校驗(yàn)的。尤其是上線后，為了提高機(jī)器人的問(wèn)答準(zhǔn)確率，就需要運(yùn)營(yíng)人員基于具體業(yè)務(wù)去持續(xù)做優(yōu)化，如用戶關(guān)鍵詞抽取、實(shí)體抽取、同義詞理解等等，耗時(shí)很多。

在AIGC時(shí)代，這一切都將改變。

構(gòu)建知識(shí)庫(kù)的速度和問(wèn)答準(zhǔn)確率，都將極大提升。主要是因?yàn)閿?shù)據(jù)來(lái)源更容易無(wú)限擴(kuò)展，不再局限于結(jié)構(gòu)化、半結(jié)構(gòu)化的企業(yè)文檔，說(shuō)明書(shū)，文字、語(yǔ)音、圖片、視頻等都可以被快速提取出有效信息，輸入給大型預(yù)訓(xùn)練語(yǔ)言模型理解后問(wèn)答，或者直接存儲(chǔ)到知識(shí)庫(kù)中，搜索后推出，也可二者結(jié)合。

1. FAQ文本知識(shí)庫(kù)

FAQ(Frequently Asked Questions)，即常見(jiàn)問(wèn)題解答，是指整理和歸納常見(jiàn)問(wèn)題及其對(duì)應(yīng)答案的文檔或資源集合。這些問(wèn)題通常是某個(gè)業(yè)務(wù)場(chǎng)景下，客戶會(huì)經(jīng)常遇到的問(wèn)題，可以幫助客服機(jī)器人快速、準(zhǔn)確地解決常見(jiàn)問(wèn)題，提升客戶滿意度。

FAQ文本知識(shí)庫(kù)的創(chuàng)建、擴(kuò)寫對(duì)運(yùn)營(yíng)崗位的消耗較大。舉個(gè)簡(jiǎn)單的例子：

query: “工作過(guò)多個(gè)城市，現(xiàn)在如何查詢自己的公積金是屬于哪個(gè)公積金中心?”。

我們需要對(duì)這個(gè)query擴(kuò)展相似問(wèn)，自動(dòng)生成多個(gè)相似問(wèn)。通過(guò)這種方式快速豐富知識(shí)庫(kù)問(wèn)題，同時(shí)提高實(shí)際線上問(wèn)答的語(yǔ)義搜索結(jié)果可靠性。

就在這個(gè)過(guò)程中，擴(kuò)展生成的相似問(wèn)，需要經(jīng)過(guò)多步自動(dòng)化校驗(yàn)，包括答案一致性校驗(yàn)、口語(yǔ)化校驗(yàn)、相似性校驗(yàn)、屬性分類校驗(yàn)等等。

答案一致性校驗(yàn)是指“從擴(kuò)展的相似問(wèn)題中，那些與原始query的標(biāo)準(zhǔn)答案相關(guān)，且該標(biāo)準(zhǔn)答案能對(duì)其進(jìn)行解答的問(wèn)題”。這樣，它們有可能組成標(biāo)準(zhǔn)問(wèn)題-相似問(wèn)題對(duì)，答案也相同。

下面是通過(guò)答案一致性校驗(yàn)的相似問(wèn)：

圖片2.jpg

通過(guò)答案一致性校驗(yàn)后，還是會(huì)有很多問(wèn)題。例如：

很多問(wèn)題是有效問(wèn)題，卻不是該業(yè)務(wù)下的常見(jiàn)表述，簡(jiǎn)單來(lái)說(shuō)就是不夠口語(yǔ)化。這些問(wèn)題，不僅會(huì)增加知識(shí)庫(kù)的冗余，還會(huì)影響其他業(yè)務(wù)的搜索結(jié)果。針對(duì)這類問(wèn)題還需要進(jìn)行口語(yǔ)化校驗(yàn)，校驗(yàn)后保留如下：

圖片3.jpg

經(jīng)過(guò)上述校驗(yàn)的問(wèn)答對(duì)，往往還會(huì)存在一個(gè)問(wèn)題，就是相似性過(guò)高。這些問(wèn)題，往往只是簡(jiǎn)單換了個(gè)詞匯，存儲(chǔ)知識(shí)庫(kù)的必要性低。因此，我們還需要做一輪相似性校驗(yàn)，具體來(lái)說(shuō)，就是根據(jù)業(yè)務(wù)特性設(shè)定去除和保留比例，通過(guò)聚類、相似度計(jì)算去除冗余部分。校驗(yàn)后保留如下：

圖片4.jpg

可以看到，經(jīng)過(guò)系列校驗(yàn)后，保留下來(lái)的相似問(wèn)已經(jīng)有很高的質(zhì)量了。

在知識(shí)庫(kù)的的構(gòu)建方面，除了標(biāo)準(zhǔn)問(wèn)、相似問(wèn)的生成，還必須關(guān)注業(yè)務(wù)覆蓋率這個(gè)指標(biāo)，一般來(lái)說(shuō)，業(yè)務(wù)覆蓋率越高，知識(shí)庫(kù)的質(zhì)量也越高。

例如，“公積金”查詢會(huì)涉及地點(diǎn)、時(shí)間、金額、查詢方式、繳費(fèi)方式等問(wèn)題維度，維度越多，覆蓋率就越高。

舉個(gè)例子：可對(duì)“公積金歸屬地查詢”這個(gè)原始問(wèn)題拓展出的所有相似問(wèn)題，進(jìn)行分類，進(jìn)一步發(fā)現(xiàn)更多有價(jià)值的句子。從下面分類結(jié)果看到，其中的類別1和原始問(wèn)題答案相同，其他類別下的問(wèn)題，是“公積金”相關(guān)的其他維度的業(yè)務(wù)問(wèn)題，只是答案和原始問(wèn)題的可能不同。那么，這些句子如果能加入知識(shí)庫(kù)，就拓展了“公積金”相關(guān)的業(yè)務(wù)覆蓋率。

對(duì)上面初始拓展的39個(gè)問(wèn)題，分類如下：

類別1：公積金歸屬地的基本查詢。

詢問(wèn)如何查詢公積金的歸屬地，包括城市、地區(qū)、省份、縣、區(qū)等，關(guān)注點(diǎn)尋找基本的位置信息。

分類結(jié)果包含：1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 16, 18, 19, 21, 22, 24, 25, 27, 28, 30, 31, 33, 34, 37。

類別2：公積金歸屬地查詢的具體步驟和流程

關(guān)注查詢公積金歸屬地的步驟、流程，關(guān)注點(diǎn)是更詳細(xì)的查詢指導(dǎo)。

分類結(jié)果包含：11, 23。

類別3：公積金歸屬地查詢的工具和平臺(tái)

詢問(wèn)關(guān)于查詢公積金歸屬地的工具、軟件、系統(tǒng)、平臺(tái)、網(wǎng)址等，關(guān)注點(diǎn)是查詢工具和平臺(tái)的選擇。

分類結(jié)果包含：14, 17, 20, 26, 29, 32, 35, 38。

類別4：公積金歸屬地的詳細(xì)信息查詢

詢問(wèn)如何查詢公積金歸屬地的具體地址、郵編、電話號(hào)碼、郵寄地址等詳細(xì)信息，關(guān)注點(diǎn)獲取更具體的信息。

分類結(jié)果包含：15, 24, 27, 30, 33, 36, 39。

上面分類后的類別2、類別3、類別4，是經(jīng)過(guò)答案一致性校驗(yàn)后，被排除的。查詢知識(shí)庫(kù)如果有相似query或答案，可進(jìn)入到下一輪的自動(dòng)化校驗(yàn)，對(duì)符合條件的可人工校驗(yàn)入庫(kù)。另外，新增的這些問(wèn)題，還可做預(yù)測(cè)性的FAQ (PFAQ)，預(yù)測(cè)用戶可能會(huì)遇到的問(wèn)題，并提前提供問(wèn)答。

2. MRC文本知識(shí)庫(kù)

MRC問(wèn)答，也就是機(jī)器閱讀理解(Machine Reading Comprehension)的問(wèn)答，系統(tǒng)通過(guò)閱讀和理解自然語(yǔ)言文本，并根據(jù)這些文本回答給定的問(wèn)題。在我們的機(jī)器人中，是將query和與它最相關(guān)的文本塊給與LLM，輸出answer。

通過(guò)文檔上傳，文檔切片分塊，向量化存儲(chǔ)后，即可語(yǔ)義搜索。問(wèn)答時(shí)，根據(jù)文檔搜索結(jié)果和query一起加入Prompt，輸入LLM理解后回答。

受限于語(yǔ)言模型的理解能力，過(guò)往的MRC的問(wèn)答效果一般?，F(xiàn)在，結(jié)合LLM模型，文檔理解和問(wèn)答的準(zhǔn)確性，已經(jīng)能解決常見(jiàn)問(wèn)題。

在智能問(wèn)答客服機(jī)器人中，為進(jìn)一步提高問(wèn)答效果，對(duì)于分塊文檔，還可增加問(wèn)答對(duì)的抽取。一方面結(jié)合原始的分塊文檔，可以提高query理解的準(zhǔn)確性，另一方面，對(duì)于文檔切片后引起的塊內(nèi)知識(shí)不完全，是個(gè)很好的補(bǔ)充。

常用的tricks，比如在原有的文檔切片的基礎(chǔ)上，提取摘要、關(guān)鍵詞、關(guān)鍵句等信息，作為補(bǔ)充，也可提取問(wèn)答對(duì)作為補(bǔ)充。

問(wèn)答對(duì)的提取如下，例如分塊后的文檔如下：

進(jìn)行問(wèn)答對(duì)抽取，得到如下：

通過(guò)對(duì)切片后的文檔進(jìn)行問(wèn)答對(duì)抽取，可以快速完成多源數(shù)據(jù)的知識(shí)庫(kù)構(gòu)建。

更重要的是，這種文檔的直接切片分塊，知識(shí)構(gòu)建，在文檔上傳后，即可進(jìn)行智能問(wèn)答。好處是，快速更新的企業(yè)知識(shí)，也能夠快速應(yīng)用在業(yè)務(wù)中。

以上方法構(gòu)建的企業(yè)知識(shí)庫(kù)，生成校驗(yàn)極快。并且在機(jī)器人的問(wèn)答準(zhǔn)確性上，結(jié)合模型強(qiáng)大的理解能力，語(yǔ)義搜索后的多個(gè)潛在答案通過(guò)LLM進(jìn)一步加工，答案準(zhǔn)確性極高。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）

極客觀察

贊助商

簡(jiǎn)版
原版
投稿
回頂部