視頻、語音、文本是拉動人工智能發(fā)展的三駕馬車,但是,相比視頻和語音,文本智能處理更難突破。成立于2015年的達觀數(shù)據(jù)是一家專注于文本智能處理的公司,基于自然語言處理、知識圖譜等技術(shù),為客戶提供文本自動抽取、審核、糾錯、搜索、推薦、寫作等智能軟件系統(tǒng),實現(xiàn)業(yè)務(wù)流程自動化,提高企業(yè)效率。近日,達觀數(shù)據(jù)CEO陳運文博士向億歐分享了文本智能處理技術(shù)和應(yīng)用現(xiàn)狀。
文本挖掘工作一半是技術(shù)一半是藝術(shù)
在人類過去大概100萬年的進化過程中,人類文明迭代速度很慢,但文字的出現(xiàn)使其陡然加速,為人類文明帶來了光和熱。隨著技術(shù)的發(fā)展,文字處理工作也由人工轉(zhuǎn)化為計算機。文本挖掘工作經(jīng)歷了第一代符號主義、第二代語法規(guī)則、第三代統(tǒng)計學(xué)習(xí),目前處于第四代深度學(xué)習(xí)階段,將實現(xiàn)用一個復(fù)雜的模型模擬人腦神經(jīng)網(wǎng)絡(luò)運作。
在文本挖掘技術(shù)上,達觀數(shù)據(jù)一直走在行業(yè)前沿。達觀數(shù)據(jù)文檔審核系統(tǒng)2.0在深度學(xué)習(xí)的基礎(chǔ)上采用了遷移學(xué)習(xí)和增強學(xué)習(xí),可實現(xiàn)注意力模型、BERT模型等,這也被稱為4.5代技術(shù)。陳運文表示,4.5代技術(shù)的使用可以加強機器的泛化能力,即提高機器對于文字的自適應(yīng)理解能力或者說舉一反三能力,這將大大縮減訓(xùn)練成本。
陳運文認(rèn)為:“文本挖掘工作,一半是技術(shù),一半是藝術(shù)。”文本挖掘工作需要慢工出細(xì)活,通過對文字的深入理解來探討如何使用數(shù)學(xué)模型更好的進行文字解讀。但是,從數(shù)學(xué)模型角度來講,很多時候文字的運用是不符合常理的。例如,“天很冷,能穿多少穿多少”和“天很熱,能穿多少穿多少”,同樣是“能穿多少穿多少”,但表達的是兩個意思。所以文本挖掘工作,它既是一個數(shù)學(xué)問題,通過后臺大量的數(shù)學(xué)運算對文字進行解讀,同時也需要將語言學(xué)等偏藝術(shù)領(lǐng)域的知識納入進去,才能讓計算機更好的解讀文字,甚至代替人完成一部分文字撰寫的工作。
NLP+RPA解放白領(lǐng)的手和腦
陳運文創(chuàng)業(yè)之前曾擔(dān)任盛大文學(xué)首席數(shù)據(jù)官、騰訊文學(xué)高級總監(jiān)、百度核心技術(shù)研發(fā)工程師等職位,一直從事文本挖掘相關(guān)工作。他發(fā)現(xiàn),工作中有60%左右的內(nèi)容都是與文字相關(guān),文字資料的處理和應(yīng)用在互聯(lián)網(wǎng)企業(yè)內(nèi)部雖然發(fā)揮了很大價值但沒有實現(xiàn)價值最大化。反而,在一些其他行業(yè),人工智能技術(shù)應(yīng)用還處于早期狀態(tài),大量工作靠人手工記錄,NLP和RPA的結(jié)合將可以實現(xiàn)白領(lǐng)部分工作的自動化。
NLP (Natural Language Processing) ,自然語言處理可以讓計算機模擬白領(lǐng)的大腦運轉(zhuǎn),實現(xiàn)閱讀和理解;RPA(Robotic Process Automation),機器人流程自動化可以模擬白領(lǐng)的手去進行鼠標(biāo)和鍵盤的操作,實現(xiàn)自動化。如果只有RPA技術(shù),計算機只能承擔(dān)初級的工作,但是有了NLP技術(shù)的幫助,就可以做更復(fù)雜的任務(wù),真正承擔(dān)起虛擬員工的角色。
陳運文認(rèn)為,NLP+RPA在中國大有可為,將是一片藍海市場。首先,技術(shù)走向成熟,國內(nèi)RPA技術(shù)雖剛剛起步,但國外已經(jīng)有許多成熟的應(yīng)用。同時,UiPath、BluePrism等國外RPA企業(yè)也在通過不同的形式向中國市場滲透。其次,NLP+RPA可以明顯降低企業(yè)成本,帶來高回報率。根據(jù)IBM在《使用人工智能優(yōu)化機器人流程自動化的價值》報告中的估算,通過RPA可實現(xiàn) 30% 到 50% 的投資回報率 (ROI)。最后,市場規(guī)模大。據(jù)《全球人工智能市場2017-2021》報告披露的數(shù)據(jù),RPA的市場規(guī)模預(yù)計將在2024年達到50億美元,復(fù)合增長率達到61.3%。在亞太地區(qū),RPA的市場規(guī)模預(yù)計在2021年達到8.17億美元,在此期間的增長率將達到181%。
金融行業(yè)是NLP+RPA落地的重要領(lǐng)域
NLP+RPA主要替代一些高重復(fù)、標(biāo)準(zhǔn)化、規(guī)則明確且高準(zhǔn)確率要求的工作。金融行業(yè)過半員工在與文本合同打交道,但是他們90%的工作都是可以被替代的。
以信貸業(yè)務(wù)為例,貸前基于OCR可以幫助銀行工作人員對提交材料進行人物、事件、數(shù)值等關(guān)鍵信息抽取和審核;貸中支持合同多版本比對,對合同關(guān)鍵要素進行智能審核,防止陰陽合同風(fēng)險;貸后對貸款項目評估報告關(guān)鍵信息提取及結(jié)構(gòu)化,并對企業(yè)進行實時輿情分析監(jiān)控,實現(xiàn)有效跟蹤和監(jiān)督。
目前,達觀數(shù)據(jù)已服務(wù)招商銀行、中國平安、光大銀行等數(shù)十家金融機構(gòu)。陳運文認(rèn)為,金融行業(yè)對NLP+RPA的需求非常大,RPA具有非侵入性的特點,以外掛/插件的形式部署在客戶現(xiàn)有系統(tǒng)上,不影響其原有的成熟IT架構(gòu),部署成本較低。考慮到銀行的個性化定制需求,達觀在產(chǎn)品設(shè)計之初就特別重視產(chǎn)品的可擴展性。一方面,產(chǎn)品本身就支持客戶進行自定義規(guī)則,滿足自定制需求;另一方面,達觀也會不斷總結(jié)行業(yè)知識圖譜,升級產(chǎn)品,通過連接銀行內(nèi)網(wǎng)的形式,幫助銀行升級語料庫和算法模型。
未來:文本智能處理專家
陳運文表示,我們將堅定的在文本智能處理這條路上走到頭,成為“文本智能處理專家”。2019年達觀數(shù)據(jù)一方面不斷積累海量的文本資料讓計算機訓(xùn)練,另一方面不斷深挖現(xiàn)有的算法模型,重視基礎(chǔ)技術(shù)的研發(fā)工作。目前,達觀數(shù)據(jù)已與北京大學(xué)、復(fù)旦大學(xué)、上海財經(jīng)大學(xué)等高校建立起了產(chǎn)學(xué)研合作關(guān)系,未來將與更多的高校合作,將學(xué)術(shù)界的先進成果與工程界的應(yīng)用技術(shù)結(jié)合在一起,更好的突破文字語言理解工作。
產(chǎn)業(yè)互聯(lián)網(wǎng)如同大基站,在“新政策,新技術(shù),新理念”三新戰(zhàn)略的倡導(dǎo)下滋養(yǎng)更多新興項目落地應(yīng)用,在傳統(tǒng)行業(yè)、互聯(lián)網(wǎng)行業(yè)的轉(zhuǎn)型之路上扮演了助推器角色,正值億歐2019全球新經(jīng)濟年會期間,特此設(shè)立產(chǎn)業(yè)互聯(lián)網(wǎng)峰會,力求從全球視角解析IT服務(wù)智能發(fā)展,邀請國內(nèi)外一線企業(yè)分享行業(yè)發(fā)展歷程及未來趨勢。
您在本場論壇可以了解到軟件、硬件、物聯(lián)網(wǎng)、5G、ABC的服務(wù)進化史,了解到新資本新市場的走向。當(dāng)我們的生活離不開技術(shù),或許整個全球市場、服務(wù)商、用戶都應(yīng)該對之有更深的思考。
峰會報名鏈接:
https://www.iyiou.com/post/ad/id/802
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 馬云現(xiàn)身支付寶20周年紀(jì)念日:AI將改變一切,但不意味著決定一切
- 萬事達卡推出反欺詐AI模型 金融科技擁抱生成式AI
- OpenAI創(chuàng)始人的世界幣懸了?高調(diào)收集虹膜數(shù)據(jù)引來歐洲監(jiān)管調(diào)查
- 華為孟晚舟最新演講:長風(fēng)萬里鵬正舉,勇立潮頭智為先
- 華為全球智慧金融峰會2023在上海開幕 攜手共建數(shù)智金融未來
- 移動支付發(fā)展超預(yù)期:2022年交易額1.3萬億美元 注冊賬戶16億
- 定位“敏捷的財務(wù)收支管理平臺”,合思品牌升級發(fā)布會上釋放了哪些信號?
- 分貝通商旅+費控+支付一體化戰(zhàn)略發(fā)布,一個平臺管理企業(yè)所有費用支出
- IMF經(jīng)濟學(xué)家:加密資產(chǎn)背后的技術(shù)可以改善支付,增進公益
- 2022年加密貨幣“殺豬盤”涉案金額超20億美元 英國銀行業(yè)祭出限額措施
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。