文/唐良元(作者單位:英國(guó)倫敦大學(xué)高等研究院)
中國(guó)著名學(xué)者周海中先生曾經(jīng)指出:“語(yǔ)言智能是人工智能皇冠上的明珠,它對(duì)于發(fā)展人類(lèi)的表達(dá)能力、思維能力、理解能力等具有十分重要的意義?!苯陙?lái),由于人工智能的快速發(fā)展,語(yǔ)言智能越來(lái)越受到學(xué)術(shù)界,尤其是語(yǔ)言學(xué)界的高度重視和深入研究;在這方面,學(xué)術(shù)界已經(jīng)取得了不少可喜的成果。
語(yǔ)言智能(英文language intelligence)是語(yǔ)言信息智能化的過(guò)程,也是運(yùn)用信息技術(shù)模仿人類(lèi)的智能,分析和處理人類(lèi)語(yǔ)言的過(guò)程,更是人工智能的重要組成部分及人機(jī)交互認(rèn)知的重要基礎(chǔ)和手段。另外,語(yǔ)言智能還有力促進(jìn)語(yǔ)言教學(xué)、語(yǔ)言學(xué)習(xí)的智能化,拓展語(yǔ)言學(xué)研究的新領(lǐng)域,在未來(lái)教育發(fā)展中將發(fā)揮越來(lái)越重要的作用。
語(yǔ)言智能是信息技術(shù)創(chuàng)新發(fā)展的時(shí)代產(chǎn)物。發(fā)展語(yǔ)言智能必須增強(qiáng)科學(xué)意識(shí),只有深刻認(rèn)識(shí)語(yǔ)言智能的科學(xué)原理,才能深入研究語(yǔ)言智能這個(gè)前沿領(lǐng)域。語(yǔ)言智能基于人腦生理屬性、言語(yǔ)認(rèn)知路徑、語(yǔ)義生成規(guī)律,利用大數(shù)據(jù)與人工智能技術(shù),對(duì)語(yǔ)言信息進(jìn)行標(biāo)注、抽取、加工、存儲(chǔ)和特征分析,構(gòu)擬人機(jī)語(yǔ)義同構(gòu)關(guān)系,讓機(jī)器實(shí)施類(lèi)人言語(yǔ)行為。
語(yǔ)言智能具有文化傳承的服務(wù)優(yōu)勢(shì);語(yǔ)言是文化載體,語(yǔ)言精神反映民族精神。從浩瀚的古典文獻(xiàn)中精選優(yōu)秀傳統(tǒng)文化素材,從當(dāng)下日新月異的語(yǔ)言信息洪流中洗練文化精華,傳遞給當(dāng)代國(guó)人,需要語(yǔ)言智能獨(dú)特的算力。從既有的語(yǔ)言文字?jǐn)?shù)據(jù)中分析發(fā)現(xiàn)文化素養(yǎng)和家國(guó)情懷,精準(zhǔn)實(shí)施優(yōu)秀文化教育,可以成為語(yǔ)言智能的常態(tài)服務(wù)。
上世紀(jì)80年代,美國(guó)著名學(xué)者霍華德?加德納先生認(rèn)為,語(yǔ)言智能就是人們運(yùn)用語(yǔ)言的能力。這種能力是人的認(rèn)知力、思維力、邏輯力、創(chuàng)造力和表達(dá)力的綜合體現(xiàn);而提高語(yǔ)言能力是對(duì)語(yǔ)言智能提出的挑戰(zhàn)性問(wèn)題。這需要采集相應(yīng)數(shù)據(jù),科學(xué)分析個(gè)人的知識(shí)基礎(chǔ)、思維類(lèi)型、能力潛質(zhì)等,分析經(jīng)驗(yàn)積累和知識(shí)攝取狀況,并通過(guò)智能技術(shù)手段來(lái)推薦個(gè)性化知識(shí)學(xué)習(xí)內(nèi)容。
語(yǔ)言理解是語(yǔ)言智能的主要任務(wù),涉及到語(yǔ)言理解的目標(biāo)、途徑和主要模型。機(jī)器對(duì)語(yǔ)言的理解就是確定了概念與語(yǔ)言單元的映射,以及知道承載概念單元的語(yǔ)言屬性,和知曉不同語(yǔ)言單元之間的關(guān)系。而語(yǔ)義理解是語(yǔ)言理解的核心,它包括對(duì)自然語(yǔ)言知識(shí)和常識(shí)的學(xué)習(xí);語(yǔ)義理解可以通過(guò)一系列的人工智能算法以及多場(chǎng)景智能語(yǔ)義分析,將文本解析為結(jié)構(gòu)化的、機(jī)器可讀的意圖與詞槽信息。
目前語(yǔ)言智能在多個(gè)領(lǐng)域都有應(yīng)用,主要是四種類(lèi)型:分類(lèi)、生成、抽取和校對(duì)。分類(lèi)問(wèn)題就是給語(yǔ)言對(duì)象打標(biāo)簽,語(yǔ)言對(duì)象可以是句子、篇章等;生成問(wèn)題主要是給原文本生成另一種文本表達(dá),典型的應(yīng)用是機(jī)器翻譯以及人機(jī)對(duì)話、自動(dòng)寫(xiě)作等;抽取問(wèn)題就是從研究對(duì)象提取想要的答案,讓文本信息處理更加方便;校對(duì)問(wèn)題主要是讓機(jī)器對(duì)給定的處理對(duì)象,回答對(duì)應(yīng)信息是否齊全、是否一致、是否準(zhǔn)確的問(wèn)題。
近期由美國(guó)人工智能公司OpenAI開(kāi)發(fā)的軟件ChatGPT-4帶來(lái)了比ChatGPT背后GPT-3.5更強(qiáng)的推理、計(jì)算、邏輯能力,也引發(fā)了全民使用的熱潮。在技術(shù)發(fā)展方面,GPT-4的訓(xùn)練數(shù)據(jù)涵蓋了互聯(lián)網(wǎng)上的大量網(wǎng)頁(yè)、書(shū)籍、新聞報(bào)道等,數(shù)據(jù)量達(dá)到了45TB,模型規(guī)模也更大,擁有1750億個(gè)參數(shù)。我們期待看到更多的語(yǔ)言模型應(yīng)用在實(shí)際場(chǎng)景中,為語(yǔ)言智能帶來(lái)突破性進(jìn)展,也為人類(lèi)社會(huì)帶來(lái)更多的便利和創(chuàng)新。
由上可知,語(yǔ)言智能在人工智能研究中扮演著非常重要的角色。其實(shí),人類(lèi)對(duì)語(yǔ)言的學(xué)習(xí)與理解并不是完全通過(guò)文本本身來(lái)完成的,語(yǔ)言只是其背后具體概念與含義的抽象載體。所以,也許通過(guò)多模態(tài)的建模才能讓機(jī)器更好地去理解語(yǔ)言的含義。如何讓機(jī)器學(xué)習(xí)與語(yǔ)言學(xué)結(jié)合得更加緊密,比如對(duì)語(yǔ)言的語(yǔ)義信息、語(yǔ)用信息構(gòu)建合適的任務(wù)形式、模型結(jié)構(gòu)、數(shù)據(jù)采集與存儲(chǔ)等也是未來(lái)值得關(guān)注的研究方向。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 400G:骨干網(wǎng)的最新趨勢(shì)
- 三大運(yùn)營(yíng)商11月成績(jī)單:用戶(hù)數(shù)據(jù)增幅放緩
- 2025年數(shù)字錢(qián)包:重塑金融生態(tài)的領(lǐng)先應(yīng)用
- 量子計(jì)算:商業(yè)世界的新前沿與設(shè)計(jì)思維的融合
- 什么是聚合交換機(jī)?
- 電池技術(shù)如何影響車(chē)輛性能
- 千家早報(bào)|庫(kù)克稱(chēng)蘋(píng)果從未考慮過(guò)AI收費(fèi);OpenAI GPT-5“難產(chǎn)”:訓(xùn)練6個(gè)月花費(fèi)5億美元,已落后原計(jì)劃半年——2024年12月23日
- 中國(guó)電信再次出讓三家金融機(jī)構(gòu)股權(quán) 價(jià)值規(guī)模近10億
- 中國(guó)移動(dòng)無(wú)源器件產(chǎn)品集采:規(guī)模為1807.93萬(wàn)件
- 中國(guó)移動(dòng)分天線產(chǎn)品集采:規(guī)模為1588.82萬(wàn)面
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。