精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    CNCC 2024 演講實錄:基于大小模型協(xié)同的低資源標注技術(shù)

    在科技蓬勃發(fā)展的時代浪潮中,人工智能領(lǐng)域的每一次突破都離不開持續(xù)的科研投入和對前沿技術(shù)的不懈探索。2023 年,網(wǎng)易伏羲與中國計算機學會(CCF)共同發(fā)起了 “CCF - 網(wǎng)易雷火聯(lián)合基金”,致力于發(fā)揮和利用多方資源優(yōu)勢,加強與海內(nèi)外青年學者的科研合作,促進中國人工智能等領(lǐng)域尖端技術(shù)產(chǎn)業(yè)的進步,并加快校企合作、技術(shù)成果轉(zhuǎn)化落地。

    自成立以來,CCF-網(wǎng)易雷火聯(lián)合基金始終致力于推動科研成果的轉(zhuǎn)化與應用,受到了學者們的廣泛關(guān)注與支持。在 2024 中國計算機大會(CNCC2024)上,CCF - 網(wǎng)易雷火聯(lián)合基金首批優(yōu)秀成果重磅發(fā)布。浙江大學軟件學院百人計劃研究員王皓波老師作為基金優(yōu)秀代表,現(xiàn)場分享了其在基金資助下的課題成果《基于大小模型協(xié)同的低資源標注技術(shù)》,該技術(shù)通過整合大模型與小模型的優(yōu)勢,為解決數(shù)據(jù)標注中的低資源困境提供了全新思路,有望在提升標注效率和質(zhì)量方面帶來顯著突破,助力人工智能產(chǎn)業(yè)實現(xiàn)更高效的數(shù)據(jù)驅(qū)動發(fā)展。

    CNCC 2024 演講實錄:基于大小模型協(xié)同的低資源標注技術(shù)

    以下為王皓波老師的演講實錄:

    大家好!非常榮幸能夠在這里,作為CCF - 網(wǎng)易雷火基金資助項目的成果代表,與大家分享我們在基于大小模型協(xié)同的低資源數(shù)據(jù)標注技術(shù)領(lǐng)域的研究成果。我是浙江大學的王皓波。

    如果將AI算法比作“火箭”,那么數(shù)據(jù)標注就是推動AI的“燃料”,對訓練模型、提高準確率至關(guān)重要。在當前競爭激烈的AI市場,數(shù)據(jù)標注的效率和質(zhì)量將直接影響企業(yè)和組織的AI應用效果和競爭力。

    另一方面,OpenAI發(fā)布的ChatGPT等大模型掀起了一輪研究熱潮。結(jié)合了超大規(guī)模的模型、數(shù)據(jù)和算力,大模型初步涌現(xiàn)了通用智能,對眾多行業(yè)形成廣泛的應用潛力。隨著大模型的發(fā)展,數(shù)據(jù)標注也有了新機遇。首先,大模型在垂直領(lǐng)域的應用更需要大量的標注數(shù)據(jù),以實現(xiàn)大模型的領(lǐng)域微調(diào)。其次,大模型內(nèi)蘊的通用知識,能夠以低成本構(gòu)建高質(zhì)量數(shù)據(jù),在數(shù)據(jù)標注領(lǐng)域?qū)硇碌目赡苄院屯黄瓶凇?/p>

    在國內(nèi)外,以網(wǎng)易有靈眾包平臺為代表的多款產(chǎn)品已將大模型融入標注的過程中。然而,面對垂直領(lǐng)域的產(chǎn)業(yè)需求時,通用大模型往往難以直接輸出標注結(jié)果,這些標注產(chǎn)品仍需大量借助人類知識進行數(shù)據(jù)的標簽、校驗和修復。

    在這樣的背景下,我們的研究聚焦于如何利用大模型的強大能力,結(jié)合小模型的優(yōu)勢,實現(xiàn)低資源條件下高效、精準的數(shù)據(jù)標注。我們的研究得到了CCF - 網(wǎng)易雷火聯(lián)合基金的大力支持,這為我們在該領(lǐng)域的探索提供了堅實的保障。

    我們在數(shù)據(jù)標注技術(shù)方面的研究是一個逐步深入、演進的過程,下面將與大家具體分享。

      階段一:魯棒噪聲標簽學習(IJCAI 2023)

    首先,我們在魯棒噪聲標簽學習方面開展了工作。

    在機器學習中,噪聲標簽問題無處不在,其來源廣泛,如機器生成標注數(shù)據(jù)時的不準確性以及眾包標注者經(jīng)驗不足等。經(jīng)典的噪聲標簽學習算法存在一定局限性,例如樣本選擇- 自訓練算法雖能通過特定方式篩選樣本并進行半監(jiān)督學習,但僅利用少量正確樣本難以達到理想效果。

    CNCC 2024 演講實錄:基于大小模型協(xié)同的低資源標注技術(shù)

    基于此,我們在IJCAI 2023上提出了ProMix算法,該算法通過創(chuàng)新的progressive selection方式,充分利用干凈樣本,在樣本選擇過程中先選擇平衡子集,再依據(jù)置信度逐步擴大樣本集。同時,算法中的樣本選擇和半監(jiān)督學習模塊有效解決了樣本不平衡問題,在合成數(shù)據(jù)集和不平衡噪聲樣本數(shù)據(jù)集上都取得了卓越成績,成功奪得首屆IJCAI - 噪聲標簽學習挑戰(zhàn)賽全賽道冠軍。

    階段二:大小模型協(xié)同數(shù)據(jù)標注(EMNLP 2023)

    隨著大模型時代的到來,我們進一步思考如何將大模型與小模型協(xié)同應用于數(shù)據(jù)標注領(lǐng)域。這促使我們開展了FreeAL框架的研究,并發(fā)表于EMNLP 2023。

    在這個階段,我們發(fā)現(xiàn)傳統(tǒng)弱標簽學習存在諸多局限,如人工成本難以降低、機器標注精度不足以及小樣本學習領(lǐng)域泛化能力較差等問題。FreeAL框架旨在實現(xiàn)無人工主動學習,其核心原理是充分發(fā)揮大模型(LLM)和小模型(SLM)各自的優(yōu)勢。大模型具有豐富知識儲備,雖難以獨立激活任務相關(guān)能力,但可通過生成樣例進行初始標注,利用其強大的生成能力構(gòu)造上下文學習樣例,從而提高初始標注準確率。隨后,小模型進行魯棒蒸餾,挑選出弱監(jiān)督訓練中損失較小的樣本,通過半監(jiān)督學習進一步篩選出干凈樣本和噪聲樣本,并將其反饋給大模型。大小模型通過協(xié)同訓練,不斷迭代優(yōu)化標注結(jié)果,直至性能收斂。

    CNCC 2024 演講實錄:基于大小模型協(xié)同的低資源標注技術(shù)

    (FreeAL 總體框架)

      1.大模型標注

    在提升大模型的少樣本學習(few - shot)性能方面,關(guān)鍵在于獲取充足的示例樣本。因為此次研究設定為完全不依賴人類標注(Human - Free),在初始標注輪次,獲取有效示例樣本并非易事。為此,我們采用一種策略,即引導大模型自行生成演示(demo)樣本。具體操作流程為,向 ChatGPT 明確告知標簽的定義,并提供若干未標注樣本作為參考示例,使大模型得以學習未標注文本的風格特征,進而生成與標簽信息相符的樣本。通過這種方式,我們成功構(gòu)建了初始的上下文學習(ICL)示例集合,經(jīng)實驗發(fā)現(xiàn),在部分數(shù)據(jù)集(如 SUBJ 數(shù)據(jù)集)中,該方法可使準確率顯著提升 28 個百分點。在后續(xù)的標注輪次中,我們將依據(jù)小模型篩選后的結(jié)果來開展 ICL 操作,從而進一步優(yōu)化標注效果。

    2.小模型蒸餾

    在小模型蒸餾階段,我們運用了小損失選擇(Small - Loss Selection)策略來挑選干凈樣本,并結(jié)合半監(jiān)督學習技術(shù)開展噪聲標記學習任務。對于熟悉弱監(jiān)督學習領(lǐng)域的研究者而言,這種方法并不陌生。在小模型訓練過程中,即便篩選出的 “干凈樣本” 集合中存在少量錯誤樣本,對模型性能提升的影響也較為有限。然而,為了確保在上下文學習(ICL)過程中能夠獲得更為精準的演示樣本集,我們基于損失值對樣本進行逐類精心篩選,此操作旨在充分考慮樣本的多樣性,以增強樣本集的代表性。最終,將篩選所得的樣本反饋至大模型,以便對其進行修復與優(yōu)化。鑒于我們在前期已實施了全量標注,經(jīng)過兩個輪次的迭代,模型基本能夠收斂至理想狀態(tài),從而實現(xiàn)高效且準確的數(shù)據(jù)標注。

    實驗結(jié)果表明,F(xiàn)reeAL在多個任務上表現(xiàn)優(yōu)異,其中一個引人注目的實驗結(jié)果是,在涉及弱監(jiān)督蒸餾得到的RoBERTa 模型的實驗中,僅當數(shù)據(jù)集為樣本數(shù)量極少的 SST - 2 和 MR 時,ChatGPT 的表現(xiàn)優(yōu)于 RoBERTa;而一旦數(shù)據(jù)集規(guī)模稍有增大,RoBERTa 執(zhí)行上下文學習(ICL)的效果便超越了 ChatGPT。

    CNCC 2024 演講實錄:基于大小模型協(xié)同的低資源標注技術(shù)

    進一步將FreeAL 與傳統(tǒng)的主動學習(AL)方法進行對比,發(fā)現(xiàn)在特定的一些數(shù)據(jù)集上,F(xiàn)reeAL 能夠取得超越人類標注結(jié)果的卓越成績。

    CNCC 2024 演講實錄:基于大小模型協(xié)同的低資源標注技術(shù)

    然而,我們也認識到,在實際生產(chǎn)環(huán)境中,僅依靠機器標注是不夠的,標注過程離不開人類領(lǐng)域知識的支撐。

    階段三:基于大語言模型的協(xié)作式自動標注系統(tǒng)CORAL(VLDB 2024)

    基于FreeAL框架,我們進一步研發(fā)了CORAL框架,相關(guān)成果《CORAL: Collaborative Automatic Labeling System

    based on Large Language Models》成功入選VLDB 2024。CORAL框架提供了一種協(xié)作式自動標注原型系統(tǒng),旨在減少人工參與并確保高質(zhì)量的數(shù)據(jù)標注。通過結(jié)合大模型(LLM)和小模型(SLM)的協(xié)同工作,CORAL實現(xiàn)了初步的自動化標注流程,并以低成本提供可靠的標簽數(shù)據(jù),極大地降低了數(shù)據(jù)標注的時間和人工成本。

    CORAL框架的工作流程包含大小模型協(xié)同標注體系、手動精煉模塊和迭代過程控制器。其大小模型協(xié)同標注體系繼承了FreeAL的優(yōu)勢,能夠自動形成大量數(shù)據(jù)標注。手動精煉模塊是CORAL的一大特色,它引入了人機協(xié)同的標注范式。通過網(wǎng)易有靈眾包平臺的用戶界面,用戶可以對標注結(jié)果進行審查,針對低置信度樣本進行人工校正。這一模塊使得用戶能夠?qū)W⒂谔幚碜罹咛魬?zhàn)性的樣本,從而在有限的人工參與下有效提升標注數(shù)據(jù)的質(zhì)量。迭代過程控制器則進一步增強了CORAL系統(tǒng)的有效性,它通過采集高置信度樣本,不斷優(yōu)化大模型(LLM)和小模型(SLM)的標注精度,實現(xiàn)標簽質(zhì)量的持續(xù)改進。

    CNCC 2024 演講實錄:基于大小模型協(xié)同的低資源標注技術(shù)

    目前,我們正在探索將大小模型協(xié)同標注系統(tǒng)與網(wǎng)易有靈平臺的AOP體系深度集成。在當前的標注環(huán)境中,盡管大模型和小模型的協(xié)同已經(jīng)能夠處理大部分簡單的數(shù)據(jù)標注任務,但復雜樣本仍需要人類的專業(yè)知識和精準判斷。通過這種集成,我們期望構(gòu)建一個更加高效、智能的人機協(xié)同Agent調(diào)度體系。在這個體系中,大小模型協(xié)同標注系統(tǒng)能夠精準定位那些尚未得到妥善解決的樣本,然后由網(wǎng)易有靈眾包平臺引入人工干預,進行人機協(xié)同標注。人類標注員憑借其專業(yè)知識和經(jīng)驗,對復雜樣本進行處理,從而實現(xiàn)最佳標注結(jié)果。這不僅將提高數(shù)據(jù)標注的準確性和可靠性,還將推動數(shù)據(jù)標注技術(shù)在更廣泛領(lǐng)域的應用,為人工智能技術(shù)的發(fā)展提供更強大的數(shù)據(jù)支持。

    最后,再次感謝CCF - 網(wǎng)易雷火聯(lián)合基金的支持,感謝網(wǎng)易伏羲提供的平臺與合作機會,感謝團隊成員的辛勤付出,也感謝各位嘉賓的聆聽!希望我們的研究成果能夠為數(shù)據(jù)標注領(lǐng)域的發(fā)展貢獻一份力量,共同推動人工智能技術(shù)邁向新的高度。

    (免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
    任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )