精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

AI“數(shù)據(jù)荒”怎么辦？微軟、谷歌等公司正使用“合成數(shù)據(jù)”訓(xùn)練AI

人閱讀
2024-05-13 08:17:09
來(lái)源：財(cái)聯(lián)社
作者：周子意
相關(guān)關(guān)鍵詞

財(cái)聯(lián)社5月12日訊（編輯周子意）人工智能聊天機(jī)器人的背后需要海量高質(zhì)量數(shù)據(jù)作為支撐。傳統(tǒng)上，人工智能系統(tǒng)依賴于從各種網(wǎng)絡(luò)來(lái)源（如文章、書籍和在線評(píng)論）中提取的大量數(shù)據(jù)來(lái)理解用戶的查詢并生成響應(yīng)。

長(zhǎng)期以來(lái)，如何獲取更多的高質(zhì)量數(shù)據(jù)成為人工智能公司的一大挑戰(zhàn)。由于數(shù)據(jù)在互聯(lián)網(wǎng)上的可用性是有限的，這促使人工智能公司正尋求一種替代解決方案——合成數(shù)據(jù)（Synthetic data）。

合成數(shù)據(jù)，即人工智能系統(tǒng)生成的人工數(shù)據(jù)?？萍脊就ㄟ^(guò)利用自己的人工智能模型，生成合成數(shù)據(jù)（這也被認(rèn)為是虛假數(shù)據(jù)），然后將這些數(shù)據(jù)用以訓(xùn)練其系統(tǒng)的未來(lái)迭代。

談及合成數(shù)據(jù)是如何生成的，其過(guò)程包括為人工智能模型設(shè)置特定參數(shù)和提示以創(chuàng)建內(nèi)容，這種方法可以更精確地控制用于訓(xùn)練人工智能系統(tǒng)的數(shù)據(jù)。

例如，微軟的研究人員向人工智能模型列出了四歲孩子能夠理解的3000個(gè)詞匯，然后，他們要求該模型使用詞匯表中的一個(gè)名詞、一個(gè)動(dòng)詞和一個(gè)形容詞來(lái)創(chuàng)造一個(gè)兒童故事。通過(guò)幾天時(shí)間內(nèi)數(shù)百萬(wàn)次的重復(fù)提示，模型最終產(chǎn)生了數(shù)百萬(wàn)個(gè)短篇故事。

雖然計(jì)算中的合成數(shù)據(jù)并不是一個(gè)新概念，但生成式人工智能的興起促進(jìn)了大規(guī)模創(chuàng)建更高質(zhì)量的合成數(shù)據(jù)。

人工智能初創(chuàng)公司Anthropic首席執(zhí)行官Dario Amodei將這種方法稱為“無(wú)限數(shù)據(jù)生成引擎”，旨在避免與傳統(tǒng)數(shù)據(jù)采集方法相關(guān)的一些版權(quán)、隱私等問(wèn)題。

現(xiàn)有用例與分歧觀點(diǎn)

目前，Meta、谷歌和微軟等主要人工智能公司已經(jīng)開始使用合成數(shù)據(jù)開發(fā)高級(jí)模型，包括聊天機(jī)器人和語(yǔ)言處理器。

例如，Anthropic使用合成數(shù)據(jù)為其聊天機(jī)器人Claude提供動(dòng)力；谷歌DeepMind則使用這種方法來(lái)訓(xùn)練能夠解決復(fù)雜幾何問(wèn)題的模型；與此同時(shí)，微軟已經(jīng)公開了使用合成數(shù)據(jù)開發(fā)的小型語(yǔ)言模型。

有支持者認(rèn)為，如果適當(dāng)實(shí)施，合成數(shù)據(jù)可以產(chǎn)生準(zhǔn)確可靠的模型。

然而，一些人工智能專家對(duì)與合成數(shù)據(jù)相關(guān)的風(fēng)險(xiǎn)表示擔(dān)憂。著名大學(xué)的研究人員觀察到了“模型崩潰”的例子，即在合成數(shù)據(jù)上訓(xùn)練的人工智能模型出現(xiàn)了不可逆轉(zhuǎn)的缺陷，并產(chǎn)生了荒謬的輸出。此外，有人擔(dān)心合成數(shù)據(jù)可能會(huì)加劇數(shù)據(jù)集的偏差和錯(cuò)誤。

劍橋大學(xué)博士Zakhar Shumaylov在一封電子郵件中寫道，”如果處理得當(dāng)，合成數(shù)據(jù)會(huì)很有用。然而，對(duì)于如何才能處理得當(dāng)，目前還沒(méi)有明確的答案；有些偏見(jiàn)對(duì)于人類來(lái)說(shuō)可能很難察覺(jué)?！?/p>

此外，圍繞對(duì)合成數(shù)據(jù)的依賴存在一場(chǎng)哲學(xué)辯論，人們對(duì)人工智能的本質(zhì)提出了質(zhì)疑——如若使用機(jī)器合成的數(shù)據(jù)，那么人工智能是否還是模仿人類智能的機(jī)器？

斯坦福大學(xué)教授Percy Liang強(qiáng)調(diào)了將真正的人類智能融入數(shù)據(jù)生成過(guò)程的重要性，并強(qiáng)調(diào)了大規(guī)模創(chuàng)建合成數(shù)據(jù)的復(fù)雜性。他認(rèn)為，“合成數(shù)據(jù)不是真實(shí)的數(shù)據(jù)，就像你做夢(mèng)登上了珠穆朗瑪峰并不是真正登頂了一樣?！?/p>

目前對(duì)于生成合成數(shù)據(jù)的最佳做法尚未達(dá)成共識(shí)，這突出表明需要在這一領(lǐng)域進(jìn)一步研究和發(fā)展。隨著該領(lǐng)域的不斷發(fā)展，人工智能研究人員和領(lǐng)域?qū)＜抑g的合作對(duì)于充分利用人工智能開發(fā)合成數(shù)據(jù)的潛力至關(guān)重要。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI 機(jī)器學(xué)習(xí) ChatGPT 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會(huì) AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 谷歌AI 蘋果AI GenAI 科大訊飛AI學(xué)習(xí)機(jī) 百度AI CAICT 阿爾法蛋AI詞典筆T10 AI手機(jī) 華為AI 松鼠AI 微軟AI AI+ AIS Airdoc WAIC 昇騰AI創(chuàng)新大賽 AITO 阿爾法蛋AI詞典筆京東AI 智譜AI AI模型 SoleusAir aigo SoleusAir舒樂(lè)氏 2019世界人工智能大會(huì) LIFAair AI機(jī)器人移動(dòng)AI時(shí)代 AI創(chuàng)企人工智能大會(huì) 浙大AIF AI算力 AI醫(yī)療人工智能技術(shù) AI應(yīng)用 Zain xAI 人工智能芯片 AI人才 Airtag AI時(shí)代 AI服務(wù)器騰訊AI AI算法 BrainCo AI投資 AI框架 Gmail 人工智能計(jì)算中心聯(lián)想AI VAIO Airwallex空中云匯 AI教育 Chain 人工智能大賽 Coremail AI賦能谷歌人工智能 OPENAIGC開發(fā)者大賽人工智能名片 Airwheel 昇騰AI開發(fā)者創(chuàng)享日 AI搜索 AI眼鏡 Mirai 人工智能機(jī)器人 AI音樂(lè) 阿里AI AI聊天機(jī)器人 BrainCo強(qiáng)腦科技阿爾法蛋AI詞典筆T20 AI計(jì)算英偉達(dá)AI芯片浪潮KaiwuDB AI助手 AIOps 人工智能+

上一篇

AI闖進(jìn)設(shè)計(jì)圈騰訊混元大模型最新技術(shù)進(jìn)展披露

下一篇

外媒稱Arm將設(shè)立AI芯片部門力爭(zhēng)2025年打造出原型產(chǎn)品

簡(jiǎn)版
原版
投稿
回頂部

2024-05-13

AI“數(shù)據(jù)荒”怎么辦？微軟、谷歌等公司正使用“合成數(shù)據(jù)”訓(xùn)練AI

財(cái)聯(lián)社5月12日訊（編輯周子意）人工智能聊天機(jī)器人的背后需要海量高質(zhì)量數(shù)據(jù)作為支撐。傳統(tǒng)上，人工智能系統(tǒng)依賴于從各種網(wǎng)絡(luò)來(lái)源（如文章、書籍和在線評(píng)論）中提取的大量數(shù)據(jù)來(lái)理解用戶的查詢并生成響應(yīng)。長(zhǎng)期以來(lái)，如何獲取更多的高質(zhì)量數(shù)據(jù)成為人工智能公司的一大挑戰(zhàn)。由于數(shù)據(jù)...

長(zhǎng)按掃碼閱讀全文