精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

網(wǎng)站與爬蟲(chóng)的博弈：小小的robots.txt還能守住數(shù)據(jù)嗎？

人閱讀
2024-02-20 07:05:00
來(lái)源：煎蛋
作者：超載雞
相關(guān)關(guān)鍵詞
- 人工智能
- AI

三十多年來(lái)，一個(gè)簡(jiǎn)單的文本文件robots.txt一直維持著網(wǎng)絡(luò)秩序，控制網(wǎng)絡(luò)爬蟲(chóng)的行為。但隨著AI公司的崛起，它們?yōu)榱擞?xùn)練模型而大量采集數(shù)據(jù)，使得網(wǎng)絡(luò)的“社交契約”面臨崩潰。網(wǎng)站擁有者和AI公司之間展開(kāi)博弈，robots.txt的未來(lái)也變得撲朔迷離。

幾十年來(lái)，一個(gè)微小的文本文件默默守護(hù)著網(wǎng)絡(luò)的秩序。它沒(méi)有法律或技術(shù)權(quán)威，甚至也沒(méi)有復(fù)雜的技術(shù)含量。它代表了互聯(lián)網(wǎng)早期先驅(qū)們的一項(xiàng)“握手協(xié)議”，旨在互相尊重彼此的意愿，共同建設(shè)一個(gè)對(duì) everyone 有益的網(wǎng)絡(luò)。它可以說(shuō)是互聯(lián)網(wǎng)的一部微型憲法，用代碼寫(xiě)成。

它叫作 robots.txt，通常位于你的網(wǎng)站根目錄下。這個(gè)文件允許任何網(wǎng)站所有者——無(wú)論大小，是烹飪博客還是跨國(guó)公司——告訴互聯(lián)網(wǎng)誰(shuí)可以進(jìn)入誰(shuí)不可以。哪些搜索引擎可以索引你的網(wǎng)站？哪些檔案項(xiàng)目可以抓取你的頁(yè)面并保存？競(jìng)爭(zhēng)對(duì)手是否可以監(jiān)控你的頁(yè)面以供他們自己使用？你可以做出決定并通知網(wǎng)絡(luò)。

這不是一個(gè)完美的系統(tǒng)，但它曾經(jīng)運(yùn)作良好。至少以前是這樣。幾十年來(lái)，robots.txt 的主要關(guān)注點(diǎn)是搜索引擎；你允許它們抓取你的網(wǎng)站，作為交換，它們承諾將人們發(fā)送回你那里?，F(xiàn)在，AI 改變了這個(gè)公式：網(wǎng)絡(luò)上的公司正在使用你的網(wǎng)站及其數(shù)據(jù)來(lái)構(gòu)建大量訓(xùn)練數(shù)據(jù)集，以便構(gòu)建可能根本不會(huì)承認(rèn)你存在的模型和產(chǎn)品。

robots.txt 規(guī)定了一種交換關(guān)系；對(duì)許多人來(lái)說(shuō)，AI 感覺(jué)只索取不付出。但現(xiàn)在，AI 領(lǐng)域的資金如此龐大，技術(shù)水平變化如此之快，許多網(wǎng)站所有者都無(wú)法跟上。而 robots.txt 背后的基本協(xié)議，以及整個(gè)網(wǎng)絡(luò)——長(zhǎng)久以來(lái)一直是“每個(gè)人都保持冷靜”——也可能無(wú)法跟上步伐。

在互聯(lián)網(wǎng)早期，機(jī)器人有很多名字：蜘蛛(spider)、爬蟲(chóng)(crawler)、蠕蟲(chóng)(worm)、WebAnt、網(wǎng)絡(luò)爬蟲(chóng)。大多數(shù)情況下，它們都是出于善意而建造的。通常是開(kāi)發(fā)人員試圖建立一個(gè)酷炫的新網(wǎng)站目錄，確保他們自己的網(wǎng)站正常運(yùn)行，或者建立研究數(shù)據(jù)庫(kù)——這是大約 1993 年的事，當(dāng)時(shí)搜索引擎還沒(méi)有普及，你可以在計(jì)算機(jī)硬盤(pán)上容納大部分互聯(lián)網(wǎng)。

當(dāng)時(shí)唯一真正的問(wèn)題是流量：訪(fǎng)問(wèn)互聯(lián)網(wǎng)對(duì)于看到網(wǎng)站的人和托管網(wǎng)站的人來(lái)說(shuō)都慢且昂貴。如果你像許多人一樣將你的網(wǎng)站托管在你的計(jì)算機(jī)上，或者通過(guò)你的家庭互聯(lián)網(wǎng)連接運(yùn)行匆忙構(gòu)建的服務(wù)器軟件，那么只需要幾個(gè)機(jī)器人過(guò)分熱心地下載你的頁(yè)面，事情就會(huì)崩潰，電話(huà)賬單也會(huì)飆升。

在 1994 年的幾個(gè)月里，軟件工程師和開(kāi)發(fā)人員 Martijn Koster 與其他網(wǎng)絡(luò)管理員和開(kāi)發(fā)人員一起提出了一種解決方案，他們稱(chēng)之為機(jī)器人排除協(xié)議 (Robots Exclusion Protocol)。該提案相當(dāng)簡(jiǎn)單：它要求網(wǎng)絡(luò)開(kāi)發(fā)人員在其域中添加一個(gè)純文本文件，指定哪些機(jī)器人不允許在其網(wǎng)站上搜索，或列出所有機(jī)器人都不允許訪(fǎng)問(wèn)的頁(yè)面。(再次，當(dāng)時(shí)你可以維護(hù)一份存在的每個(gè)機(jī)器人的列表——Koster 和其他幾個(gè)人幫助做了這件事。) 對(duì)于機(jī)器人制造商來(lái)說(shuō)，這筆交易更簡(jiǎn)單：尊重文本文件的愿望。

從一開(kāi)始，Koster 就明確表示他不討厭機(jī)器人，也不打算擺脫它們?！皺C(jī)器人是網(wǎng)絡(luò)上少數(shù)幾個(gè)造成運(yùn)營(yíng)問(wèn)題和讓人心煩的方面之一，”他在 1994 年初發(fā)送給名為 WWW-Talk 的郵件列表(其中包括網(wǎng)絡(luò)早期先驅(qū)者，如 Tim Berners-Lee 和 Marc Andreessen)的初始電子郵件中說(shuō)?！巴瑫r(shí)，它們確實(shí)提供有用的服務(wù)?！盞oster 警告不要爭(zhēng)論機(jī)器人是好是壞——因?yàn)檫@并不重要，它們已經(jīng)存在了，不會(huì)消失。他只是試圖設(shè)計(jì)一個(gè)“最小化問(wèn)題并可能最大化收益”的系統(tǒng)。

“機(jī)器人是網(wǎng)絡(luò)上少數(shù)幾個(gè)造成運(yùn)營(yíng)問(wèn)題和讓人心煩的方面之一。同時(shí)，它們確實(shí)提供有用的服務(wù)?！?/p>

到那年的夏天，他的提議已成為一個(gè)標(biāo)準(zhǔn)——不是官方標(biāo)準(zhǔn)，而是更或多或少被普遍接受的標(biāo)準(zhǔn)。Koster 在 6 月再次致電 WWW-Talk 小組進(jìn)行更新?！昂?jiǎn)而言之，它是一種通過(guò)在服務(wù)器上提供一個(gè)簡(jiǎn)單的文本文件將機(jī)器人引導(dǎo)遠(yuǎn)離網(wǎng)絡(luò)服務(wù)器 URL 空間中某些區(qū)域的方法，”他寫(xiě)道?！叭绻銚碛写笮痛鏅n、具有大量 URL 子樹(shù)的 CGI 腳本、臨時(shí)信息，或者只是不想為機(jī)器人服務(wù)，這特別方便?！彼⒘艘粋€(gè)主題特定的郵件列表，其成員同意了一些基本語(yǔ)法和結(jié)構(gòu)用于那些文本文件，將文件名稱(chēng)從 RobotsNotWanted.txt 更改為簡(jiǎn)單的 robots.txt，并且?guī)缀跛腥硕纪庵С炙?/p>

在接下來(lái)的 30 年里，這工作得很好。

但互聯(lián)網(wǎng)不再能裝在硬盤(pán)上了，機(jī)器人也變得更加強(qiáng)大。谷歌使用它們抓取和索引整個(gè)網(wǎng)絡(luò)以供其搜索引擎使用，而搜索引擎已成為互聯(lián)網(wǎng)的接口，每年為該公司帶來(lái)數(shù)十億美元的收入。Bing 的爬蟲(chóng)也做了同樣的事情，微軟將其數(shù)據(jù)庫(kù)授權(quán)給其他搜索引擎和公司。互聯(lián)網(wǎng)檔案使用爬蟲(chóng)來(lái)存儲(chǔ)網(wǎng)頁(yè)以供后世使用。亞馬遜的爬蟲(chóng)在網(wǎng)絡(luò)上搜尋產(chǎn)品信息，根據(jù)最近的一項(xiàng)反壟斷訴訟，該公司使用這些信息來(lái)懲罰在亞馬遜以外提供更好交易的賣(mài)家。像 OpenAI 這樣的 AI 公司正在抓取網(wǎng)絡(luò)以訓(xùn)練大型語(yǔ)言模型，這些模型可能會(huì)再次從根本上改變我們?cè)L問(wèn)和共享信息的方式。

下載、存儲(chǔ)、組織和查詢(xún)現(xiàn)代互聯(lián)網(wǎng)的能力使任何公司或開(kāi)發(fā)人員都能使用世界上積累的知識(shí)。在過(guò)去的一年左右，像 ChatGPT 這樣的 AI 產(chǎn)品的興起，以及它們背后的大型語(yǔ)言模型，使得高質(zhì)量的訓(xùn)練數(shù)據(jù)成為互聯(lián)網(wǎng)上最有價(jià)值的商品之一。這導(dǎo)致各種互聯(lián)網(wǎng)提供商重新考慮其服務(wù)器上的數(shù)據(jù)的價(jià)值，并重新考慮誰(shuí)可以訪(fǎng)問(wèn)什么。過(guò)于寬松可能會(huì)讓你的網(wǎng)站失去所有價(jià)值；過(guò)于嚴(yán)格可能會(huì)讓你變得隱形。你必須始終根據(jù)新的公司、新的合作伙伴和新的利益相關(guān)者做出選擇。

互聯(lián)網(wǎng)機(jī)器人有幾種類(lèi)型。你可以構(gòu)建一個(gè)完全無(wú)害的機(jī)器人來(lái)四處爬行并確保你的所有頁(yè)面鏈接仍然指向其他實(shí)時(shí)頁(yè)面；你可以發(fā)送一個(gè)更粗略的機(jī)器人繞著網(wǎng)絡(luò)收集你能找到的每個(gè)電子郵件地址或電話(huà)號(hào)碼。但最常見(jiàn)、目前最具爭(zhēng)議的是簡(jiǎn)單的網(wǎng)絡(luò)爬蟲(chóng)。它的工作是盡可能多地查找和下載互聯(lián)網(wǎng)上的內(nèi)容。

網(wǎng)絡(luò)爬蟲(chóng)通常相當(dāng)簡(jiǎn)單。它們從一個(gè)眾所周知的網(wǎng)站開(kāi)始，例如 cnn.com 或 wikipedia.org 或 health.gov。(如果你正在運(yùn)行通用搜索引擎，你將從不同主題的大量高質(zhì)量域名開(kāi)始；如果你只關(guān)心體育或汽車(chē)，你將只從汽車(chē)網(wǎng)站開(kāi)始。)爬蟲(chóng)下載該第一個(gè)頁(yè)面并將其存儲(chǔ)在某處，然后自動(dòng)單擊該頁(yè)面上的每個(gè)鏈接，下載所有這些鏈接，單擊每個(gè)鏈接，并在網(wǎng)絡(luò)上傳播。有足夠的時(shí)間和足夠的計(jì)算資源，爬蟲(chóng)最終會(huì)找到并下載數(shù)十億個(gè)網(wǎng)頁(yè)。

權(quán)衡取舍相當(dāng)簡(jiǎn)單：如果 Google 可以抓取你的頁(yè)面，它可以將其編入索引并在搜索結(jié)果中顯示它。

谷歌在 2019 年估計(jì)，超過(guò) 5 億個(gè)網(wǎng)站擁有一個(gè) robots.txt 頁(yè)面，指示這些爬蟲(chóng)是否可以訪(fǎng)問(wèn)以及可以訪(fǎng)問(wèn)什么。這些頁(yè)面的結(jié)構(gòu)通常大致相同：它命名了一個(gè)“User-agent”，指的是爬蟲(chóng)在向服務(wù)器標(biāo)識(shí)自己時(shí)使用的名稱(chēng)。谷歌的代理是 Googlebot；亞馬遜的是 Amazonbot；Bing 是 Bingbot；OpenAI 的是 GPTBot。Pinterest、LinkedIn、Twitter 和許多其他網(wǎng)站和服務(wù)都有自己的機(jī)器人，并非所有機(jī)器人都會(huì)在每個(gè)頁(yè)面上提及。(維基百科和 Facebook 是兩個(gè)機(jī)器人特別詳細(xì)的平臺(tái)。)在下面，robots.txt 頁(yè)面列出了給定代理不允許訪(fǎng)問(wèn)的站點(diǎn)部分或頁(yè)面，以及允許的特定例外。如果該行只寫(xiě)著“Disallow: /”，則爬蟲(chóng)完全不受歡迎。

對(duì)于大多數(shù)人來(lái)說(shuō)，“服務(wù)器過(guò)載”已經(jīng)不再是他們真正關(guān)心的事情了?！叭缃?，這通常與網(wǎng)站上使用的資源無(wú)關(guān)，而更多與個(gè)人喜好有關(guān)，”谷歌搜索倡導(dǎo)者 John Mueller 說(shuō)?！澳阆胱屇男﹥?nèi)容被抓取和索引等等？”

歷史上，大多數(shù)網(wǎng)站所有者必須回答的最大問(wèn)題是是否允許 Googlebot 抓取他們的網(wǎng)站。權(quán)衡取舍相當(dāng)簡(jiǎn)單：如果 Google 可以抓取你的頁(yè)面，它可以將其編入索引并在搜索結(jié)果中顯示它。任何你希望 Google 可以搜索的頁(yè)面，Googlebot 都需要看到。(當(dāng)然，Google 実際に搜索結(jié)果中顯示該頁(yè)面的方式和位置是完全不同的問(wèn)題。)問(wèn)題是你是否愿意讓 Google 消耗一些你的帶寬并下載你的網(wǎng)站副本以換取搜索帶來(lái)的可見(jiàn)性。

對(duì)于大多數(shù)網(wǎng)站來(lái)說(shuō)，這是一個(gè)簡(jiǎn)單的交易。“Google 是我們最重要的蜘蛛，”Medium 首席執(zhí)行官 Tony Stubblebine 說(shuō)。Google 可以下載 Medium 的所有頁(yè)面，“作為交換，我們獲得了大量流量。這是雙贏。每個(gè)人都這么認(rèn)為?！边@是 Google 與整個(gè)互聯(lián)網(wǎng)達(dá)成的協(xié)議，以通過(guò)出售搜索結(jié)果中的廣告來(lái)為其他網(wǎng)站引流。根據(jù)所有人的說(shuō)法，Google 一直是 robots.txt 的模范公民?！皫缀跛兄乃阉饕娑甲袷厮惫雀璧?Mueller 說(shuō)。“他們很高興能夠抓取網(wǎng)絡(luò)，但他們不想以此惹惱人們……這只是讓每個(gè)人都更輕松?！?/p>

然而，在過(guò)去的一年左右，人工智能的興起顛覆了這一等式。對(duì)于許多出版商和平臺(tái)來(lái)說(shuō)，讓他們的數(shù)據(jù)被抓取以訓(xùn)練數(shù)據(jù)感覺(jué)更像是偷竊而不是交易。“我們很快發(fā)現(xiàn)，與人工智能公司合作，”Stubblebine 說(shuō)，“不僅不是價(jià)值交換，我們也一無(wú)所獲。真的零?！比ツ昵锾?，當(dāng) Stubblebine 宣布 Medium 將阻止人工智能爬蟲(chóng)時(shí)，他寫(xiě)道“人工智能公司已經(jīng)從作家那里榨取了價(jià)值，以便向互聯(lián)網(wǎng)讀者發(fā)送垃圾郵件?！?/p>

去年，媒體行業(yè)的大部分人士都表達(dá)了與 Stubblebine 相同的觀點(diǎn)。“我們不認(rèn)為未經(jīng)我們?cè)S可‘抓取’BBC 數(shù)據(jù)以訓(xùn)練通用人工智能模型符合公共利益，”BBC 全國(guó)總監(jiān) Rhodri Talfan Davies 去年秋天寫(xiě)道，并宣布 BBC 也將阻止 OpenAI 的爬蟲(chóng)。紐約時(shí)報(bào)也屏蔽了 GPTBot，幾個(gè)月前它起訴 OpenAI 稱(chēng) OpenAI 的模型“是通過(guò)復(fù)制和使用紐約時(shí)報(bào)的數(shù)百萬(wàn)篇版權(quán)新聞文章、深度調(diào)查、觀點(diǎn)文章、評(píng)論、操作指南等構(gòu)建的?！甭吠干缧侣剳?yīng)用編輯 Ben Welsh 的一項(xiàng)研究發(fā)現(xiàn)，在接受調(diào)查的 1,156 家出版商中，有 606 家在其 robots.txt 文件中屏蔽了 GPTBot。

這不僅僅是出版商。亞馬遜、Facebook、Pinterest、WikiHow、WebMD 和許多其他平臺(tái)明確阻止 GPTBot 訪(fǎng)問(wèn)其部分或全部網(wǎng)站。在大多數(shù)這些 robots.txt 頁(yè)面上，OpenAI 的 GPTBot 是唯一明確和完全不允許的爬蟲(chóng)。但還有許多其他以人工智能為目標(biāo)的機(jī)器人開(kāi)始在網(wǎng)絡(luò)上爬行，例如 Anthropic 的 anthropic-ai 和谷歌的新 Google-Extended。根據(jù) Originality.AI 去年秋天的一項(xiàng)研究，網(wǎng)絡(luò)上排名前 1,000 的網(wǎng)站中有 306 個(gè)屏蔽了 GPTBot，但只有 85 個(gè)屏蔽了 Google-Extended，28 個(gè)屏蔽了 anthropic-ai。

還有一些爬蟲(chóng)用于網(wǎng)絡(luò)搜索和人工智能。CCBot 由 Common Crawl 組織運(yùn)營(yíng)，出于搜索引擎目的搜尋網(wǎng)絡(luò)，但其數(shù)據(jù)也由 OpenAI、Google 和其他公司用于訓(xùn)練其模型。微軟的 Bingbot 既是搜索爬蟲(chóng)又是人工智能爬蟲(chóng)。這些只是識(shí)別自身的爬蟲(chóng)——許多其他爬蟲(chóng)試圖在相對(duì)秘密的環(huán)境中運(yùn)作，使得很難阻止甚至在其他網(wǎng)絡(luò)流量中找到它們。對(duì)于任何足夠受歡迎的網(wǎng)站來(lái)說(shuō)，找到一個(gè)偷偷摸摸的爬蟲(chóng)就像大海撈針。

在很大程度上，GPTBot 已成為 robots.txt 的主要反派，因?yàn)?OpenAI 允許這種情況發(fā)生。該公司發(fā)布并宣傳了一頁(yè)關(guān)于如何阻止 GPTBot 的信息，并構(gòu)建了其爬蟲(chóng)，使其在每次接近網(wǎng)站時(shí)都會(huì)大聲識(shí)別自己。當(dāng)然，它在訓(xùn)練出使其如此強(qiáng)大的底層模型之后才做所有這些事情，并且只是在它成為技術(shù)生態(tài)系統(tǒng)的重要組成部分之后才做所有這些事情。但 OpenAI 的首席戰(zhàn)略官 Jason Kwon 說(shuō)，這正是重點(diǎn)?！拔覀兪巧鷳B(tài)系統(tǒng)中的參與者，”他說(shuō)?！叭绻阆胍蚤_(kāi)放的方式參與這個(gè)生態(tài)系統(tǒng)，那么這就是每個(gè)人都感興趣的互惠交易。”他說(shuō)，沒(méi)有這筆交易，網(wǎng)絡(luò)就會(huì)開(kāi)始萎縮、關(guān)閉——這對(duì) OpenAI 和所有人來(lái)說(shuō)都是壞事?！拔覀冏鲞@一切都是為了讓網(wǎng)絡(luò)保持開(kāi)放。”

默認(rèn)情況下，機(jī)器人排除協(xié)議一直是允許的。它相信，就像 Koster 30 年前所做的那樣，大多數(shù)機(jī)器人都是好的，由好人制造，因此默認(rèn)允許它們?？偟膩?lái)說(shuō)，這是正確的決定?！拔艺J(rèn)為互聯(lián)網(wǎng)從根本上是一種社會(huì)生物，”O(jiān)penAI 的 Kwon 說(shuō)，“而這種持續(xù)了數(shù)十年的握手似乎奏效了?！彼f(shuō)，OpenAI 在維持這一協(xié)議方面發(fā)揮的作用包括讓 ChatGPT 對(duì)大多數(shù)用戶(hù)免費(fèi)，從而將價(jià)值返還給他們，并遵守機(jī)器人規(guī)則。

但 robots.txt 不是法律文件——在其創(chuàng)建 30 年后，它仍然依賴(lài)于所有相關(guān)方的善意。在你的 robots.txt 頁(yè)面上禁止機(jī)器人就像在你的樹(shù)屋上貼上“女孩禁止入內(nèi)”的標(biāo)語(yǔ)一樣——它會(huì)發(fā)送一條消息，但它不會(huì)在法庭上站得住腳。任何想要忽略 robots.txt 的爬蟲(chóng)都可以簡(jiǎn)單地這樣做，而幾乎不必?fù)?dān)心后果。(盡管?chē)@網(wǎng)絡(luò)抓取有一些法律先例，但即使這些先例也可能很復(fù)雜，并且主要落在允許抓取和抓取上。)例如，互聯(lián)網(wǎng)檔案在 2017 年宣布它不再遵守 robots.txt 的規(guī)則?！半S著時(shí)間的推移，我們觀察到，面向搜索引擎爬蟲(chóng)的 robots.txt 文件不一定符合我們的存檔目的，”互聯(lián)網(wǎng)檔案 Wayback Machine 主任 Mark Graham 當(dāng)時(shí)寫(xiě)道。就這樣結(jié)束了。

隨著人工智能公司的不斷涌現(xiàn)，以及它們的爬蟲(chóng)變得越來(lái)越不擇手段，任何想要觀望或等待人工智能接管的人都要進(jìn)行一場(chǎng)永無(wú)止境的打地鼠游戲。他們必須單獨(dú)阻止每個(gè)機(jī)器人和爬蟲(chóng)，如果這甚至可能的話(huà)，同時(shí)還要考慮副作用。如果人工智能確實(shí)是搜索的未來(lái)，正如谷歌和其他公司所預(yù)測(cè)的那樣，那么阻止人工智能爬蟲(chóng)可能是短期的勝利，但卻是長(zhǎng)期的災(zāi)難。

雙方都有人認(rèn)為我們需要更好、更強(qiáng)大、更嚴(yán)格的工具來(lái)管理爬蟲(chóng)。他們爭(zhēng)辯說(shuō)，涉及的資金太多，新的和不受監(jiān)管的用例太多，無(wú)法依靠每個(gè)人都同意做正確的事情?！半m然許多參與者制定了一些規(guī)則來(lái)規(guī)范他們使用爬蟲(chóng)的行為，”兩位專(zhuān)注于技術(shù)的律師在 2019 年關(guān)于網(wǎng)絡(luò)爬蟲(chóng)合法性的論文中寫(xiě)道，“但總體而言，這些規(guī)則過(guò)于薄弱，追究他們的責(zé)任太困難?！?/p>

一些出版商希望對(duì)被抓取的內(nèi)容以及用于何處進(jìn)行更詳細(xì)的控制，而不是 robots.txt 的全面允許或拒絕權(quán)限。谷歌幾年前曾努力使機(jī)器人排除協(xié)議成為正式的官方標(biāo)準(zhǔn)，也推動(dòng)弱化 robots.txt 的地位，理由是它是一個(gè)過(guò)時(shí)的標(biāo)準(zhǔn)，太多網(wǎng)站不予理會(huì)?！拔覀冋J(rèn)識(shí)到現(xiàn)有的網(wǎng)絡(luò)發(fā)布者控制是在新的 AI 和研究用例出現(xiàn)之前開(kāi)發(fā)的，”谷歌信任副總裁 Danielle Romain 去年寫(xiě)道?！拔覀兿嘈牛W(wǎng)絡(luò)和人工智能社區(qū)是時(shí)候探索額外的機(jī)器可讀手段，以實(shí)現(xiàn)網(wǎng)絡(luò)發(fā)布者對(duì)新興人工智能和研究用例的選擇和控制?！?/p>

即使人工智能公司在如何構(gòu)建和訓(xùn)練模型方面面臨監(jiān)管和法律問(wèn)題，這些模型仍在不斷改進(jìn)，新公司似乎每天都在涌現(xiàn)。大小網(wǎng)站都面臨著一個(gè)決定：屈服于人工智能革命或堅(jiān)持反對(duì)它。對(duì)于那些選擇退出的人來(lái)說(shuō)，他們最強(qiáng)大的武器是三十年前由網(wǎng)絡(luò)上最早和最樂(lè)觀的真正信徒達(dá)成的協(xié)議。他們相信互聯(lián)網(wǎng)是一個(gè)美好的地方，充滿(mǎn)了善良的人，他們最希望互聯(lián)網(wǎng)成為一件美好的事情。在那個(gè)世界和那個(gè)互聯(lián)網(wǎng)上，在一個(gè)文本文件中解釋你的愿望應(yīng)該足夠了。

本文譯自The Verge，由超載雞編輯發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI 機(jī)器學(xué)習(xí) ChatGPT 生成式AI AI芯片 AIGC U-Mail 世界人工智能大會(huì) AI大模型 AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 蘋(píng)果AI 谷歌AI GenAI 科大訊飛AI學(xué)習(xí)機(jī) 百度AI CAICT 阿爾法蛋AI詞典筆T10 AI手機(jī) 華為AI 松鼠AI 微軟AI AI+ AIS Airdoc WAIC 昇騰AI創(chuàng)新大賽 AITO 阿爾法蛋AI詞典筆京東AI 智譜AI AI模型 SoleusAir aigo SoleusAir舒樂(lè)氏 2019世界人工智能大會(huì) LIFAair AI機(jī)器人 AI創(chuàng)企移動(dòng)AI時(shí)代人工智能大會(huì) 浙大AIF Zain 人工智能技術(shù) AI應(yīng)用 AI醫(yī)療人工智能芯片 AI人才 xAI Airtag AI算力 AI時(shí)代騰訊AI AI服務(wù)器 AI算法 AI框架 BrainCo AI投資 Gmail 人工智能計(jì)算中心聯(lián)想AI VAIO 人工智能大賽 AI教育 Chain Coremail OPENAIGC開(kāi)發(fā)者大賽 AI賦能谷歌人工智能 Airwheel AI搜索人工智能名片昇騰AI開(kāi)發(fā)者創(chuàng)享日 Mirai AI聊天機(jī)器人 AI音樂(lè) Airwallex空中云匯 BrainCo強(qiáng)腦科技 AI原生應(yīng)用百度人工智能 AI計(jì)算阿爾法蛋AI詞典筆T20 AIOps 阿里AI 英偉達(dá)AI芯片 AI基礎(chǔ)設(shè)施蘋(píng)果人工智能人工智能+

上一篇

首款女性AI超輕薄本華碩a豆14 Air發(fā)布，成為你的“智能閨蜜”

下一篇

Gartner預(yù)測(cè)到2026年傳統(tǒng)搜索引擎搜索量將下降25%

簡(jiǎn)版
原版
投稿
回頂部

2024-02-20

網(wǎng)站與爬蟲(chóng)的博弈：小小的robots.txt還能守住數(shù)據(jù)嗎？

三十多年來(lái)，一個(gè)簡(jiǎn)單的文本文件robots.txt一直維持著網(wǎng)絡(luò)秩序，控制網(wǎng)絡(luò)爬蟲(chóng)的行為。但隨著AI公司的崛起，它們?yōu)榱擞?xùn)練模型而大量采集數(shù)據(jù)，使得網(wǎng)絡(luò)的“社交契約”面臨崩潰。

長(zhǎng)按掃碼閱讀全文

<style id="4cxxd"></style>