精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    網(wǎng)站與爬蟲(chóng)的博弈:小小的robots.txt還能守住數(shù)據(jù)嗎?

    三十多年來(lái),一個(gè)簡(jiǎn)單的文本文件robots.txt一直維持著網(wǎng)絡(luò)秩序,控制網(wǎng)絡(luò)爬蟲(chóng)的行為。但隨著AI公司的崛起,它們?yōu)榱擞?xùn)練模型而大量采集數(shù)據(jù),使得網(wǎng)絡(luò)的“社交契約”面臨崩潰。網(wǎng)站擁有者和AI公司之間展開(kāi)博弈,robots.txt的未來(lái)也變得撲朔迷離。

    幾十年來(lái),一個(gè)微小的文本文件默默守護(hù)著網(wǎng)絡(luò)的秩序。它沒(méi)有法律或技術(shù)權(quán)威,甚至也沒(méi)有復(fù)雜的技術(shù)含量。它代表了互聯(lián)網(wǎng)早期先驅(qū)們的一項(xiàng)“握手協(xié)議”,旨在互相尊重彼此的意愿,共同建設(shè)一個(gè)對(duì) everyone 有益的網(wǎng)絡(luò)。它可以說(shuō)是互聯(lián)網(wǎng)的一部微型憲法,用代碼寫(xiě)成。

    它叫作 robots.txt,通常位于你的網(wǎng)站根目錄下。這個(gè)文件允許任何網(wǎng)站所有者——無(wú)論大小,是烹飪博客還是跨國(guó)公司——告訴互聯(lián)網(wǎng)誰(shuí)可以進(jìn)入誰(shuí)不可以。哪些搜索引擎可以索引你的網(wǎng)站?哪些檔案項(xiàng)目可以抓取你的頁(yè)面并保存?競(jìng)爭(zhēng)對(duì)手是否可以監(jiān)控你的頁(yè)面以供他們自己使用?你可以做出決定并通知網(wǎng)絡(luò)。

    這不是一個(gè)完美的系統(tǒng),但它曾經(jīng)運(yùn)作良好。至少以前是這樣。幾十年來(lái),robots.txt 的主要關(guān)注點(diǎn)是搜索引擎;你允許它們抓取你的網(wǎng)站,作為交換,它們承諾將人們發(fā)送回你那里?,F(xiàn)在,AI 改變了這個(gè)公式:網(wǎng)絡(luò)上的公司正在使用你的網(wǎng)站及其數(shù)據(jù)來(lái)構(gòu)建大量訓(xùn)練數(shù)據(jù)集,以便構(gòu)建可能根本不會(huì)承認(rèn)你存在的模型和產(chǎn)品。

    robots.txt 規(guī)定了一種交換關(guān)系;對(duì)許多人來(lái)說(shuō),AI 感覺(jué)只索取不付出。但現(xiàn)在,AI 領(lǐng)域的資金如此龐大,技術(shù)水平變化如此之快,許多網(wǎng)站所有者都無(wú)法跟上。而 robots.txt 背后的基本協(xié)議,以及整個(gè)網(wǎng)絡(luò)——長(zhǎng)久以來(lái)一直是“每個(gè)人都保持冷靜”——也可能無(wú)法跟上步伐。

    在互聯(lián)網(wǎng)早期,機(jī)器人有很多名字:蜘蛛(spider)、爬蟲(chóng)(crawler)、蠕蟲(chóng)(worm)、WebAnt、網(wǎng)絡(luò)爬蟲(chóng)。大多數(shù)情況下,它們都是出于善意而建造的。通常是開(kāi)發(fā)人員試圖建立一個(gè)酷炫的新網(wǎng)站目錄,確保他們自己的網(wǎng)站正常運(yùn)行,或者建立研究數(shù)據(jù)庫(kù)——這是大約 1993 年的事,當(dāng)時(shí)搜索引擎還沒(méi)有普及,你可以在計(jì)算機(jī)硬盤(pán)上容納大部分互聯(lián)網(wǎng)。

    當(dāng)時(shí)唯一真正的問(wèn)題是流量:訪(fǎng)問(wèn)互聯(lián)網(wǎng)對(duì)于看到網(wǎng)站的人和托管網(wǎng)站的人來(lái)說(shuō)都慢且昂貴。如果你像許多人一樣將你的網(wǎng)站托管在你的計(jì)算機(jī)上,或者通過(guò)你的家庭互聯(lián)網(wǎng)連接運(yùn)行匆忙構(gòu)建的服務(wù)器軟件,那么只需要幾個(gè)機(jī)器人過(guò)分熱心地下載你的頁(yè)面,事情就會(huì)崩潰,電話(huà)賬單也會(huì)飆升。

    在 1994 年的幾個(gè)月里,軟件工程師和開(kāi)發(fā)人員 Martijn Koster 與其他網(wǎng)絡(luò)管理員和開(kāi)發(fā)人員一起提出了一種解決方案,他們稱(chēng)之為機(jī)器人排除協(xié)議 (Robots Exclusion Protocol)。該提案相當(dāng)簡(jiǎn)單:它要求網(wǎng)絡(luò)開(kāi)發(fā)人員在其域中添加一個(gè)純文本文件,指定哪些機(jī)器人不允許在其網(wǎng)站上搜索,或列出所有機(jī)器人都不允許訪(fǎng)問(wèn)的頁(yè)面。(再次,當(dāng)時(shí)你可以維護(hù)一份存在的每個(gè)機(jī)器人的列表——Koster 和其他幾個(gè)人幫助做了這件事。) 對(duì)于機(jī)器人制造商來(lái)說(shuō),這筆交易更簡(jiǎn)單:尊重文本文件的愿望。

    從一開(kāi)始,Koster 就明確表示他不討厭機(jī)器人,也不打算擺脫它們?!皺C(jī)器人是網(wǎng)絡(luò)上少數(shù)幾個(gè)造成運(yùn)營(yíng)問(wèn)題和讓人心煩的方面之一,”他在 1994 年初發(fā)送給名為 WWW-Talk 的郵件列表(其中包括網(wǎng)絡(luò)早期先驅(qū)者,如 Tim Berners-Lee 和 Marc Andreessen)的初始電子郵件中說(shuō)?!巴瑫r(shí),它們確實(shí)提供有用的服務(wù)?!盞oster 警告不要爭(zhēng)論機(jī)器人是好是壞——因?yàn)檫@并不重要,它們已經(jīng)存在了,不會(huì)消失。他只是試圖設(shè)計(jì)一個(gè)“最小化問(wèn)題并可能最大化收益”的系統(tǒng)。

    “機(jī)器人是網(wǎng)絡(luò)上少數(shù)幾個(gè)造成運(yùn)營(yíng)問(wèn)題和讓人心煩的方面之一。同時(shí),它們確實(shí)提供有用的服務(wù)?!?/p>

    到那年的夏天,他的提議已成為一個(gè)標(biāo)準(zhǔn)——不是官方標(biāo)準(zhǔn),而是更或多或少被普遍接受的標(biāo)準(zhǔn)。Koster 在 6 月再次致電 WWW-Talk 小組進(jìn)行更新?!昂?jiǎn)而言之,它是一種通過(guò)在服務(wù)器上提供一個(gè)簡(jiǎn)單的文本文件將機(jī)器人引導(dǎo)遠(yuǎn)離網(wǎng)絡(luò)服務(wù)器 URL 空間中某些區(qū)域的方法,”他寫(xiě)道?!叭绻銚碛写笮痛鏅n、具有大量 URL 子樹(shù)的 CGI 腳本、臨時(shí)信息,或者只是不想為機(jī)器人服務(wù),這特別方便?!彼⒘艘粋€(gè)主題特定的郵件列表,其成員同意了一些基本語(yǔ)法和結(jié)構(gòu)用于那些文本文件,將文件名稱(chēng)從 RobotsNotWanted.txt 更改為簡(jiǎn)單的 robots.txt,并且?guī)缀跛腥硕纪庵С炙?/p>

    在接下來(lái)的 30 年里,這工作得很好。

    但互聯(lián)網(wǎng)不再能裝在硬盤(pán)上了,機(jī)器人也變得更加強(qiáng)大。谷歌使用它們抓取和索引整個(gè)網(wǎng)絡(luò)以供其搜索引擎使用,而搜索引擎已成為互聯(lián)網(wǎng)的接口,每年為該公司帶來(lái)數(shù)十億美元的收入。Bing 的爬蟲(chóng)也做了同樣的事情,微軟將其數(shù)據(jù)庫(kù)授權(quán)給其他搜索引擎和公司。互聯(lián)網(wǎng)檔案使用爬蟲(chóng)來(lái)存儲(chǔ)網(wǎng)頁(yè)以供后世使用。亞馬遜的爬蟲(chóng)在網(wǎng)絡(luò)上搜尋產(chǎn)品信息,根據(jù)最近的一項(xiàng)反壟斷訴訟,該公司使用這些信息來(lái)懲罰在亞馬遜以外提供更好交易的賣(mài)家。像 OpenAI 這樣的 AI 公司正在抓取網(wǎng)絡(luò)以訓(xùn)練大型語(yǔ)言模型,這些模型可能會(huì)再次從根本上改變我們?cè)L問(wèn)和共享信息的方式。

    下載、存儲(chǔ)、組織和查詢(xún)現(xiàn)代互聯(lián)網(wǎng)的能力使任何公司或開(kāi)發(fā)人員都能使用世界上積累的知識(shí)。在過(guò)去的一年左右,像 ChatGPT 這樣的 AI 產(chǎn)品的興起,以及它們背后的大型語(yǔ)言模型,使得高質(zhì)量的訓(xùn)練數(shù)據(jù)成為互聯(lián)網(wǎng)上最有價(jià)值的商品之一。這導(dǎo)致各種互聯(lián)網(wǎng)提供商重新考慮其服務(wù)器上的數(shù)據(jù)的價(jià)值,并重新考慮誰(shuí)可以訪(fǎng)問(wèn)什么。過(guò)于寬松可能會(huì)讓你的網(wǎng)站失去所有價(jià)值;過(guò)于嚴(yán)格可能會(huì)讓你變得隱形。你必須始終根據(jù)新的公司、新的合作伙伴和新的利益相關(guān)者做出選擇。

    互聯(lián)網(wǎng)機(jī)器人有幾種類(lèi)型。你可以構(gòu)建一個(gè)完全無(wú)害的機(jī)器人來(lái)四處爬行并確保你的所有頁(yè)面鏈接仍然指向其他實(shí)時(shí)頁(yè)面;你可以發(fā)送一個(gè)更粗略的機(jī)器人繞著網(wǎng)絡(luò)收集你能找到的每個(gè)電子郵件地址或電話(huà)號(hào)碼。但最常見(jiàn)、目前最具爭(zhēng)議的是簡(jiǎn)單的網(wǎng)絡(luò)爬蟲(chóng)。它的工作是盡可能多地查找和下載互聯(lián)網(wǎng)上的內(nèi)容。

    網(wǎng)絡(luò)爬蟲(chóng)通常相當(dāng)簡(jiǎn)單。它們從一個(gè)眾所周知的網(wǎng)站開(kāi)始,例如 cnn.com 或 wikipedia.org 或 health.gov。(如果你正在運(yùn)行通用搜索引擎,你將從不同主題的大量高質(zhì)量域名開(kāi)始;如果你只關(guān)心體育或汽車(chē),你將只從汽車(chē)網(wǎng)站開(kāi)始。)爬蟲(chóng)下載該第一個(gè)頁(yè)面并將其存儲(chǔ)在某處,然后自動(dòng)單擊該頁(yè)面上的每個(gè)鏈接,下載所有這些鏈接,單擊每個(gè)鏈接,并在網(wǎng)絡(luò)上傳播。有足夠的時(shí)間和足夠的計(jì)算資源,爬蟲(chóng)最終會(huì)找到并下載數(shù)十億個(gè)網(wǎng)頁(yè)。

    權(quán)衡取舍相當(dāng)簡(jiǎn)單:如果 Google 可以抓取你的頁(yè)面,它可以將其編入索引并在搜索結(jié)果中顯示它。

    谷歌在 2019 年估計(jì),超過(guò) 5 億個(gè)網(wǎng)站擁有一個(gè) robots.txt 頁(yè)面,指示這些爬蟲(chóng)是否可以訪(fǎng)問(wèn)以及可以訪(fǎng)問(wèn)什么。這些頁(yè)面的結(jié)構(gòu)通常大致相同:它命名了一個(gè)“User-agent”,指的是爬蟲(chóng)在向服務(wù)器標(biāo)識(shí)自己時(shí)使用的名稱(chēng)。谷歌的代理是 Googlebot;亞馬遜的是 Amazonbot;Bing 是 Bingbot;OpenAI 的是 GPTBot。Pinterest、LinkedIn、Twitter 和許多其他網(wǎng)站和服務(wù)都有自己的機(jī)器人,并非所有機(jī)器人都會(huì)在每個(gè)頁(yè)面上提及。(維基百科和 Facebook 是兩個(gè)機(jī)器人特別詳細(xì)的平臺(tái)。)在下面,robots.txt 頁(yè)面列出了給定代理不允許訪(fǎng)問(wèn)的站點(diǎn)部分或頁(yè)面,以及允許的特定例外。如果該行只寫(xiě)著“Disallow: /”,則爬蟲(chóng)完全不受歡迎。

    對(duì)于大多數(shù)人來(lái)說(shuō),“服務(wù)器過(guò)載”已經(jīng)不再是他們真正關(guān)心的事情了?!叭缃?,這通常與網(wǎng)站上使用的資源無(wú)關(guān),而更多與個(gè)人喜好有關(guān),”谷歌搜索倡導(dǎo)者 John Mueller 說(shuō)?!澳阆胱屇男﹥?nèi)容被抓取和索引等等?”

    歷史上,大多數(shù)網(wǎng)站所有者必須回答的最大問(wèn)題是是否允許 Googlebot 抓取他們的網(wǎng)站。權(quán)衡取舍相當(dāng)簡(jiǎn)單:如果 Google 可以抓取你的頁(yè)面,它可以將其編入索引并在搜索結(jié)果中顯示它。任何你希望 Google 可以搜索的頁(yè)面,Googlebot 都需要看到。(當(dāng)然,Google 実際に搜索結(jié)果中顯示該頁(yè)面的方式和位置是完全不同的問(wèn)題。)問(wèn)題是你是否愿意讓 Google 消耗一些你的帶寬并下載你的網(wǎng)站副本以換取搜索帶來(lái)的可見(jiàn)性。

    對(duì)于大多數(shù)網(wǎng)站來(lái)說(shuō),這是一個(gè)簡(jiǎn)單的交易。“Google 是我們最重要的蜘蛛,”Medium 首席執(zhí)行官 Tony Stubblebine 說(shuō)。Google 可以下載 Medium 的所有頁(yè)面,“作為交換,我們獲得了大量流量。這是雙贏。每個(gè)人都這么認(rèn)為?!边@是 Google 與整個(gè)互聯(lián)網(wǎng)達(dá)成的協(xié)議,以通過(guò)出售搜索結(jié)果中的廣告來(lái)為其他網(wǎng)站引流。根據(jù)所有人的說(shuō)法,Google 一直是 robots.txt 的模范公民?!皫缀跛兄乃阉饕娑甲袷厮惫雀璧?Mueller 說(shuō)。“他們很高興能夠抓取網(wǎng)絡(luò),但他們不想以此惹惱人們……這只是讓每個(gè)人都更輕松?!?/p>

    然而,在過(guò)去的一年左右,人工智能的興起顛覆了這一等式。對(duì)于許多出版商和平臺(tái)來(lái)說(shuō),讓他們的數(shù)據(jù)被抓取以訓(xùn)練數(shù)據(jù)感覺(jué)更像是偷竊而不是交易。“我們很快發(fā)現(xiàn),與人工智能公司合作,”Stubblebine 說(shuō),“不僅不是價(jià)值交換,我們也一無(wú)所獲。真的零?!比ツ昵锾?,當(dāng) Stubblebine 宣布 Medium 將阻止人工智能爬蟲(chóng)時(shí),他寫(xiě)道“人工智能公司已經(jīng)從作家那里榨取了價(jià)值,以便向互聯(lián)網(wǎng)讀者發(fā)送垃圾郵件?!?/p>

    去年,媒體行業(yè)的大部分人士都表達(dá)了與 Stubblebine 相同的觀點(diǎn)。“我們不認(rèn)為未經(jīng)我們?cè)S可‘抓取’BBC 數(shù)據(jù)以訓(xùn)練通用人工智能模型符合公共利益,”BBC 全國(guó)總監(jiān) Rhodri Talfan Davies 去年秋天寫(xiě)道,并宣布 BBC 也將阻止 OpenAI 的爬蟲(chóng)。紐約時(shí)報(bào)也屏蔽了 GPTBot,幾個(gè)月前它起訴 OpenAI 稱(chēng) OpenAI 的模型“是通過(guò)復(fù)制和使用紐約時(shí)報(bào)的數(shù)百萬(wàn)篇版權(quán)新聞文章、深度調(diào)查、觀點(diǎn)文章、評(píng)論、操作指南等構(gòu)建的?!甭吠干缧侣剳?yīng)用編輯 Ben Welsh 的一項(xiàng)研究發(fā)現(xiàn),在接受調(diào)查的 1,156 家出版商中,有 606 家在其 robots.txt 文件中屏蔽了 GPTBot。

    這不僅僅是出版商。亞馬遜、Facebook、Pinterest、WikiHow、WebMD 和許多其他平臺(tái)明確阻止 GPTBot 訪(fǎng)問(wèn)其部分或全部網(wǎng)站。在大多數(shù)這些 robots.txt 頁(yè)面上,OpenAI 的 GPTBot 是唯一明確和完全不允許的爬蟲(chóng)。但還有許多其他以人工智能為目標(biāo)的機(jī)器人開(kāi)始在網(wǎng)絡(luò)上爬行,例如 Anthropic 的 anthropic-ai 和谷歌的新 Google-Extended。根據(jù) Originality.AI 去年秋天的一項(xiàng)研究,網(wǎng)絡(luò)上排名前 1,000 的網(wǎng)站中有 306 個(gè)屏蔽了 GPTBot,但只有 85 個(gè)屏蔽了 Google-Extended,28 個(gè)屏蔽了 anthropic-ai。

    還有一些爬蟲(chóng)用于網(wǎng)絡(luò)搜索和人工智能。CCBot 由 Common Crawl 組織運(yùn)營(yíng),出于搜索引擎目的搜尋網(wǎng)絡(luò),但其數(shù)據(jù)也由 OpenAI、Google 和其他公司用于訓(xùn)練其模型。微軟的 Bingbot 既是搜索爬蟲(chóng)又是人工智能爬蟲(chóng)。這些只是識(shí)別自身的爬蟲(chóng)——許多其他爬蟲(chóng)試圖在相對(duì)秘密的環(huán)境中運(yùn)作,使得很難阻止甚至在其他網(wǎng)絡(luò)流量中找到它們。對(duì)于任何足夠受歡迎的網(wǎng)站來(lái)說(shuō),找到一個(gè)偷偷摸摸的爬蟲(chóng)就像大海撈針。

    在很大程度上,GPTBot 已成為 robots.txt 的主要反派,因?yàn)?OpenAI 允許這種情況發(fā)生。該公司發(fā)布并宣傳了一頁(yè)關(guān)于如何阻止 GPTBot 的信息,并構(gòu)建了其爬蟲(chóng),使其在每次接近網(wǎng)站時(shí)都會(huì)大聲識(shí)別自己。當(dāng)然,它在訓(xùn)練出使其如此強(qiáng)大的底層模型之后才做所有這些事情,并且只是在它成為技術(shù)生態(tài)系統(tǒng)的重要組成部分之后才做所有這些事情。但 OpenAI 的首席戰(zhàn)略官 Jason Kwon 說(shuō),這正是重點(diǎn)?!拔覀兪巧鷳B(tài)系統(tǒng)中的參與者,”他說(shuō)?!叭绻阆胍蚤_(kāi)放的方式參與這個(gè)生態(tài)系統(tǒng),那么這就是每個(gè)人都感興趣的互惠交易。”他說(shuō),沒(méi)有這筆交易,網(wǎng)絡(luò)就會(huì)開(kāi)始萎縮、關(guān)閉——這對(duì) OpenAI 和所有人來(lái)說(shuō)都是壞事?!拔覀冏鲞@一切都是為了讓網(wǎng)絡(luò)保持開(kāi)放。”

    默認(rèn)情況下,機(jī)器人排除協(xié)議一直是允許的。它相信,就像 Koster 30 年前所做的那樣,大多數(shù)機(jī)器人都是好的,由好人制造,因此默認(rèn)允許它們??偟膩?lái)說(shuō),這是正確的決定?!拔艺J(rèn)為互聯(lián)網(wǎng)從根本上是一種社會(huì)生物,”O(jiān)penAI 的 Kwon 說(shuō),“而這種持續(xù)了數(shù)十年的握手似乎奏效了?!彼f(shuō),OpenAI 在維持這一協(xié)議方面發(fā)揮的作用包括讓 ChatGPT 對(duì)大多數(shù)用戶(hù)免費(fèi),從而將價(jià)值返還給他們,并遵守機(jī)器人規(guī)則。

    但 robots.txt 不是法律文件——在其創(chuàng)建 30 年后,它仍然依賴(lài)于所有相關(guān)方的善意。在你的 robots.txt 頁(yè)面上禁止機(jī)器人就像在你的樹(shù)屋上貼上“女孩禁止入內(nèi)”的標(biāo)語(yǔ)一樣——它會(huì)發(fā)送一條消息,但它不會(huì)在法庭上站得住腳。任何想要忽略 robots.txt 的爬蟲(chóng)都可以簡(jiǎn)單地這樣做,而幾乎不必?fù)?dān)心后果。(盡管?chē)@網(wǎng)絡(luò)抓取有一些法律先例,但即使這些先例也可能很復(fù)雜,并且主要落在允許抓取和抓取上。)例如,互聯(lián)網(wǎng)檔案在 2017 年宣布它不再遵守 robots.txt 的規(guī)則?!半S著時(shí)間的推移,我們觀察到,面向搜索引擎爬蟲(chóng)的 robots.txt 文件不一定符合我們的存檔目的,”互聯(lián)網(wǎng)檔案 Wayback Machine 主任 Mark Graham 當(dāng)時(shí)寫(xiě)道。就這樣結(jié)束了。

    隨著人工智能公司的不斷涌現(xiàn),以及它們的爬蟲(chóng)變得越來(lái)越不擇手段,任何想要觀望或等待人工智能接管的人都要進(jìn)行一場(chǎng)永無(wú)止境的打地鼠游戲。他們必須單獨(dú)阻止每個(gè)機(jī)器人和爬蟲(chóng),如果這甚至可能的話(huà),同時(shí)還要考慮副作用。如果人工智能確實(shí)是搜索的未來(lái),正如谷歌和其他公司所預(yù)測(cè)的那樣,那么阻止人工智能爬蟲(chóng)可能是短期的勝利,但卻是長(zhǎng)期的災(zāi)難。

    雙方都有人認(rèn)為我們需要更好、更強(qiáng)大、更嚴(yán)格的工具來(lái)管理爬蟲(chóng)。他們爭(zhēng)辯說(shuō),涉及的資金太多,新的和不受監(jiān)管的用例太多,無(wú)法依靠每個(gè)人都同意做正確的事情?!半m然許多參與者制定了一些規(guī)則來(lái)規(guī)范他們使用爬蟲(chóng)的行為,”兩位專(zhuān)注于技術(shù)的律師在 2019 年關(guān)于網(wǎng)絡(luò)爬蟲(chóng)合法性的論文中寫(xiě)道,“但總體而言,這些規(guī)則過(guò)于薄弱,追究他們的責(zé)任太困難?!?/p>

    一些出版商希望對(duì)被抓取的內(nèi)容以及用于何處進(jìn)行更詳細(xì)的控制,而不是 robots.txt 的全面允許或拒絕權(quán)限。谷歌幾年前曾努力使機(jī)器人排除協(xié)議成為正式的官方標(biāo)準(zhǔn),也推動(dòng)弱化 robots.txt 的地位,理由是它是一個(gè)過(guò)時(shí)的標(biāo)準(zhǔn),太多網(wǎng)站不予理會(huì)?!拔覀冋J(rèn)識(shí)到現(xiàn)有的網(wǎng)絡(luò)發(fā)布者控制是在新的 AI 和研究用例出現(xiàn)之前開(kāi)發(fā)的,”谷歌信任副總裁 Danielle Romain 去年寫(xiě)道?!拔覀兿嘈牛W(wǎng)絡(luò)和人工智能社區(qū)是時(shí)候探索額外的機(jī)器可讀手段,以實(shí)現(xiàn)網(wǎng)絡(luò)發(fā)布者對(duì)新興人工智能和研究用例的選擇和控制?!?/p>

    即使人工智能公司在如何構(gòu)建和訓(xùn)練模型方面面臨監(jiān)管和法律問(wèn)題,這些模型仍在不斷改進(jìn),新公司似乎每天都在涌現(xiàn)。大小網(wǎng)站都面臨著一個(gè)決定:屈服于人工智能革命或堅(jiān)持反對(duì)它。對(duì)于那些選擇退出的人來(lái)說(shuō),他們最強(qiáng)大的武器是三十年前由網(wǎng)絡(luò)上最早和最樂(lè)觀的真正信徒達(dá)成的協(xié)議。他們相信互聯(lián)網(wǎng)是一個(gè)美好的地方,充滿(mǎn)了善良的人,他們最希望互聯(lián)網(wǎng)成為一件美好的事情。在那個(gè)世界和那個(gè)互聯(lián)網(wǎng)上,在一個(gè)文本文件中解釋你的愿望應(yīng)該足夠了。

    本文譯自The Verge,由 超載雞 編輯發(fā)布。

    (免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
    任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

    贊助商
    2024-02-20
    網(wǎng)站與爬蟲(chóng)的博弈:小小的robots.txt還能守住數(shù)據(jù)嗎?
    三十多年來(lái),一個(gè)簡(jiǎn)單的文本文件robots.txt一直維持著網(wǎng)絡(luò)秩序,控制網(wǎng)絡(luò)爬蟲(chóng)的行為。但隨著AI公司的崛起,它們?yōu)榱擞?xùn)練模型而大量采集數(shù)據(jù),使得網(wǎng)絡(luò)的“社交契約”面臨崩潰。

    長(zhǎng)按掃碼 閱讀全文