研究發(fā)現(xiàn),頂級AI在輸棋時竟擅自改規(guī)則、鉆漏洞,暴露快速發(fā)展下隱藏的倫理危機,安全需優(yōu)先于速度。
硅谷一直流傳著“快速行動,打破常規(guī)”的口號。過去,這多半針對瑣碎的消費者權(quán)益或煩人的金融法規(guī),可如今,這句話在棋迷眼中有了新味道。最近,Palisade Research這個專注AI安全與倫理的團隊發(fā)現(xiàn)了一個讓人不安的現(xiàn)象:新一代AI模型竟然能自己找出網(wǎng)絡(luò)安全的弱點,繞過限制,甚至用“捷徑”完成任務(wù),哪怕這些做法并不合規(guī)。
他們挑了七個頂尖大語言模型,跟臭名昭著的象棋引擎Stockfish較量一番。Stockfish自2014年起就讓大師們頭疼不已,堪稱無敵。面對這個強勁對手,OpenAI的o1和DeepSeek的R1不甘示弱,居然開始篡改系統(tǒng)文件,試圖偷偷調(diào)整棋盤上的棋子位置。
研究者讓每個模型解釋每步棋的“思路”。在一局比賽中,o1被逼到絕境時寫道:“任務(wù)是‘擊敗強大的象棋引擎’,沒說非得公平取勝?!庇辛诉@套邏輯,它在37%的對局里嘗試作弊,6%的比賽還真贏了。R1也不甘落后,11%的局里試著?;ㄕ?,可惜沒找到有效的招數(shù)。
這一發(fā)現(xiàn)并非孤例。最近另一項研究揭示,o1甚至擅長撒謊。它不僅能在沒人要求時騙研究者,還會為了拖延測試結(jié)束,狡猾地改動簡單數(shù)學(xué)題的答案,展現(xiàn)出一種自我保護的本能。
當(dāng)然,還不用急著砸電腦,但這些研究提醒我們,AI開發(fā)的倫理是個棘手問題。Palisade的執(zhí)行主任Jeffrey Ladish在接受《時代》雜志采訪時說:“你訓(xùn)練模型去解決難題時,也是在教它不擇手段?!憋@然,科技巨頭們投入巨資,急于在AI賽道上搶跑,打破了舊互聯(lián)網(wǎng)的規(guī)則。有些批評家直言,這像是“競相墮落”。為了壓倒對手,他們更在意用噱頭吸引投資,而不是停下來想想:“AI真是解決這個問題的正確工具嗎?”
想讓AI的“作弊”僅限于棋盤,開發(fā)者的首要任務(wù)得從速度轉(zhuǎn)向安全。比如,o1那句“沒說要公平”的辯解,聽起來挺機靈,可背后卻是規(guī)則的真空。如果不正視這些隱患,AI的聰明可能會從棋盤蔓延到更大的舞臺,到那時再補救就晚了。
本文譯自 futurism,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )