10月23日消息,OpenAI競(jìng)爭(zhēng)對(duì)手Anthropic宣布推出升級(jí)版的Claude 3.5 Sonnet和新款Claude 3.5 Haiku。
根據(jù)Anthropic介紹,升級(jí)版Claude 3.5 Sonnet獲得了一項(xiàng)革命性的新技能:能夠像人類(lèi)一樣操作電腦。同時(shí),升級(jí)版Claude 3.5 Sonnet模型各項(xiàng)能力均超越之前版本,尤其在代碼方面取得了特別顯著的進(jìn)步,進(jìn)一步鞏固其行業(yè)領(lǐng)先地位。
新款Claude 3.5 Haiku則在許多評(píng)估中與Anthropic之前最大的型號(hào)Claude 3 Opus的性能相匹配,其成本和速度與上一代Haiku相同。
升級(jí)后的Claude 3.5 Sonnet現(xiàn)在可供所有用戶(hù)使用。從今天開(kāi)始,開(kāi)發(fā)者可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用計(jì)算機(jī)測(cè)試版進(jìn)行構(gòu)建。新的Claude 3.5 Haiku將于本月晚些時(shí)候發(fā)布。
升級(jí)版Claude 3.5 Sonnet:超強(qiáng)編碼能力,公測(cè)“計(jì)算機(jī)使用”功能
據(jù)介紹,升級(jí)版Claude 3.5 Sonnet在業(yè)界基準(zhǔn)測(cè)試中表現(xiàn)卓越,在SWE-bench Verified編碼測(cè)試的得分由33%躍升至49%,超越所有目前公開(kāi)可用的模型。在TAU-bench(評(píng)估模型靈活運(yùn)用工具和API綜合能力的基準(zhǔn)測(cè)試)中,其零售領(lǐng)域得分從62.6%提高到69.2%,航空領(lǐng)域從36.0%提高到46.0%。性能全面提升的同時(shí),Claude 3.5 Sonnet的成本與之前版本保持一致。
另外,Anthropic早期的客戶(hù)反饋表明,升級(jí)后的Claude 3.5 Sonnet代表了人工智能編碼的重大飛躍。GitLab測(cè)試了DevSecOps任務(wù)的模型,發(fā)現(xiàn)它提供了更強(qiáng)的推理能力(跨用例高達(dá)10%),沒(méi)有增加延遲,使其成為支持多步驟軟件開(kāi)發(fā)過(guò)程的理想選擇。
同時(shí),Anthropic在Claude 3.5 Sonnet公測(cè)版中引入了一項(xiàng)突破性的新功能:計(jì)算機(jī)使用。通過(guò)API接入,開(kāi)發(fā)人員可以指導(dǎo)Claude使用計(jì)算機(jī),就像人們看屏幕、移動(dòng)光標(biāo)、單擊按鈕和輸入文本一樣。
Anthropic表示,Claude 3.5 Sonnet是第一個(gè)在公測(cè)中提供“計(jì)算機(jī)使用”的AI模型。該功能現(xiàn)階段是實(shí)驗(yàn)性的,預(yù)計(jì)隨著時(shí)間的推移,這種能力會(huì)迅速提高。
Anthropic介紹,在“計(jì)算機(jī)使用”能力上,沒(méi)有制作特定的工具來(lái)幫助Claude完成個(gè)人任務(wù),而是教它一般的計(jì)算機(jī)技能,讓它能夠使用為人類(lèi)設(shè)計(jì)的各種標(biāo)準(zhǔn)工具和軟件程序。開(kāi)發(fā)人員可以使用這個(gè)新興功能來(lái)自動(dòng)化重復(fù)流程,構(gòu)建和測(cè)試軟件,并執(zhí)行研究等開(kāi)放式任務(wù)。
Anthropic構(gòu)建了一個(gè)API,允許Claude感知計(jì)算機(jī)界面并與之交互。開(kāi)發(fā)人員可以集成此API,使Claude能夠?qū)⒅噶睿ɡ?,“使用我的?jì)算機(jī)和在線數(shù)據(jù)填寫(xiě)此表單”)轉(zhuǎn)換為計(jì)算機(jī)命令(例如,檢查電子表格;移動(dòng)光標(biāo)打開(kāi)web瀏覽器;導(dǎo)航到相關(guān)網(wǎng)頁(yè);使用這些網(wǎng)頁(yè)中的數(shù)據(jù)填寫(xiě)表單等等)。
效果方面,在評(píng)估人工智能模型像人一樣使用計(jì)算機(jī)的能力的OSWorld上,Claude 3.5 Sonnet在屏幕截圖(screenshot-only)類(lèi)別中的得分為14.9%,明顯高于次佳人工智能系統(tǒng)的7.8%。當(dāng)提供更多步驟來(lái)完成任務(wù)時(shí),Claude的得分為22.0%。
不過(guò)Anthropic也強(qiáng)調(diào),Claude 3.5 Sonnet目前使用計(jì)算機(jī)的能力并不完美。人們毫不費(fèi)力地執(zhí)行的一些操作——滾動(dòng)、拖動(dòng)、縮放——目前給都Claude帶來(lái)了挑戰(zhàn),鼓勵(lì)開(kāi)發(fā)人員從低風(fēng)險(xiǎn)任務(wù)開(kāi)始探索。
據(jù)悉,Asana、Canva、Cognition、DoorDash、Replit和瀏覽器公司已經(jīng)開(kāi)始探索這些功能,執(zhí)行需要幾十個(gè)甚至幾百個(gè)步驟才能完成的任務(wù)。例如,Replit正在使用Claude 3.5 Sonnet的“計(jì)算機(jī)使用”和UI導(dǎo)航功能來(lái)開(kāi)發(fā)一個(gè)關(guān)鍵功能,該功能在為Replit Agent產(chǎn)品構(gòu)建應(yīng)用程序時(shí)對(duì)其進(jìn)行評(píng)估。
下面是Claude 最新演示的 AI 操作電腦的視頻截圖
在這個(gè)演示中,Claude瀏覽了不同的標(biāo)簽頁(yè),收集了所需信息,并填寫(xiě)了一個(gè)表單,所有電腦操作均由Claude生成。
Claude 3.5 Haiku:最快速模型
新推出的Claude 3.5 Haiku是Anthropic下一代速度最快的模型。在與Claude 3 Haiku相同的成本和相似的速度下,Claude 3.5 Haiku在每個(gè)技能集上都有所提高,甚至在許多智能基準(zhǔn)上超過(guò)了Anthropic上一代最大的型號(hào)Claude 3 Opus。
Claude 3.5 Haiku在編碼任務(wù)上表現(xiàn)得尤為出色。例如,它在SWE bench Verified上的得分為40.6%,超過(guò)初代版Claude 3.5 Sonnet和GPT-4o。
憑借低延遲、改進(jìn)的指令遵循和更準(zhǔn)確的工具使用,Claude 3.5 Haiku非常適合面向用戶(hù)的產(chǎn)品、專(zhuān)門(mén)的子代理任務(wù),以及從大量數(shù)據(jù)(如購(gòu)買(mǎi)歷史、定價(jià)或庫(kù)存記錄)中生成個(gè)性化體驗(yàn)。
Anthropic介紹,Claude 3.5 Haiku將于本月晚些時(shí)候提供,并隨后提供圖像輸入能力。
Anthropic是由前OpenAI員工創(chuàng)立的公司,亞馬遜是Anthropic的重要投資者。今年3月,亞馬遜宣布已完成對(duì) Anthropic 的 40 億美元投資,以深化推進(jìn)生成式 AI 技術(shù)的發(fā)展。
Anthropic于2023年3月發(fā)布了Claude 3系列模型Claude 3 Haiku、Claude 3 Sonnet、 Claude 3 Opus,此后便按照各型號(hào)進(jìn)行能力升級(jí)迭代。今年6月,Anthropic發(fā)布最強(qiáng)大模型Claude 3.5 Sonnet,擁有相比前代模型2倍的推理速度和1/5的調(diào)用成本。(果青)
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )