極客網(wǎng)·人工智能(杭州)9月21日,2024云棲大會(huì),阿里云發(fā)布全新的 AI 原生全??捎^測(cè)平臺(tái),首次實(shí)現(xiàn)云上 AI 大模型從訓(xùn)練到推理再到應(yīng)用的全鏈路實(shí)時(shí)觀測(cè)、告警與診斷。同時(shí),阿里云可觀測(cè)產(chǎn)品家族也實(shí)現(xiàn)了全新升級(jí),最常用的日志服務(wù) SLS 相較于自建體系,運(yùn)維監(jiān)控綜合成本可降低 30% 。
AI 模型的深入發(fā)展,導(dǎo)致了數(shù)據(jù)處理方式與技術(shù)架構(gòu)的深刻變化,相關(guān)應(yīng)用產(chǎn)生的日志、鏈路等可觀測(cè)數(shù)據(jù)規(guī)模呈指數(shù)級(jí)增長,數(shù)據(jù)結(jié)構(gòu)復(fù)雜度也與日俱增,而AI部署的異構(gòu)環(huán)境、資源及平臺(tái)也越發(fā)多元,都給可觀測(cè)性的準(zhǔn)確、實(shí)時(shí)、高效與智能化發(fā)展帶來了巨大挑戰(zhàn)。
“以阿里云可觀測(cè)產(chǎn)品家族為代表的云原生可觀測(cè)工具,正引領(lǐng)著 AI-native 可觀測(cè)加速邁向智能化。企業(yè)用戶可以像‘搭積木’一樣輕松、靈活地構(gòu)建可觀測(cè)體系,更高效地管理與觀測(cè) IT 資源與服務(wù),為 AI 創(chuàng)新夯實(shí)技術(shù)底座。”阿里云云原生應(yīng)用平臺(tái)負(fù)責(zé)人丁宇表示。
在2024云棲大會(huì)上,日志服務(wù) SLS、云監(jiān)控 CMS、應(yīng)用實(shí)時(shí)監(jiān)控服務(wù) ARMS 等阿里云可觀測(cè)產(chǎn)品家族實(shí)現(xiàn)了重磅更新,面向模型訓(xùn)練、推理及應(yīng)用提供全鏈路的可觀測(cè)服務(wù)。
在模型訓(xùn)練場(chǎng)景中,云監(jiān)控 CMS 與阿里云 AI 算力產(chǎn)品及平臺(tái)深度集成,全面采集計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)調(diào)度等 AI 基礎(chǔ)設(shè)施的可觀測(cè)數(shù)據(jù),有效覆蓋數(shù)據(jù)準(zhǔn)備、模型開發(fā)、訓(xùn)練和部署等環(huán)節(jié),確保模型訓(xùn)練全流程可感知、可觀測(cè),為企業(yè)在 AI 基礎(chǔ)設(shè)施的容量管理和可用性保障保駕護(hù)航。
在模型推理場(chǎng)景中,可觀測(cè)性更多聚焦于推理性能提升、模型輸入輸出的質(zhì)量優(yōu)化及資源消耗的有效管理。應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)ARMS 推出符合 OpenTelemetry 標(biāo)準(zhǔn)的自研 Python Agent,全面支持通義千問/ LLamaIndex / LangChain 等國內(nèi)外主流框架和模型,采集豐富的指標(biāo)、鏈路及持續(xù)剖析數(shù)據(jù),借助開箱即用的數(shù)據(jù)可視化大盤與性能診斷功能,確保用戶實(shí)時(shí)掌握模型運(yùn)行狀態(tài)及潛在瓶頸,為大模型應(yīng)用的穩(wěn)定運(yùn)行與高效運(yùn)維提供堅(jiān)實(shí)的基礎(chǔ)。
與此同時(shí),日志服務(wù) SLS 與大模型服務(wù)平臺(tái)百煉深度集成,實(shí)現(xiàn)百煉模型 API 層面的可觀測(cè)指標(biāo)全覆蓋,并應(yīng)用于性能觀測(cè)、穩(wěn)定性評(píng)估、成本管控、安全合規(guī)等不同應(yīng)用場(chǎng)景,幫助企業(yè)優(yōu)化資源配置和業(yè)務(wù)決策。同時(shí),SLS 核心能力大幅提升,掃描性能提升 10 倍,達(dá)到 1GB/s 以上;處理性能提升至 TB 級(jí)每分鐘,單 GB 處理成本降低60%。此外,SLS 推出 Elasticsearch 兼容方案,相較于自建其綜合成本可降30% 以上。
據(jù)悉,阿里云已為全球80余個(gè)國家的百萬企業(yè)級(jí)用戶提供高效便捷、安全穩(wěn)定的可觀測(cè)服務(wù)。茶百道基于ARMS快速建立運(yùn)維觀測(cè)與響應(yīng)能力,故障恢復(fù)效率提升 50% 以上;傳音借助 Prometheus、Grafana 等可觀測(cè)產(chǎn)品,業(yè)務(wù)上線效率提高 60%;極氪基于阿里云可觀測(cè)產(chǎn)品推行的應(yīng)急響應(yīng)機(jī)制與 ChatOps 協(xié)同機(jī)制,告警平均恢復(fù)耗時(shí)縮短 50%。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )