看點:開發(fā)小白和高階程序媛都愛用,這份華為云一站式AI開發(fā)平臺指南,你查收了嗎?
2019年,熱門的人工智能(AI)繼續(xù)在產(chǎn)業(yè)中快速奔跑,越來越多的行業(yè)開始搭上智能化升級的大潮。然而,長時間、高成本、高投入、復雜繁瑣的AI開發(fā)流程,正阻礙著AI產(chǎn)業(yè)的規(guī)?;l(fā)展,許多傳統(tǒng)企業(yè)不能輕松快速地構(gòu)建AI能力。
喝一杯水要幾步? 對于普通人來說,這是一件毫不費腦的事。那么AI開發(fā)需要幾步呢?對于開發(fā)小白和AI專業(yè)開發(fā)者來說,答案截然不同。
1月底,華為云EI(企業(yè)智能)一站式AI開發(fā)平臺ModelArts正式商用上線,不僅讓許多AI小白拆除AI開發(fā)的門檻,同時也讓諸多AI開發(fā)者享受到更為高效便捷的開發(fā)體驗。
這一被稱為“開發(fā)者的福音”的AI平臺,究竟是怎樣的利器?它又在如何在各個傳統(tǒng)行業(yè)發(fā)揮作用呢?對此,智東西分析了ModelArts加速AI開發(fā)的四大亮點,詳解ModelArts平臺使用步驟,并親身體驗了ModelArts的極簡操作流程,過了一把AI開發(fā)癮。
一、ModelArts四大亮點,加速AI開發(fā)流程
簡單的說,ModelArts平臺就是一個讓小白輕松學會訓練AI模型、讓AI老手節(jié)省時間腦力的開發(fā)神器,讓各行各業(yè)關(guān)于AI的創(chuàng)意都能快速實現(xiàn)。
這里,我們先從四大亮點分析ModelArts如何幫助有經(jīng)驗的開發(fā)者加快AI模型開發(fā)和部署,然后復原小白輕松上手AI開發(fā)的全過程。
1、提供開源數(shù)據(jù)集,部分場景實現(xiàn)數(shù)據(jù)自動標注
對于飽受數(shù)據(jù)標注困擾的開發(fā)者而言,ModelArts是可以簡化數(shù)據(jù)標注流程的優(yōu)質(zhì)平臺。
ModelArts通過對數(shù)據(jù)進行采樣、篩選、預標注,可以將大部分數(shù)據(jù)進行自動標注和篩選,而人工只需在自動數(shù)據(jù)標注后做篩選確認,這將極大地降低開發(fā)者的工作量。
目前,ModelArts機器數(shù)據(jù)標注已廣泛應(yīng)用于“自動駕駛學習”場景,后續(xù)ModelArts還將持續(xù)更新,以服務(wù)更多新興業(yè)務(wù)場景。
ModelArts還有一個亮點功能——市場。“市場”是一個共享平臺,為開發(fā)者提供多種開源數(shù)據(jù)集和一些預置模型,開發(fā)者也可以上傳自己的數(shù)據(jù)集合模型。后續(xù)可能還會有交易模式,讓一些AI開發(fā)者在提供AI模型后,可以實現(xiàn)知識價值變現(xiàn)。
2、自動學習+自動訓練模型并調(diào)參,簡化工作量
對于算法工程師來說,在訓練中會有很多調(diào)參,由于不同的調(diào)參會影響最后模型的收斂速度及精度,這一部分通常會給算法工程師制造大量的工作量。
ModelArts提供自動化調(diào)參服務(wù),采用momentum、batch size等動態(tài)超參策略,將模型收斂所需 epoch個數(shù)降到最低,不僅可以簡化算法工程師調(diào)參的工作量,還能幫助算法工程師找到盡可能最優(yōu)的參數(shù),在滿足精度的前提下讓模型快速收斂。
3、大規(guī)模分布式訓練,加快訓練速度
ModelArts平臺的高效不止體現(xiàn)在簡化步驟和數(shù)據(jù)標注上。它是一個端到端從硬件到軟件協(xié)同的平臺,華為在其中做了很多深層次的優(yōu)化和高性能調(diào)優(yōu),包括對分布式調(diào)度、網(wǎng)絡(luò)通信和硬件特性等做整體優(yōu)化,以提供加速訓練的能力。
在深度學習模型訓練過程中,華為云將分布式加速層抽象出來,自研了一套分布式通用加速框架MoXing,在TensorFlow、MXNet、PyTorch、Keras等框架上實現(xiàn)再優(yōu)化,使得這些計算引擎分布式性能更高,訓練時間更短。
開發(fā)者可以通過幾個接口直接調(diào)用MoXing框架,將本地單機的業(yè)務(wù)變成分布式業(yè)務(wù),僅用一串代碼就實現(xiàn)單機和分布式部署。開發(fā)者無需關(guān)心下層分布式相關(guān)API,只需聚焦在業(yè)務(wù)模型中,根據(jù)實際需求輸入數(shù)據(jù)、模型和相應(yīng)優(yōu)化器。
ModelArts在衡量分布式深度學習框架加速性能主要考慮的吞吐量、收斂時間等關(guān)鍵指標上都做了精心處理。通過提供MoXing分布式框架和千級GPU集群規(guī)模訓練加速,ModelArts可為用戶帶來極高性能的AI開發(fā)體驗。
4、模型一鍵式部署,適配到端邊云
通常情況下,模型部署非常復雜,需要寫代碼集成到應(yīng)用系統(tǒng),維護和更新。ModelArts可以一鍵將模型部署到云、端、邊緣的設(shè)備上,根據(jù)端邊云不同的特點,幫助開發(fā)者做模型壓縮和模型加速。該平臺還支持在線和批量推理,滿足多種場景需求。
根據(jù)開發(fā)者制定的策略,ModelArts平臺可以自動調(diào)整云服務(wù)器的計算資源,在業(yè)務(wù)需求下降時將減少云服務(wù)器,高效節(jié)省資源和成本;在業(yè)務(wù)需求增多時增加云服務(wù)器,保證業(yè)務(wù)平穩(wěn)健康運行。
二、ModelArts用法拆解之開發(fā)小白篇——五個步驟讓小白玩轉(zhuǎn)AI
在ModelArts超高配置的加持下,即便是不具備任何AI開發(fā)算法能力的小白,也可以零負擔地來構(gòu)建AI模型。這就要提到ModelArts非常強大的功能——自動學習。
如果你是AI小白,或者是不想在模型訓練上花費時間和精力的開發(fā)者,在ModelArts上,只需掌握如下五個步驟,就能完成整個算法從開發(fā)到最后部署上線的全過程。
目前華為云ModelArts提供物體檢測、圖像分類、預測分析和聲音分類四類開發(fā)項目,為了將用戶使用門檻降到最低,華為云EI企業(yè)智能不僅提供內(nèi)容詳細的新手入門和用戶指南,還為前三類項目分別錄制了視頻教程。
這里,智東西記者以圖像分類項目為例,在不寫一行代碼的情況下,訓練出一個AI模型。
1、準備數(shù)據(jù)
我們準備了10張向日葵和10張玫瑰的照片作為訓練模型的數(shù)據(jù)集。不過,如果開發(fā)者只是想簡單練習如何做AI開發(fā),可以直接在市場中下載預置數(shù)據(jù)集,導入至自己的數(shù)據(jù)集中。
2、創(chuàng)建項目
在準備好數(shù)據(jù)后,開發(fā)者可點擊左側(cè)導航欄的“自動學習”,創(chuàng)建一個“圖像分類”項目,創(chuàng)建時會有彈窗讓開發(fā)者選擇訓練數(shù)據(jù)集存放位置,這需要開發(fā)者預先創(chuàng)建一個華為云OBS桶。
3、數(shù)據(jù)標注
項目創(chuàng)建完畢后就進入數(shù)據(jù)標注頁面,點擊添加圖片一次性上傳全部照片。隨后,點擊每張圖片進行標注,每張圖片至少有兩個標注分類,用于訓練的圖片至少有5張。當然,如果想讓模型獲得更高的精度,訓練圖片的數(shù)量自然是多多益善。
4、模型訓練
接下來就可以開始訓練模型了,點擊“開始訓練”,然后等待約一分鐘,模型就訓練成功了。
更喜歡DIY的用戶,還可以在創(chuàng)建訓練作業(yè)時,自己設(shè)定更想要的參數(shù)。
5、部署上線
訓練完模型的最后一步是模型部署。部署上線后,用戶就可以隨時用模型來測試某一張圖片中的花卉了。
當然,智東西只是拿20張圖片簡單地練手,如果想要更精確的模型,用戶需要用大量的數(shù)據(jù)集來訓練。
三、ModelArts用法拆解之高階程序媛篇——用ModelArts玩比賽
說完了小白,再來說一下專業(yè)人群。
如果你具備一定的AI開發(fā)基礎(chǔ)和編程能力,已經(jīng)迫不及待地想用ModelArts練練手了,不妨關(guān)注一下正在進行中的2019數(shù)字中國創(chuàng)新大賽。華為云作為大賽出題方之一,提出了“文化傳承——漢字書法多場景識別”的賽題,而ModelArts正是華為云附送給參賽者們的開發(fā)神器。
日前,智東西就收到一位程序媛投稿,詳細講述了她如何用ModelArts玩比賽。
賽題模型按筆者理解可以由兩個部分組成,一個是文字檢測,一個是文字識別。
在文字框檢測上,可使用EAST模型;在文字識別OCR模型上,可使用西安交通大學人工智能實踐大賽第一名的方案模型。
本文代碼均已開源在代碼庫GitHub中,可直接下載使用。
1、EAST文字檢測模型
使用ModelArts訓練EAST模型
第一步是數(shù)據(jù)準備工作,首先下載并解壓比賽數(shù)據(jù)包。
將處理過的數(shù)據(jù)上傳到在OBS上創(chuàng)建的路徑,如:
同樣,下載EAST訓練代碼,并將代碼上傳到OBS。
然后就可以創(chuàng)建作業(yè)了,選擇訓練作業(yè)中的“創(chuàng)建”。
之后選擇數(shù)據(jù)存儲路徑、使用的引擎、啟動文件等,
再輸入使用腳本需要的相應(yīng)參數(shù),
選擇計算資源,并保存作業(yè)參數(shù)以便下次使用,就可以開始運行了。
點擊運行,還可以在日志里看到訓練過程。
推理測試
在訓練到一定精度后,就可以測試了。同樣創(chuàng)建作業(yè),選擇test數(shù)據(jù)集,輸入必要參數(shù),
之后就可以得到測試集的檢測結(jié)果了,里面的每行包含測試圖片的名字和4個x和y的點。
2、OCR文字識別模型
創(chuàng)建OCR訓練作業(yè)
與EAST模型一樣,將處理完后OCR模型的數(shù)據(jù)和OCR代碼上傳到OBS相應(yīng)路徑,就可以開始訓練。
點擊確定開始運行,在日志可以看到,幾個step之后loss在下降了。
推理預測
最后一步,使用OCR訓練完成的模型文件和EAST生成的數(shù)據(jù)進行推理測試,
最終可以在OBS路徑上看到predict.csv的文件,下載就可以上傳到比賽官網(wǎng)參賽了。
本文代碼均已開源,且修改成了可以在ModelArts訓練的格式,可以對比開源的EAST和OCR代碼,查看修改了哪些地方。本文在OCR模型上用時6個小時,僅訓練了10個epoch,就在排行榜A榜得到了0.42的F1,目測再訓練久一點F1>0.80是肯定有的。
目前,超過700支隊伍已經(jīng)加入2019數(shù)字中國創(chuàng)新大賽的戰(zhàn)局。
報名將到3月22日截止,進入比賽決賽的隊伍將獲得直通華為云終面的資格,前三甲還將分別獲得8萬、5萬和3萬元的獎金。感興趣的開發(fā)者們快來參加比賽一試身手吧!
- 小米召回SU7標準版車型,春運低價票來襲,12306客服回應(yīng),你怎么看?
- 智譜管理層變動引關(guān)注:兩名高管離職,公司未來走向成謎
- 特斯拉召回超120萬輛汽車:安全隱患不容忽視
- 小米召回SU7標準版車型:OTA升級解決,這次為何小米首度召回?
- Anthropic推出全新API:AI信息驗證之戰(zhàn)再掀波瀾
- 未來解碼:英偉達引領(lǐng)機器人技術(shù)產(chǎn)業(yè)融合,智造新篇章
- 網(wǎng)易云下架SM娛樂版權(quán)歌曲:數(shù)百萬用戶將受影響,版權(quán)之爭再起波瀾
- 百川智能全新模型Baichuan-M1:顛覆醫(yī)療循證模式,三大推理能力引領(lǐng)全場景深度思考
- 武漢阿里巴巴總部即將亮相,共繪數(shù)字產(chǎn)業(yè)新藍圖
- iPhone 16在禁令后苦盡甘來:蘋果即將與印尼達成協(xié)議,解禁在望
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。