近日,由云天勵飛首席科學家王孝宇博士等多位國際AI科學家共同發(fā)起的AI基礎軟件平臺YMIR正式發(fā)布。
什么是 YMIR?
YMIR(挖米匠),是一個數據驅動的開源算法訓練平臺,能夠做到以無代碼開發(fā)的方式,實現數據管理、數據挖掘、模型訓練、模型驗證等功能。YMIR遵從Apache 2.0 許可協(xié)議,商用及個人使用均免費。
YMIR是由國際AI科學家共同發(fā)起的AI基礎軟件平臺。發(fā)起成員包括:前Snap計算機視覺主 席,云天勵飛首席科學家王孝宇;美國硅谷NEC 實驗室媒體分析部主管、UCSD教授,印裔科學家Manmohan Chandraker;前谷歌、亞馬遜、Snap機器學習研究員,硅谷初創(chuàng)公司Heali聯合創(chuàng)始人、首席AI官,法裔科學家William Brendel等。
云天勵飛首席科學家 王孝宇
美國硅谷NEC 實驗室媒體分析部主管、UCSD教授 Manmohan Chandraker
前谷歌、亞馬遜、Snap機器學習研究員,硅谷初創(chuàng)公司Heali聯合創(chuàng)始人、首席AI官 William Brendel
YMIR 的五大特點?
YMIR是一個高度自動化的AI模型開發(fā)產品。其將模型開發(fā)行為抽象為數據收集、模型訓練、數據挖掘、數據標注等基本操作,并形成標準流程,提供一站式服務。實際使用時以圖形化的交互界面完成數據與模型不斷更新迭代的完整流程。由此,YMIR極大降低了AI模型研發(fā)的技能要求,不再要求從業(yè)者具備專業(yè)的AI技能。只要對系統(tǒng)操作員加以數據集、模型訓練、模型迭代等概念知識的少量培訓,其便具備模型開發(fā)的能力,因而對人工智能向各行各業(yè)的普及具備重大意義。
針對具備一定專業(yè)能力的算法開發(fā)人員,YMIR平臺提供開放API,使用者可籍此將自己開發(fā)的模型訓練、數據挖掘、數據標注、模型診斷等工具對接YMIR開放接口實現端到端的一站式模型開發(fā)。
YMIR 主要以數據為中心,集成了數據和模型版本控制,同時引入工作空間等概念,實現多個模型開發(fā)任務的并行快速迭代,為模型的大規(guī)模批量生產提供平臺性支持。
YMIRV1.0新增模型生產項目管理
1、傻瓜式迭代操作流程(保姆式模型開發(fā)流程指引)
YMIR 新版本與上一版本相比,引入項目管理式的工作流程,使AI模型的生產進一步標準化。與老版本相比,模型生產操作員上手時間大幅縮短,并通過標準化的生產方式實現AI模型品控。
在以項目管理為理念的研發(fā)制式下,模型研發(fā)項目被切分為幾個關鍵模塊。每個模塊對應一個任務,這些任務具備前后依賴關系形成研發(fā)流程。只有流程前方任務完成后,流程后方任務才能被啟動。如下圖所示,當一個模型研發(fā)項目被創(chuàng)建后,即能看到頁面上方的任務迭代流程指引,清晰說明當前步驟與下一步驟,僅需按照指引點擊鼠標操作即可,操作對小白用戶十分友好、非常銀杏化。
賬號登錄后即可見項目創(chuàng)建頁面
項目創(chuàng)建成功后的頁面
項目創(chuàng)建后的任務流程指引頁面
2、數據集自動整理
在AI模型開發(fā)的周期里,模型迭代占據90%以上的時間。而數據的迭代是模型迭代的關鍵部分,數據也是AI研發(fā)過程中最為重要的資產,因此數據更新的追蹤和管理顯得尤為重要。能重現數據的更新過程,便能重復模型生產過程。
YMIR新增數據集版本管理功能,能自動生成數據集版本并記錄每次對數據集的操作。一方面,與上一版本相比,使用者無需通過手動命名數據集對不同功能數據集進行區(qū)分,系統(tǒng)會自動進行數據整理,歸入訓練集、挖掘集、測試集等,并對這些數據集的更新進行版本控制。數據集和模型的一一對應關系亦被記錄下來。此功能對有大量數據挖掘的模型研發(fā)十分友好,減少數據集版本的冗余,提高數據集管理效率。YMIR用戶再也不用對著上百個雷同的數據集無從下手。另一方面,模型的研發(fā)過程被完整的記錄下來,可輕易重新生產模型。傳統(tǒng)的算法研發(fā)人員工作交接涉及,數據集、模型、訓練流程等多個復雜環(huán)節(jié)的交接,很難重復之前的工作。而在YMIR平臺上產生的研發(fā)過程,尤其是數據集的迭代均有完整追蹤,基本不需要交接流程,企業(yè)再也不用擔心員工突然的離職。
數據集版本管理頁面(1)
數據集版本管理頁面(2)
模型迭代版本管理頁面
YMIRV1.0無縫對接開放免費的標注工具LabelFree
數據標注的質量與效率直接影響模型訓練的質量與效率,一個好的標注工具可以讓模型訓練事半功倍。LabelFree是一個開放的、可私有化部署的高性能數據標注系統(tǒng)。其操作簡單、數據可靠,為算法服務提供可靠的底層數據支撐。
LabelFree項目管理頁面
1.大幅提升標注質量
LabelFree支持在數據標注的早期階段對標注質量進行嚴格把控。其支持多角色用戶管理功能,當角色為質檢員時,可對標注結果進行檢查與復核。
2.大幅提升標注效率
LabelFree可大幅提升個人標注效率。其支持大量標注步驟快捷鍵操作,通過人機交互的優(yōu)化顯著提升標注效率。
快捷鍵使用說明
LabelFree亦支持團隊標注。其支持多人協(xié)作完成同一標注任務,并實現任務自動分發(fā)。
同時,LabelFree提供一鍵標注服務,幫助需要的個人及企業(yè)用戶在最短的時間內獲取質量可靠的標注數據。
3、可靠的數據安全管理
數據的完全私有化管理,最大程度的保護數據安全。數據集管理服務依托具有彈性伸縮能力的原生對象存儲,為機器學習、大數據分析平臺提供高性能、高可用的數據基座。
4、完全的免費開放平臺
LabelFree平臺對數據集大小、用戶數量、項目數量等功能均無限制,用戶可在平臺上進行各種自定義的數據標注任務并獲得良好的體驗。
重磅!挖米匠要開直播啦!手把手教大家使用 YMIR,小白也能成為算法工程師!
歡迎大家試用新版本,接受所有吐槽哦~?部署或試用過程中有任何問題都歡迎聯系小助手“挖米匠”。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )