數(shù)據(jù)標注是人工智能進行模型訓練必不可少的一環(huán)。這是將最原始的數(shù)據(jù)變成算法可用數(shù)據(jù)的過程:原始數(shù)據(jù)一般通過數(shù)據(jù)采集獲得,隨后的數(shù)據(jù)標注相當于對數(shù)據(jù)進行加工,然后輸送到人工智能算法和模型里進行調(diào)用。
上述概念闡釋的背后實際上潛藏著一個正在茁壯成長的商業(yè)機會,尤其隨著AI行業(yè)的發(fā)展,優(yōu)質(zhì)數(shù)據(jù)甚至可能是公司發(fā)展的壁壘。
按照人員規(guī)模,現(xiàn)在的數(shù)據(jù)標注行業(yè)分為小型工作室(20 人左右)、中型公司以及巨頭企業(yè)。它們之間有各自的短板:專業(yè)的數(shù)據(jù)標注、采集小團隊沒有標注工具,開始逐漸向擁有更好技術資源的大平臺靠攏。與之形成對比的是,花費巨大資源打造專業(yè)全職標注團隊的數(shù)據(jù)公司,卻也受困于人力成本不得不把一些業(yè)務外包給小團隊。
諸如巨頭企業(yè),雖然在努力搭建平臺,但一方面更多是以消化內(nèi)部需求為主,另一方面在人員培訓和質(zhì)量管控上,更多是流程化操作,缺乏合理的運營模式。
“沒有一個標準。”基于上述的調(diào)研結果,在京東金融眾智平臺項目負責人看來,數(shù)據(jù)標注行業(yè)比較混亂。
在這種行業(yè)狀況下,京東金融要做一個“中立”平臺,成為需求方和最終標注團隊之間的連接者:為小型工作室提供標注工具,同時也對需求方提供數(shù)據(jù)標注方案。
“京東眾智”就是這樣一個產(chǎn)物,它是專注于人工智能數(shù)據(jù)標注和采集的科技平臺。上述負責人特意強調(diào)了“科技”二字,這意味著該平臺并不是傳統(tǒng)的眾包模式,而是通過自身的科技能力,優(yōu)化標注流程,提升標注效率,保證標注質(zhì)量。
“大部分算法在擁有足夠多的普通標注數(shù)據(jù)的情況下很容易將準確率提升到 95%,但從 95% 再去提升到 99% 甚至 99.9% 就需要大量高質(zhì)量的標注數(shù)據(jù)。可以說,高質(zhì)量的數(shù)據(jù)是制約模型和算法突破瓶頸的關鍵指標。”
京東眾智的科技能力恰好表現(xiàn)在提高標注質(zhì)量、提升標注速度、降低標注成本以及保證數(shù)據(jù)安全四個方面。
標注質(zhì)量為先,而它又與標注人員息息相關。針對專業(yè)標注人才培養(yǎng)的流程,他們甚至要跟一些公司建立數(shù)據(jù)標注師認證標準,對不同人員評估其標注等級。這符合京東眾智“三擎互驅(qū)”的理念:讓最專業(yè)的人用最專業(yè)的工具,在嚴謹?shù)墓ぷ髁鞒讨型瓿蓴?shù)據(jù)的標注,并且由選拔出來的高水平專家進行審核,保證正確率。
準確率與客戶的要求也有很大關系,比如眾智平臺的圖片標注準確率在實測狀態(tài)下能達到 99%,為了確保準確性,他們有 ACC 和抽檢等四層過濾流程。
在保證數(shù)據(jù)標注質(zhì)量的前提后就要比拼標注速度了。
當下 AI 解決方案落地速度普遍較慢。“傳統(tǒng)的方式是有 AI 需求,然后需要先獲取樣本數(shù)據(jù)進行數(shù)據(jù)標注,標注之后再做模型訓練。”但在數(shù)據(jù)標注之后如果不滿意,還需要把數(shù)據(jù)返回重新優(yōu)化,上述負責人表示,這樣的方式導致從方案確認到落地可能需要 1 個月甚至時間更長。
眾智平臺的標注工具很大程度上提升了標注速度。“魯班模板標注工具”可以組件化去配置。如果不同的公司對標注數(shù)據(jù)有不同需求,他們只需調(diào)整幾個組件的配置就可以完成操作。
京東眾智 Pre-AI 方案與傳統(tǒng)方案的對比
更重要的是京東眾智提出的“Pre-A.I”方案。此方案在標注過程中會不斷添加智能元素,機器做預標注,標注人員只需在此基礎上做細微的調(diào)整即可。
這些技術的應用在很大程度上節(jié)省了標注時間,而在 AI 市場競爭激烈的環(huán)境中,速度對創(chuàng)業(yè)公司而言尤為重要。“原來完整的標注流程如果是 1 個月的話,我們可能 3、4 天就可以交付了。”該負責人如此評估眾智平臺的標注效率。
數(shù)據(jù)標注速度提升的直接結果是標注成本自然會降低。不過,在行業(yè)一片混亂的數(shù)據(jù)運營模式下,數(shù)據(jù)安全是需求方最為關注的問題。
對于政府、銀行等企事業(yè)單位而言,它們擔心數(shù)據(jù)被轉(zhuǎn)手,一般要求數(shù)據(jù)必需在自己的環(huán)境內(nèi)進行標注。為此,他們提供了數(shù)據(jù)與流程分離方案。數(shù)據(jù)與流程分離方案針對客戶自有標注平臺和客戶沒有標注平臺兩種情況。
京東眾智 DCS 方案流程
對那些數(shù)據(jù)標注需求比較大的大公司,眾智平臺可以打通京東金融和客戶兩者的標注平臺,同時為標注流程有嚴格的質(zhì)量把控。需要注意的是,標注環(huán)境實際上還是在客戶環(huán)境下。對于沒有標注平臺的客戶,京東金融提供了一套名為“眾智星”的標注系統(tǒng),它可以讓數(shù)據(jù)不出客戶環(huán)境就能完成數(shù)據(jù)標注。
據(jù)負責人介紹,該平臺已于去年 8 月正式上線。目前平臺上數(shù)據(jù)標注注冊人員在 3 萬以上,而數(shù)據(jù)采集的注冊人員更是超過了 10 萬人。
“京東眾智旨在為 AI 行業(yè)提供最優(yōu)質(zhì)的基礎數(shù)據(jù),希望在不久的將來,國內(nèi)大部分的 AI 公司都可以使用我們提供的高質(zhì)量標注數(shù)據(jù)訓練出更優(yōu)質(zhì)的模型和算法。這些模型和算法不僅要服務國內(nèi)的用戶,更要把中國的 AI 能力服務于全世界。為全球的人工智能行業(yè)助力是我們的初心。”負責人如是說。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 網(wǎng)信辦嚴打網(wǎng)絡侵害未成年人行為,守護成長新篇章
- 豆包大模型升級引爆股市,字節(jié)緊急警示:小心為上
- 小米YU7無偽裝實車首次曝光引熱議,小紅書封號事件沖上熱搜,科技圈又掀波瀾?
- 警惕討好型人格:賺錢路上,人格魅力并非一切
- 小米SUV墜崖一家四口奇跡生還,車主回應:別夸大其詞
- 金融AI大模型新突破:奇富科技AI產(chǎn)品小奇引領行業(yè),重塑金融未來
- 谷歌攜手Apptronik,AI+機器人引領未來:商業(yè)化人形機器人新紀元
- AI盛宴即將上演!李想回歸,理想汽車12月25日揭秘未來駕駛新篇章
- 特斯拉Model Y勁敵來襲!明年登陸英國市場的未來樂道L60引爆期待
- 火山引擎總裁回應豆包大模型定價:如何確保合理毛利,揭秘行業(yè)內(nèi)幕
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。