科技云報(bào)道原創(chuàng)。
隨著野蠻增長(zhǎng)的時(shí)代遠(yuǎn)去,精細(xì)化和效率將是未來企業(yè)競(jìng)爭(zhēng)的勝負(fù)手。
作為一座隱形的“金礦”,日益增長(zhǎng)的數(shù)據(jù)規(guī)模為企業(yè)發(fā)展帶來了嶄新機(jī)遇。以數(shù)據(jù)為驅(qū)動(dòng)的模式正備受企業(yè)重視,并且逐步從基本的可視化分析,向更高的智能化分析階段持續(xù)進(jìn)化。這個(gè)過程中,人工智能將全面落地在數(shù)據(jù)分析決策之中。
“增強(qiáng)分析(Augmented Analytics)”被視為數(shù)據(jù)分析與人工智能、機(jī)器學(xué)習(xí)結(jié)合的產(chǎn)物,這一概念于2017年由Gartner首次提出,并對(duì)其進(jìn)行定義:增強(qiáng)分析是下一代數(shù)據(jù)和分析范式,它面向廣泛的業(yè)務(wù)用戶、運(yùn)營(yíng)人員和數(shù)據(jù)科學(xué)家,利用機(jī)器學(xué)習(xí)將數(shù)據(jù)準(zhǔn)備、洞察發(fā)現(xiàn)和洞察共享等過程自動(dòng)化。
這個(gè)概念剛開始比較模糊,后來逐漸清晰。直接到2021年,Gartner在發(fā)布的《Hype Cycle for ICT in China, 2021》中做了最新的定義:增強(qiáng)數(shù)據(jù)分析包括機(jī)器學(xué)習(xí)(ML)和人工智能(AI),在統(tǒng)一的平臺(tái)上提供數(shù)據(jù)管理和分析能力。它通過將ML和AI應(yīng)用于現(xiàn)有的操作流程中,使數(shù)據(jù)管理和分析自動(dòng)化,從而更有效地進(jìn)行數(shù)據(jù)分析。它使更多的用戶獲得更深入的洞察力,減少了當(dāng)前依賴IT處理所帶來的效率問題和口徑偏差。
大數(shù)據(jù)與機(jī)器學(xué)習(xí)的交匯點(diǎn)
大數(shù)據(jù)時(shí)代,基礎(chǔ)數(shù)據(jù)的維度、數(shù)量、類型(結(jié)構(gòu)化和非結(jié)構(gòu)化)更大、更分散,企業(yè)要分析和探索的數(shù)據(jù)越來越復(fù)雜。另一方面能兼顧專業(yè)數(shù)據(jù)分析和業(yè)務(wù)洞察的人才少之又少,增強(qiáng)分析正是解決這一矛盾,讓數(shù)據(jù)分析普惠所有業(yè)務(wù)用戶的良藥。
簡(jiǎn)單地說,增強(qiáng)分析可以理解為借助AI技術(shù)進(jìn)行智能化、自動(dòng)化的數(shù)據(jù)分析,挖掘數(shù)據(jù)價(jià)值,降低分析門檻,提高分析深度。增強(qiáng)分析的實(shí)現(xiàn)過程可以簡(jiǎn)單概括為:通過培訓(xùn)未知數(shù)據(jù)和已知問題,最終列出各種可能性和影響因素,幫助用戶加快和進(jìn)行有效的數(shù)據(jù)分析。
“增強(qiáng)分析”并不是說讓用戶會(huì)寫AI或者數(shù)據(jù)科學(xué)背后的一些代碼,而是說如何把它封裝好、讓用戶依舊用非常傻瓜、簡(jiǎn)單易用的形式,比如用拖拽、自然語言的方式,去進(jìn)行更高級(jí)的數(shù)據(jù)分析。未來,我們將會(huì)越來越多地看到增強(qiáng)分析技術(shù),賦能到大數(shù)據(jù)產(chǎn)業(yè)之中,能夠讓更多人以更低門檻進(jìn)行更深度的分析。
增強(qiáng)分析的特點(diǎn)是BI產(chǎn)品開發(fā)中最重要、最顯著的發(fā)展趨勢(shì)之一。當(dāng)云生態(tài)系統(tǒng)也影響人們做出選擇決策時(shí),增強(qiáng)分析能力將成為區(qū)別普通分析平臺(tái)和BI平臺(tái)之間的關(guān)鍵因素。目前,增強(qiáng)分析正成為用戶體驗(yàn)的一個(gè)重要部分,其優(yōu)勢(shì)包括以下幾個(gè)方面:
數(shù)據(jù)準(zhǔn)備速度增快。由于增強(qiáng)型數(shù)據(jù)準(zhǔn)備可以更快地將多個(gè)數(shù)據(jù)源整合到一起,因此可以快速檢測(cè)重復(fù)的操作、聯(lián)接,加速獲取見解和提高工作效率,從而生成完全數(shù)據(jù)自動(dòng)化和高質(zhì)量的建議,幫助提供個(gè)性化的用戶體驗(yàn)。
分析偏差降低。增強(qiáng)型分析支持計(jì)算機(jī)執(zhí)行通常用于數(shù)據(jù)分析工具的分析,通過對(duì)更大范圍的數(shù)據(jù)執(zhí)行操作并僅專注于統(tǒng)計(jì)意義因素,可以降低潛在的偏差。
信任度提高。用戶和數(shù)據(jù)進(jìn)行交互能夠?yàn)闄C(jī)器學(xué)習(xí)算法提供線索,隨著時(shí)間的推移,為用戶提供的建議更加相關(guān)且準(zhǔn)確,這些建議有助于獲取用戶的信任。
增強(qiáng)數(shù)據(jù)素養(yǎng)。通過提供對(duì)結(jié)果的自動(dòng)化分析,用戶可以用最少的工作量輕松地搜索見解和對(duì)見解進(jìn)行可視化,從而增強(qiáng)數(shù)據(jù)素養(yǎng)。
節(jié)省更多時(shí)間。業(yè)務(wù)人員無需再花費(fèi)時(shí)間收集和分析大量數(shù)據(jù)集,以及從分析結(jié)果中提取可行項(xiàng),這樣他們將有更多時(shí)間專注于高級(jí)業(yè)務(wù)策略和特殊項(xiàng)目。
增強(qiáng)分析三大關(guān)鍵技術(shù)能力
從技術(shù)角度看,增強(qiáng)分析相關(guān)的技術(shù)可以分為了三類:增強(qiáng)數(shù)據(jù)準(zhǔn)備、增強(qiáng)數(shù)據(jù)分析和增強(qiáng)機(jī)器學(xué)習(xí)。
數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)分析的前提,也是最耗時(shí)的工作。數(shù)據(jù)準(zhǔn)備通常包含數(shù)據(jù)探查、數(shù)據(jù)質(zhì)量、數(shù)據(jù)模型、數(shù)據(jù)清洗等工作,涵蓋了數(shù)據(jù)管理的各個(gè)方面,甚至還包括數(shù)據(jù)集成和數(shù)據(jù)倉(cāng)庫(kù)的管理。
增強(qiáng)數(shù)據(jù)準(zhǔn)備主要通過兩個(gè)方面來提升效率,一方面是可視化交互,通過拖拉拽的方式實(shí)現(xiàn)可視化的數(shù)據(jù)配置、數(shù)據(jù)源的混合以及數(shù)據(jù)清洗工作,讓數(shù)據(jù)準(zhǔn)備變得更加快捷。另一方面是算法輔助,利用ML和AI技術(shù)實(shí)現(xiàn)部分流程的自動(dòng)化。例如自動(dòng)查找數(shù)據(jù)之間的關(guān)系,對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,推薦用于連接、豐富、清洗數(shù)據(jù)的最佳方法,還有自動(dòng)查找元數(shù)據(jù)和血緣關(guān)系等功能。
增強(qiáng)數(shù)據(jù)分析無需建模和編寫代碼,幫助用戶自動(dòng)尋找數(shù)據(jù)規(guī)律,將相關(guān)結(jié)果自動(dòng)轉(zhuǎn)化為可視化圖表,提高分析效率。增強(qiáng)數(shù)據(jù)分析的典型技術(shù)包括自動(dòng)洞察(Automated Insights)和自動(dòng)可視化(Automated Visualization)。自動(dòng)洞察是增強(qiáng)分析的核心功能,但同樣也是一個(gè)寬泛的概念。如今,大部分主流的BI平臺(tái)都有自動(dòng)洞察的相關(guān)功能,且方向各有不同,其目標(biāo)是代替一部分分析師的工作,從數(shù)據(jù)中發(fā)現(xiàn)潛在信息和價(jià)值。自動(dòng)可視化則是根據(jù)數(shù)據(jù)分析結(jié)果自動(dòng)選擇可視化的方式進(jìn)行展示,與自然語言查詢(NLQ)、自然語言生成(NLG)等技術(shù)配合,大大加快整個(gè)分析流程。
增強(qiáng)機(jī)器學(xué)習(xí)更加關(guān)注模型,比如特征工程、模型訓(xùn)練、模型部署、模型解釋以及最后的模型監(jiān)控和管理。與增強(qiáng)數(shù)據(jù)分析相比,增強(qiáng)機(jī)器學(xué)習(xí)面向的更多是數(shù)據(jù)科學(xué)家,通過算法將特征工程、模型選擇與超參數(shù)優(yōu)化,以及深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索等機(jī)器學(xué)習(xí)過程中的關(guān)鍵步驟自動(dòng)化,幫助數(shù)據(jù)科學(xué)家更高效地得到滿意的模型。
這部分的核心技術(shù)就是自動(dòng)機(jī)器學(xué)習(xí)AutoML。早期的AutoML研究起源于Meta Learning,早在上個(gè)世紀(jì)八十年代就被提出,數(shù)十年間,機(jī)器學(xué)習(xí)領(lǐng)域的相關(guān)研究主要集中在超參數(shù)優(yōu)化。近年來隨著深度學(xué)習(xí)的廣泛應(yīng)用,Meta-Leaning領(lǐng)域在學(xué)術(shù)界又一次升溫。同時(shí),自動(dòng)化特征工程、自動(dòng)化模型評(píng)價(jià)等技術(shù)的研究和商業(yè)化也使得AutoML的概念覆蓋到了機(jī)器學(xué)習(xí)的全流程。
如何打好大數(shù)據(jù)與機(jī)器學(xué)習(xí)的“組合拳”?
機(jī)器學(xué)習(xí)技術(shù)主要依賴三大因素,分別是算力、算法、數(shù)據(jù)。大數(shù)據(jù)技術(shù)所提供的能力是機(jī)器學(xué)習(xí)建模所需要的必然基礎(chǔ),同時(shí)機(jī)器學(xué)習(xí)為大數(shù)據(jù)技術(shù)提供更高的智能,為商業(yè)業(yè)務(wù)產(chǎn)生價(jià)值。大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)技術(shù)本身就是互為因果。
雖然大數(shù)據(jù)與機(jī)器學(xué)習(xí)的融合看上去應(yīng)用前景廣闊,但目前許多企業(yè)客戶還沒有實(shí)現(xiàn)兩者的融合。亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建認(rèn)為,主要有三方面的原因。一是大數(shù)據(jù)和機(jī)器學(xué)習(xí)目前是分而治之的。他們本身技術(shù)發(fā)展路線是兩條不同的路線,在很多企業(yè)這兩個(gè)功能都是屬于兩個(gè)完全不同的團(tuán)隊(duì)來負(fù)責(zé)的,數(shù)據(jù)當(dāng)然也放在不同的倉(cāng)庫(kù)里。二是數(shù)據(jù)處理能力不足,很多機(jī)器學(xué)習(xí)的團(tuán)隊(duì)不具備處理海量數(shù)據(jù)規(guī)模的能力。三是數(shù)據(jù)分析人員參與度低。
在大數(shù)據(jù)與機(jī)器學(xué)習(xí)領(lǐng)域,亞馬遜云科技認(rèn)為,要想幫助客戶解決深度數(shù)據(jù)分析的問題,就要實(shí)現(xiàn)大數(shù)據(jù)和AI從業(yè)務(wù)上以及用戶需求上做深度融合,企業(yè)要在云中要打造統(tǒng)一的數(shù)據(jù)基礎(chǔ)底座,實(shí)現(xiàn)大數(shù)據(jù)和機(jī)器學(xué)習(xí)的“雙劍合璧”,為企業(yè)發(fā)展提供創(chuàng)新引擎。為此,亞馬遜云科技提供廣泛而深入的服務(wù),既能打通兩個(gè)領(lǐng)域的數(shù)據(jù)治理底層服務(wù),還能實(shí)現(xiàn)大數(shù)據(jù)與機(jī)器學(xué)習(xí)之間的相互賦能。
近日,亞馬遜云科技宣布推出“云、數(shù)、智三位一體”的大數(shù)據(jù)與機(jī)器學(xué)習(xí)融合服務(wù)組合,幫助企業(yè)推進(jìn)大數(shù)據(jù)和機(jī)器學(xué)習(xí)的融合,將機(jī)器學(xué)習(xí)由實(shí)驗(yàn)轉(zhuǎn)為規(guī)模化落地實(shí)踐。該服務(wù)組合具體涵蓋三個(gè)方面,分別是:構(gòu)建云中統(tǒng)一的數(shù)據(jù)治理底座,為機(jī)器學(xué)習(xí)提供生產(chǎn)級(jí)別的數(shù)據(jù)處理能力,以及賦能給業(yè)務(wù)人員更加智能的數(shù)據(jù)分析工具。
亞馬遜科技助力機(jī)器學(xué)習(xí)由實(shí)驗(yàn)轉(zhuǎn)為實(shí)踐,為機(jī)器學(xué)習(xí)提供生產(chǎn)級(jí)別的數(shù)據(jù)處理能力,不僅專門構(gòu)建大數(shù)據(jù)服務(wù),對(duì)復(fù)雜的數(shù)據(jù)進(jìn)行加工處理,而且針對(duì)數(shù)據(jù)規(guī)模的動(dòng)態(tài)變化,及時(shí)優(yōu)化數(shù)據(jù)質(zhì)量。Amazon Athena能夠?qū)χС侄喾N開源框架的大數(shù)據(jù)平臺(tái),包括Amazon EMR、高性能關(guān)系數(shù)據(jù)庫(kù)Amazon Aurora、NoSQL數(shù)據(jù)庫(kù)服務(wù)Amazon DynamoDB、Amazon Redshift等多種數(shù)據(jù)源,對(duì)這些數(shù)據(jù)源進(jìn)行聯(lián)邦查詢,快速完成機(jī)器學(xué)習(xí)建模的數(shù)據(jù)加工。以Amazon Redshift、Amazon MSK和Amazon EMR為代表的無服務(wù)器分析能力,可以讓客戶無需配置、擴(kuò)展或管理底層基礎(chǔ)設(shè)施,即可輕松地處理任何規(guī)模的數(shù)據(jù),為機(jī)器學(xué)習(xí)項(xiàng)目提供兼具性能和成本效益的特征數(shù)據(jù)準(zhǔn)備。
雖然增強(qiáng)分析一定程度上改變了目前的數(shù)據(jù)分析模式,但并不意味著數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家變得不再重要。相反,這對(duì)數(shù)據(jù)科學(xué)家的專業(yè)能力提出了更高的要求,既要更多地著眼于企業(yè)數(shù)字化轉(zhuǎn)型過程中數(shù)據(jù)價(jià)值的重新考量,又要追求極致的“精專主義”,畢竟簡(jiǎn)單的題目別人都會(huì)做了,留下來肯定都是硬骨頭了。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。