在回答這個問題之前,希望你先想想另外一個問題:為什么要成為數(shù)據(jù)科學家?當然,如果你是為了10萬美元的年薪也無可厚非,但是我衷心希望你能將這個職業(yè)和自己的價值感掛鉤。因為成為數(shù)據(jù)科學家的路途會很辛苦,但如果你將其看成是實現(xiàn)個人價值的一種方式,那么追尋目標才能帶來長久的成就感,在這個過程中會感到快樂并且動力十足。
數(shù)據(jù)科學家技能包
要回答“如何成為……”這樣的問題,首先當然需要知道想要成為的對象是個什么樣子。圖1是一個數(shù)據(jù)科學家的技能表。
首先編程能力是數(shù)據(jù)科學家需要的基本技能。數(shù)據(jù)讀取、整合、建模分析和可視化的整個環(huán)節(jié)都需要用到這些工具。在業(yè)界環(huán)境中,整個數(shù)據(jù)鏈大概分為5塊:
云端數(shù)據(jù)存儲系統(tǒng)。比如亞馬遜的云服務AWS,大數(shù)據(jù)可以用分布式存儲在S3中。AWS更像是一個生態(tài)系統(tǒng),里面有數(shù)據(jù)庫,也可以在上面運行一些代碼,比如實時從社交網(wǎng)站上爬取數(shù)據(jù)儲存在云端數(shù)據(jù)庫中。最近亞馬遜還在云端提供了一個類似于SQL客戶端的工具,叫做Athena,方便你直接在AWS內(nèi)寫SQL代碼從S3中讀取數(shù)據(jù)。安全門。讀寫數(shù)據(jù)都需要經(jīng)過這道安全門,這個部分主要是由公司的IT部門建立。安全門有3種限制訪問權(quán)限的方式:IP地址:只接受從特定IP地址的訪問職能:比如只有頭銜是數(shù)據(jù)科學家和數(shù)據(jù)工程師的人有權(quán)限用戶名密碼公司常常會同時使用上面3種方法,也就是有特定職能,從特定IP地址,通過用戶名和密碼訪問。數(shù)據(jù)工程師會訓練數(shù)據(jù)科學家穿越這重重安全門。這里對數(shù)據(jù)科學家的計算機要求并不高,只需要知道一些基本的Linux就可以,苦活累活都讓工程師們包攬了。
SQL客戶端。數(shù)據(jù)科學家需要通過SQL從數(shù)據(jù)庫中讀取相應數(shù)據(jù)。根據(jù)數(shù)據(jù)庫的不同,使用SQL的類型和語法也略有不同,但大體上非常相似。掌握基本的數(shù)據(jù)庫讀取操作是非常必要的。數(shù)據(jù)分析。現(xiàn)在使用最廣的數(shù)據(jù)分析語言是R和Python,熟練使用至少其中一門語言幾乎成為數(shù)據(jù)科學家的標配。只會SAS行不?不行。當然,這些都只是工具,工具是解決問題的手段,而非目的。你必須要有一個能用來進行數(shù)據(jù)分析的工具,偏好因人而異,但選擇工具的時候最好考慮工具的靈活和可擴展性。比如說,新的方法是不是能夠用該工具實現(xiàn)?該工具是不是能夠和其他工具結(jié)合實現(xiàn)新功能(可重復報告、交互可視化,將結(jié)果轉(zhuǎn)化成數(shù)據(jù)科學產(chǎn)品App等)?該工具是不是容易整合到應用系統(tǒng)中大規(guī)模的使用(比如電商的推薦算法、搜索的廣告優(yōu)化、精準農(nóng)業(yè)中的化肥量推薦等)?結(jié)果報告。這里會用到基于D3.js的交互可視化,Rmarkdown自動化報告以及Shiny應用。圖2是數(shù)據(jù)流程構(gòu)架圖。
另外一個重要的技能是分析建模。這個模塊可以進一步細分成下面幾個:
數(shù)據(jù)科學家應該具備基本的概率統(tǒng)計知識,能夠熟練進行t檢驗,開方檢驗,擬合優(yōu)度檢驗,方差分析。能夠清楚地解釋Spearman秩相關和Pearson相關之間的區(qū)別。熟悉抽樣、概率分布、實驗設計相關概念。了解貝葉斯統(tǒng)計(很快就能在白板上寫下貝葉斯定理)。不是所有的應用數(shù)據(jù)科學領域都需要用到貝葉斯,即使你所處的行業(yè)用得很少,了解貝葉斯的基本概念也是很有必要的。使用“貝葉斯”這個詞的方式有很多。但其主要代表了一種解釋概率的特別方式。用流行的術語表達,貝葉斯推斷不外乎計算在某假設下事情可能發(fā)生的方式的數(shù)目。事情發(fā)生方式多的假設成立的可能性更高。一旦我們定義了假設,貝葉斯推斷強制施行一種通過已經(jīng)觀測到的信息進行純邏輯的推理過程。頻率法要求所有概率的定義都需要和可計數(shù)的事件以及它們在大樣本中出現(xiàn)的頻率聯(lián)系起來。這使得頻率學的不確定性依賴于想象的數(shù)據(jù)抽樣的前提之上——如果我們多次重復測量,將會收集到一系列呈現(xiàn)某種模式的取值。這也意味著參數(shù)和模型不可能有概率分布,只有測量才有概率分布。這些測量的分布稱為抽樣分布。這些所謂的抽樣只是假設,在很多情況下,這個假設很不合理。而貝葉斯方法將“隨機性”視為信息的特質(zhì),這更符合我們感知的世界運轉(zhuǎn)模式。所以,在很多應用場景中,貝葉斯也更加合適。機器學習相關技能。知道什么是有監(jiān)督學習,什么是無監(jiān)督學習。知道重要的聚類、判別和回歸方法。知道基于罰函數(shù)的模型,關聯(lián)法則分析。常用的黑箱模型:隨機森林、自適性助推、神經(jīng)網(wǎng)絡模型。如果從事心理相關的應用的話(如消費者認知調(diào)查),還需要知道基本的潛變量模型,如探索性因子分析、驗證性因子分析、結(jié)構(gòu)方程模型。在應用過程中還需要加強對模型中誤差的來源分類的理解,知道相應誤差的應對方法。當前存在的機器模型太多,理解模型誤差可以幫助你有效地通過嘗試少量模型找到足夠好的那個。除了技術能力以外,還需要其他一些非技術的能力。這些包括將實際問題轉(zhuǎn)化成數(shù)據(jù)問題的能力,這一過程需要交流,也就要求良好的交流溝通能力。關注細節(jié),分析是一個需要細心和耐心的職業(yè)。還有就是展示結(jié)果的能力,如何讓沒有分析背景的客戶理解模型的結(jié)果,并且最終在實踐中應用模型的結(jié)論。
這個單子還可以一直列下去??雌饋硎遣皇遣恢灰稽c嚇人?其實這個技能單是動態(tài)的,你一開始不必具有上面列出的所有技能,但在工作過程中,需要不斷的學習成長。一個優(yōu)秀的數(shù)據(jù)科學家不是通過數(shù)據(jù)找到標準答案的人,而是那個接受和適應這個充滿不確定性的世界,給出有用方案的人。一個成熟的數(shù)據(jù)科學家面對分析項目時會看到多種可能性和多種分析方法,給出結(jié)果后依舊時刻關注這個結(jié)果,不停地保持小幅度頻繁更新。再次強調(diào)自學能力和成為一個終生學習者是優(yōu)秀的數(shù)據(jù)科學家的必要條件。
如何獲取相關技能
現(xiàn)在你對數(shù)據(jù)科學家需要具備的技能應該有個大致的概念了。接下來的問題是如何獲取這些技能。這個問題的答案部分取決于你的專業(yè)背景。當前數(shù)據(jù)科學家的背景其實很雜,這里主要著眼于數(shù)學、統(tǒng)計、計算機或其它定量分析學科(電子工程、運籌學等)本科以上學歷的情況。數(shù)學統(tǒng)計背景的學生,需要加強計算機方面能力的培養(yǎng)。而計算機背景的學生需要更多的了解統(tǒng)計理論。如果是其他定量分析學科,可能需要同時加強這兩者。
其他專業(yè)的學生成為數(shù)據(jù)科學家有兩種情況:
從事和自己專業(yè)相關行業(yè)公司的數(shù)據(jù)分析。比如在一些精準農(nóng)業(yè)應用的公司,會常常看到數(shù)據(jù)科學家是生態(tài)學博士,或者土壤學博士。其實這些人不能算是廣義上的數(shù)據(jù)科學家。因為他們處理的問題局限于非常特定的領域,對生態(tài)和土壤的了解的要求高于對數(shù)據(jù)分析的要求。雖然是其他專業(yè),但是本身有著很強的計算機技能,比如物理學專業(yè)的學生會成為數(shù)據(jù)科學家或者量化交易員,這因為他們通常具有很好的編程能力。關于數(shù)據(jù)科學家的學位背景,根據(jù)2017年的統(tǒng)計數(shù)據(jù),美國的數(shù)據(jù)科學家41%有博士學位,49%有碩士學位,只有10%是本科。研究生博士期間的課題最好偏向機器學習、數(shù)據(jù)挖掘或預測模型。其次需要的是數(shù)據(jù)庫操作技能。在工作中通常需要用SQL從數(shù)據(jù)庫讀取數(shù)據(jù)。對于統(tǒng)計或者數(shù)學專業(yè)的學生,在校期間可能不需要使用SQL,因此不太熟悉。這沒有關系,我也是工作以后才開始使用SQL的。但你要確保自己至少精通一種程序語言,之后遇到需要用到的新語言可以迅速學習?,F(xiàn)在有大量的MOOC課程,以及一些在線的數(shù)據(jù)科學視頻,都是提升自己的很好方法。
有的人問我怎么選擇學習課程。通常情況下我會看講課的老師,如果是想要徹底清晰地了解某種技術,那就去搜下寫這個領域相關書籍的人,如果他們有開課,可以選這些課;或者那些在數(shù)據(jù)科學行業(yè)名字如雷貫耳的,比如吳恩達這樣的。選這樣的人講的課,才能聽得明白,因為這些人對相關的專業(yè)知識足夠了解。
常見誤區(qū)
在數(shù)據(jù)科學的應用中有哪些常見誤區(qū)?
會用函數(shù)跑模型就可以了。會開車的只是司機,要當汽車工程師,僅靠會開車是不行的。這點放在數(shù)據(jù)科學領域也是一樣。不需要你背下模型背后的所有數(shù)學公式,但是至少需要學過一遍,讓你可以翻著書解釋模型機理。
模型精確度越高越好。在實際應用中需要同時考慮收益和成本。如果模型精確度是90%,但是提高到95%需要復雜得多的模型,因此需要大量的計算設備投入,同時帶來的邊際收益很小的話,滿足于精確度小的模型就好了。模型選擇和評估可能是數(shù)據(jù)分析流程中最難的環(huán)節(jié)。
技術過硬就是尚方寶劍。接受這個現(xiàn)實,人常常是不理性的,我們的行為和對周遭的態(tài)度受感情的影響。你永遠看不到一只單純的狗,你看到的是一只可愛或者不可愛的狗,我們總是會對所有的事情加上自己的主觀判斷。當然,你公司的同事,領導看待你的方式也受到主觀的影響。很遺憾,這個主觀的感受通常更多的來自于你作為人的部分,而不是機器的部分。你覺得自己技術好是一件事情,領導覺得你技術好是另一件事情,領導覺得你的技術是有用的那又是新的一件事情了。這點,美國中國貌似沒差。所以“做技術”不等于“情商低點沒關系”。
技術不斷更新,讓人難以招架。不明覺厲,被泡沫裹挾著失去方向。我理解,這種感覺很不好受。有的時候我感覺自己永遠都是菜鳥,但現(xiàn)在我才明白,這才是當前世界的真實狀況。不斷升級將會是一種常態(tài),這不僅僅是數(shù)據(jù)科學,你必須這么做,因為所有的東西都在升級,就像軍備競賽一樣,升級已經(jīng)成為事物本身的存在方式。無論你使用一樣工具的時間有多長,升級后你又會變成一個菜鳥。所以做菜鳥是可以的,但是不明覺厲,隨意跟風是不允許的。面對不懂的技術,要么就說不懂,要么就去學。其實你真正鼓起勇氣,開始認真去學習這么技術的時候,會發(fā)現(xiàn)其實沒有那么神秘。當然,馬上又會有新的神秘的東西出現(xiàn),這個過程又會重復。但你就是在這樣循環(huán)反復中成長的,產(chǎn)品是這樣,人也是這樣。
數(shù)據(jù)科學領域現(xiàn)狀
我們從數(shù)據(jù)上看看數(shù)據(jù)科學的現(xiàn)狀吧。從最大的職業(yè)社交網(wǎng)站領英(LinkedIn)的數(shù)據(jù)看來,數(shù)據(jù)科學家職位的年薪在7.5萬~ 17萬美元之間,中位數(shù)是11.3萬美元。
其中雇傭數(shù)據(jù)科學家的公司主要集中在微軟、IBM、Fackbook、亞馬遜、Google這些計算機互聯(lián)網(wǎng)公司,圖3為前10名雇傭數(shù)據(jù)科學家最多的公司。
數(shù)據(jù)科學家所處的行業(yè)也集中在科技或者研究性組織,圖4是排名前10的行業(yè)。
不同公司的數(shù)據(jù)科學團隊架構(gòu)不一樣。主要有如下2種:
獨立式。獨立的數(shù)據(jù)科學部門,會有一個數(shù)據(jù)科學總監(jiān)這樣的領導角色領導。這通常在研究所或者公司科研型的部門。對于數(shù)據(jù)科學家而言,在這樣部門的優(yōu)點是能夠和很多其他數(shù)據(jù)科學家有技術上的交流,也有明確的職業(yè)軌道。缺點是,很難脫穎而出,需要和很多其他科學家競爭一些資源(比如培訓會議的機會)。嵌入式。數(shù)據(jù)科學家各自嵌入到不同的職能部門中。常見的是市場部的數(shù)據(jù)科學家。領導者就是傳統(tǒng)的市場總監(jiān)。在這樣的團隊優(yōu)勢在于直接和公司高層接觸,影響商業(yè)決策。因為獨特很容易脫穎而出獲取很多行業(yè)內(nèi)培訓和會議的機會,而且市場部是核心部門,如果你想在這個公司發(fā)展,這是很好的地方。缺點就是,無法和其他數(shù)據(jù)科學家交流,很多東西需要自己決策,周圍人只能選擇相信或者不相信你,但不能給出特別的幫助。久了會有在專業(yè)上落后的危險,所以需要充分利用在市場部的培訓會議資源,積極參與數(shù)據(jù)科學家社區(qū)。最大的缺點是沒有清晰的職業(yè)軌跡,因為在市場內(nèi)部的分析團隊不會太大。如果你的職業(yè)目標是最后管理一個大團隊或者職能的話,這可能不能滿足你的目標。但其職位本身從初級到高級的跨度可以很大。數(shù)據(jù)科學家這個職位還比較新,所以從團隊建設和職業(yè)軌跡上都還在發(fā)展,具有很好的前景。希望你能成為一個不斷思考,終生學習的數(shù)據(jù)科學家!
- 2025年全球數(shù)據(jù)中心:數(shù)字基礎設施的演變
- 谷歌押注多模態(tài)AI,BigQuery湖倉一體是核心支柱
- 數(shù)字化轉(zhuǎn)型支出將飆升:到2027年將達到4萬億美元
- 量子與人工智能:數(shù)字化轉(zhuǎn)型的力量倍增器
- 華為OceanStor Dorado全閃存存儲榮獲CC認證存儲設備最高認證級別證書
- 2024年終盤點 | 華為攜手伙伴共筑鯤鵬生態(tài),openEuler與openGauss雙星閃耀
- 特朗普宣布200億美元投資計劃,在美國多地建設數(shù)據(jù)中心
- 工信部:“點、鏈、網(wǎng)、面”體系化推進算力網(wǎng)絡工作 持續(xù)提升算網(wǎng)綜合供給能力
- 2025年超融合基礎設施的4大趨勢
- 2025年將影響數(shù)據(jù)中心的5個云計算趨勢
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。