最近,我所在的團隊為一家車貸公司搭建了一套信審數(shù)據(jù)模型,該模型可以根據(jù)貸款申請者的數(shù)據(jù)自動預測其在未來能否按時還款,決定是否通過用戶的貸款申請。
相比人工信審,模型預測是全自動的機器過程,在保證判斷準確率的前提下,它能為公司節(jié)省大量的人力成本。
項目在客戶的工作地點開展,我們的工位處于一個信審專區(qū),周圍是大量的信審工作人員,他們每天的工作是審核貸款申請者的資料,聯(lián)系申請者核實信息,工作間隙,我們總能聽到有趣的對話:
信審員:“你有幾個兒子?”
貸款申請者:“三個?!?/p>
信審員:“剛剛打電話給你老婆,她說你們只有兩個兒子,這是怎么回事?”
貸款申請者身旁傳來竊竊私語……
信審員:“你旁邊的人是誰啊?你有幾個兒子還需要別人來提醒你?”
……
對話進行到這里時,信審人員會在系統(tǒng)內(nèi)記錄下該申請者和配偶提供的信息不一致,存在可能的騙貸行為,這將成為該申請者能否被成功授信的“減分項”。
雖然目的均為實現(xiàn)快速、準確的信貸審核,但數(shù)據(jù)建模的工作邏輯與人工審核存在明顯的差異。數(shù)據(jù)分析專家面對的是一串串數(shù)字,而業(yè)務人員面對的是鮮活的申請者。
數(shù)據(jù)分析出發(fā)點所有客戶的申請資料,包括此人性別、年齡、資產(chǎn)情況等基本信息,以及一些來自第三方平臺的風險數(shù)據(jù)(如該申請者有無犯罪記錄),簡單地說,我們工作的出發(fā)點是一張Excel表格。
反觀另一面,信貸審核人員在處理每筆信貸業(yè)務時,他們除了面對每個申請者的具體信息,還會通過電話核實申請者的身份,最終作出人工決策。
數(shù)據(jù)表格是分析師們每天的工作伙伴
初入數(shù)據(jù)行業(yè)時,我以為只要玩轉手中各種復雜的表格,寫一手漂亮的建模代碼,從透視表中找到有趣的發(fā)現(xiàn),就足以成就一個讓客戶滿意的項目。
然而,老板在入職第一天就語重心長地告訴我:“大數(shù)據(jù)是有局限性的,它無法替代你對真實業(yè)務的體會,這也是我們?yōu)楹我v場工作?!?/p>
在客戶的呼叫中心駐場1個多月后,我似乎明白了老板掛在嘴邊的這種“體會”。
大數(shù)據(jù)是我們認識世界的一種方式,它將關于你的一切量化為很多數(shù)據(jù)標簽,然后將它們存儲在表格里,比如你的性別是男性,今天打車回家花了30元,周末玩了兩小時王者榮耀。
大數(shù)據(jù)的優(yōu)勢很明顯,它具有一個對所有人通用的結構,每個用戶這些維度的數(shù)據(jù)都會被記錄在表格中,淘寶知道每個用戶的雙11消費能力,今日頭條對你感興趣的新聞了如指掌,信貸公司記載了你過往的信用記錄。
然而,大數(shù)據(jù)的不足之處在于,它僅僅是對世界的一個切片,對于切片之外的事物一無所知。
面試官面試新員工時,首先會查看申請者的簡歷,簡歷上的教育背景、工作經(jīng)驗、語言能力是以固定結構記錄的數(shù)據(jù),然而申請者在面試中給予面試官的感受,比如她是氣場強大的女神還是平易近人的萌妹子,大數(shù)據(jù)則無法給予答案。
在最近的項目中,我們通過數(shù)據(jù)發(fā)現(xiàn)那些教育程度較高的貸款申請者更容易在未來逾期還款,這聽上去有些違背常理,然而精通業(yè)務的經(jīng)理告訴我們這是合理的現(xiàn)象,那些所謂的高學歷是申請者在填寫表格時編造的。后者并不是大數(shù)據(jù)能夠捕捉的行為,然而對理解申請者的行為至關重要。
金融大鱷喬治·索羅斯的團隊在做出重要投資決策時,他們不僅僅關注能被寫進表格的金融數(shù)據(jù),同時親自前往歐洲各地,在當?shù)氐木瓢膳c人們聊天,了解未來可能的宏觀政策變化,索羅斯甚至依賴自己的背痛預判可能的風險。這些無法被標準地量化,甚至聽上去有些荒謬的決策標準卻成就了他們在1992年9月的“黑色星期三”狙擊英鎊,幾周內(nèi)賺取11億美元的空前收益。
咨詢顧問Christian Madsbjerg的《意會:算法時代人文科學的力量》一書是本文的主要參考書目,該書目前暫無中文版
通常,我們可以把人類認識世界的途徑分為兩種:
一種是如今家喻戶曉的大數(shù)據(jù);
另一種則是一直長久存在,卻往往在這個時代被我們忽視的“厚數(shù)據(jù)”。如果將大數(shù)據(jù)比作對客觀世界的標準化切片,厚數(shù)據(jù)則是我們在每個獨特場景的深度感知。
簡歷上的文字是大數(shù)據(jù),而面試官對申請者的感覺是厚數(shù)據(jù);表格中教育程度一列等于“大學”是大數(shù)據(jù),而填寫者在背后的偽裝是厚數(shù)據(jù);股票、匯率的歷史走勢是大數(shù)據(jù),而酒吧人們的閑聊和索羅斯的背痛是厚數(shù)據(jù)。
大數(shù)據(jù)的不足之處在于它缺乏厚數(shù)據(jù)攜帶的場景。存在主義哲學家海德格爾(Martin Heidegger)提出了“存在”(being)這一概念,它指的是世間萬物存在的場景(context),我們對于任何事物的理解都不能將其孤立為一個元素,而是應考慮這個元素所處的具體場景,以及它與其它元素的相互關系。
海德格爾等人在他們的現(xiàn)象學(phenomenology)中對這個概念進行了更詳細的闡釋,現(xiàn)象學的目的在于描述事物真實存在的方式,而不是我們覺得他們應該存在的方式,而事物“真實存在的方式”必然離不開它所處的場景,而不是像大數(shù)據(jù)那樣對現(xiàn)實進行標準化的切片。
需要注意的是,現(xiàn)象學中的“真實存在”,并不是指這件事必須在客觀上是正確的,比如“世界上只有男和女兩種性別”,而是當我們在某一場景下聽到一個現(xiàn)象學的描述,被問及“你覺得是這樣嗎?”時,我們會點頭表示同意。
同樣的一杯紅酒,在點亮燭光的法國餐廳與嘈雜的辦公桌前飲用,注定是不一樣的感受,雖然它們的化學質地是相同的。
同樣是一個小時,在思修課堂和情人坡度過,必然是不同的長度,雖然它們的自然屬性沒有差異。
兩名被數(shù)據(jù)標記有存在犯罪記錄的貸款申請者,雖然數(shù)據(jù)將它們一視同仁,然而一位只是過失的交通肇事,另一位則有搶劫銀行的前科,他們在未來的還款能力或許大相徑庭。
身為數(shù)據(jù)工作者,當然希望數(shù)據(jù)和算法能盡可能多地代替人類的工作,但正如我們在項目中看到的,現(xiàn)實并非如此,僅僅面對數(shù)據(jù)和算法并無法洞察每個申請者所處的獨特場景。機器學習與人類決策是相互補充,而非相互替代的關系。
這也是為什么,數(shù)據(jù)分析師們一定要駐場工作,因為只有像信審專員那樣身處業(yè)務前線,才能對那些貸款的申請者形成更加深刻的體會。
之所以與大家分享場景、厚數(shù)據(jù)、現(xiàn)象學這些概念,是因為在這個大數(shù)據(jù)概念傳遍街頭巷尾的時代,我們極易選擇用簡單的數(shù)據(jù)標簽衡量一切:
選擇去哪家餐館,只看大眾點評的總體評分,并不在意網(wǎng)友的大段評論。
決定在哪里讀大學,先看學校的綜合及專業(yè)排名,不在乎學長學姐們分享的體會。
想了解用戶對產(chǎn)品的滿意度,只要求1000人在問卷上打分,不會深度訪談用戶使用產(chǎn)品時的具體想法和感受。
后者事實上代表了一種以現(xiàn)象學為基礎的“文科思維”,即我們只關注每個獨特場景下的主觀體驗,不會嘗試將許多場景標準化,然后貼上統(tǒng)一的數(shù)據(jù)標簽。
研究文科思維的專家Christian Madsbjerg認為文科思維是培養(yǎng)我們對外界的敏感度的重要途徑,所謂的敏感度,指的是我們察覺事物間微妙差別的能力。正如兩杯紅酒,在不同地點的1小時,兩名數(shù)據(jù)畫像相同的申請者,辨別它們之間的差異需要的正是文科思維。
Madsbjerg指出學習諸如藝術、歷史、哲學、社會學、人類學這些人文學科是培養(yǎng)文科思維的重要手段。因為這些學科中存在大量基于具體場景的思考和感知,比如藝術課教你欣賞達芬奇的作品,社會學家擅長消費者深度訪談,人類學家喜歡實地觀察原始部落等,它們不會教你如何將世界編碼成一張數(shù)據(jù)表格,卻能培養(yǎng)你洞察世間微妙區(qū)別的能力。
前段時間看了《看不見的客人》,這是一部懸疑劇,劇情圍繞一名成功的銀行家與一名女律師之間的對話展開,女律師試圖幫助銀行家擺脫殺人的罪名,但殊不知她就是殺人案中被害者的母親。
《看不見的客人》中的女律師
與我一起看電影的小悶同學在女律師出場時脫口而出:“我感覺這個律師就是他媽媽?!彼母杏X驚人的準確。
電影結束我問小悶,她是如何做出這樣的判斷的,小悶說律師的面部表情看上去很奇怪,不像一名提供專業(yè)服務的人,這顯然不是機器學習算法所能實現(xiàn)的。
今天的內(nèi)容或許能給小悶對外界的敏感提供解釋:她是一名文科生,而且很喜歡看電影。
最后,與你分享一個關于文科生的好消息。薪酬調研公司PayScale曾做過一項調查,在薪酬排名前20的畢業(yè)生專業(yè)中,計算機工程、化學工程這樣的理工類專業(yè)長期占榜,而社會學、歷史學這樣的人文學科則十分罕見。
這聽上去符合我們的直覺,但如果我們觀察那些收入排在前10%的人,具有政治科學、哲學、戲劇、歷史背景的專業(yè)人士則會脫穎而出,寶潔前CEO雷富禮曾對實現(xiàn)商業(yè)成功單單提出一條建議:取得一個文科(或稱“自由技藝”)學位(pursue a degree in liberal arts)。
這樣的建議無疑是有道理的,畢竟,真實的世界不是電子表格。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 后人工智能時代:2025年,在紛擾中重塑數(shù)據(jù)、洞察和行動
- 2025年展望:人工智能推動IT整合
- 量子計算:商業(yè)世界的新前沿與設計思維的融合
- IDC:三季度全球以太網(wǎng)交換機收入同比下降7.9%、環(huán)比增長6.6%
- Fortinet李宏凱:2025年在中國大陸啟動SASE PoP節(jié)點部署 助力企業(yè)出海
- Fortinet李宏凱:2024年Fortinet全球客戶已超80萬
- 央國企采購管理升級,合合信息旗下啟信慧眼以科技破局難點
- Apache Struts重大漏洞被黑客利用,遠程代碼執(zhí)行風險加劇
- Crunchbase:2024年AI網(wǎng)絡安全行業(yè)風險投資超過26億美元
- 調查報告:AI與云重塑IT格局,77%的IT領導者視網(wǎng)絡安全為首要挑戰(zhàn)
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。