2020年6月,哈工大、哈工程的MATLAB被美國軟件公司MathWorks斷供。該兩所院校被美國商務部工業(yè)與安全局(BIS)列入實體清單,而MathWorks作為美國企業(yè),需要遵守《出口管理條例》(EAR)的管制,在沒有獲得出口許可時,不得與實體清單進行EAR受控物項的交易。作為國內首屈一指的“工程師搖籃”,這一斷供事件無疑直接或間接影響了我國航天事業(yè)的開展,國產工程仿真軟件的自主研發(fā)迫在眉睫。
同樣的事情還發(fā)生在2021年初, Elastic 公司決定將Apache License 2.0 變更為雙授權許可,即Server Side Public License (SSPL) 和 Elastic License。該協(xié)議部分限制了云廠商利用其開源軟件,包括在托管其軟件必須獲得Elastic商用許可或向Elastic開放其服務代碼才可以使用;同時,軟件的監(jiān)控、安全、機器學習能力、數(shù)據(jù)異常檢測、數(shù)據(jù)合規(guī)檢測等功能未開源。這意味著封裝開源ElasticSearch的云廠商將無法免費使用該產品,而使用開源ES的用戶也將無法免費使用其安全組件模塊,無法保證業(yè)務運行安全。
政策引導信創(chuàng)落地,技術和需求永遠是驅動力
在2021年《“十四五”國家信息化規(guī)劃》提出了“加強信息技術基礎研究、強化關鍵技術創(chuàng)新,強化市場化和產業(yè)化引導,加強重點領域核心技術短板重點突破和集中攻關”。各地方政府的“信創(chuàng)”(即信息技術應用創(chuàng)新)政策緊隨其后,貴州、湖南、廣東、天津等地均發(fā)布“十四五”信息技術產業(yè)發(fā)展規(guī)劃。其中,深圳市對信創(chuàng)項目給予3%的補貼,并規(guī)定了各行業(yè)的信創(chuàng)采購比例不得低于兩成和四成不等。此外,《“十四五”軟件和信息技術服務業(yè)發(fā)展規(guī)劃》還對信創(chuàng)目標提出了高要求:“到2025年,我國規(guī)模以上企業(yè)軟件業(yè)務收入要突破14萬億元,年均增長12%以上。”
綜合各方因素,我國信創(chuàng)已從規(guī)劃-實施-落地階段,邁入至快速發(fā)展的關鍵時期。在此階段,除了推動我國技術的自主可控,還將助推政府、金融、電信、能源等國計民生行業(yè)的數(shù)字化轉型。
信創(chuàng)的重點在于“創(chuàng)”,在于產品創(chuàng)新、技術創(chuàng)新,在于為用戶創(chuàng)造更好的價值、更優(yōu)異的產品性能和體驗。國產基礎軟件更了解中國國情,更了解中國客戶的痛點,也更適應于中國海量的數(shù)據(jù)量級和豐富的數(shù)據(jù)類型。
分析工具也有國產化平滑遷移方案,且數(shù)據(jù)處理量更大、功能更豐富
大數(shù)據(jù)分析工具可以幫助用戶更靈活、更高效地進行數(shù)據(jù)分析,挖掘數(shù)據(jù)價值。隨著數(shù)據(jù)量的劇增,以及深度學習算法的不斷迭代以及創(chuàng)新,市面上如SAS、SPSS等集中式部署的分析工具越來越難以滿足企業(yè)用戶更快速、更高效、更靈活以及更低成本的需求。
例如,用戶在使用SAS過程中可能會遇到如下幾個問題:首先,其相對比較封閉,用戶無法針對單個功能授予許可證,使用成本高昂;其次,SAS自建機器學習算法有限,深度學習算法依賴外部如Python嵌入支持,用戶無法靈活地獲取新的算法;再次,SAS對分布式讀寫和計算存在局限性,對海量數(shù)據(jù)處理及大規(guī)模機器學習難以有效支撐,對實時計算更是無能為力。
此外,SAS是過程性語言,代碼量偏多,加上閉源特性,SAS社區(qū)不及開源語言活躍。隨著R、Python的流行,SAS人才日漸稀缺,導致企業(yè)難以組織高質量團隊。
星環(huán)科技Sophon Base是具備統(tǒng)計、機器學習、深度學習等完備算法和豐富算子的企業(yè)級分布式機器學習平臺,支持從數(shù)據(jù)接入、數(shù)據(jù)處理,到模型訓練、服務部署、線上監(jiān)控的一站式可視化流程,并擁有開源計算框架的生態(tài)、分布式計算性能、低成本與高開放性等特性。
圖1:Sophon與SAS功能對比一欄
在多年的行業(yè)積累和項目實踐上,星環(huán)科技建立了一套模型遷移方法論,整個過程被定義為8個階段——業(yè)務理解、數(shù)據(jù)理解、元模型理解、數(shù)據(jù)準備、模型遷移、評估報告、應用和檢測。星環(huán)科技SAS平滑遷移過程強調針對實際業(yè)務問題,解決客戶的業(yè)務痛點,產生實際價值。
通過對用戶業(yè)務、數(shù)據(jù)、元模型的理解后,進行相應的數(shù)據(jù)準備,包括框架設計、數(shù)據(jù)處理、方案設計等。當數(shù)據(jù)準備好后就會進行模型遷移,這一階段主要是進行代碼邏輯架構梳理設計、模型驗證等。模型遷移完成后會對遷移效果進行評估,確認遷移前后的準確性、一致性、以及優(yōu)化效果驗證。最后是部署上線來支持業(yè)務,對業(yè)務進行持續(xù)跟蹤,不斷優(yōu)化模型,并對效果進行評估。通過一整套完整的遷移流程,保障SAS平滑、安全的遷移到Sophon。
星環(huán)科技Sophon可以提供完整的SAS模型遷移能力。相較于SAS,遷移到Sophon后可以支持多源異構數(shù)據(jù)的接入、豐富的數(shù)據(jù)處理、多個框架的模型訓練及發(fā)布、模型部署和維護等全過程,多源數(shù)據(jù)和建模流程靈活組合確保綜合性場景高效支撐。用戶可以獲得Sophon自建的200多個高性能分布式AI算子以及對自定義算子的支持,完全覆蓋SAS原有的建模能力。同時,Sophon還能帶來模型可解釋性、聯(lián)邦學習等額外的支持,更好地支撐模型的業(yè)務應用。此外,在模型的統(tǒng)一管理、發(fā)布及監(jiān)控方面,Sophon也為企業(yè)客戶提供了簡潔、易用、穩(wěn)定的解決方案,幫助用戶更好地獲取數(shù)據(jù)價值。
分布式的分析工具性能幾何?用一個實際案例來說明
在銀行交易中,20%的頭部優(yōu)質客戶會給銀行貢獻80%的利潤,而贏得一個新客戶的成本是保留一個老客戶的5至6倍。因此,銀行如果能夠提前預測出潛在的流失客戶,防止客戶流失而引發(fā)的經(jīng)營危機,對于提高銀行的競爭力具有戰(zhàn)略意義。
此前,某大型國有銀行在面臨此類數(shù)據(jù)挖掘的業(yè)務時,使用的是SAS產品。由于SAS是集中式的,對單臺服務器要求太高,算力無法支撐需求,且無法支持可視化的機器學習,對于業(yè)務人員來說使用門檻過高。在經(jīng)過產品選型后,決定采用星環(huán)科技的智能分析工具Sophon替換原有SAS,用以滿足銀行利用全量數(shù)據(jù)進行挖掘的需求。分布式的軟件架構也在實戰(zhàn)過程中證明了其海量的數(shù)據(jù)處理性能優(yōu)勢,逐漸取代了原有的集中式架構,從而以更有益的表現(xiàn)完成了某大型國有銀行所要求的海量數(shù)據(jù)挖掘任務。
表1:替換前后的產品分析
由于Sophon提供用戶從數(shù)據(jù)采集、接入、模型構建、測試、管理、知識存算和推理及輔助決策的全流程開發(fā)一體化平臺,因此大幅提高了用戶建模得整體效率。在模型上線后,該銀行實現(xiàn)了對單個客戶按照流失率得評分,評估數(shù)據(jù)顯示,在流失率評分最高的前10%客戶當中,實際流失的比例達到了20.2%,相較全量數(shù)據(jù)5.9%的流失率來說,流失率預測效率提升了242%,前10%客戶的覆蓋度為34.2%。換言之,該銀行只需要對流失率評分最高的前10%的客戶進行營銷活動,就能夠覆蓋整體34%的流失率,可以有效提升客戶流失率挽回的效率和效果。在中高端客戶流失預警模型構建方面,該銀行基于星環(huán)科技分布式的智能分析工具Sophon,利用中高端客戶短期資產流失與長期資產流失的高關聯(lián)性,通過邏輯回歸模型提前找出中高端客戶群中的近期潛在流失客戶。模型訓練主要選取了如客戶基本屬性、持有產品、交易情況、賬戶情況、渠道喜好等變量,綜合全面地考量后,給出該客戶在中高端客戶流失層面的分數(shù),分數(shù)高低決定了流失可能性大小。
中高端客戶流失預警模型成功支撐了客戶經(jīng)理對優(yōu)質客戶的日常維護工作,從而定制差異化、個性化的產品、服務和營銷策略來挽留客戶,以防客戶流失情況的發(fā)生。
Sophon除了機器學習建模場景外,還能支持哪些高階應用?
Sophon除了聚焦于機器學習、深度學習的數(shù)據(jù)科學平臺Sophon Base外,還擁有邊緣計算平臺Sophon Edge,可用于計算機視覺場景及工業(yè)互聯(lián)網(wǎng)場景;知識圖譜平臺Sophon KG可用于知識庫構建、智能問答等場景;隱私計算平臺Sophon P2C可用于企業(yè)內外部的數(shù)據(jù)安全流通、聯(lián)合建模等場景??傃灾脩粼谑褂肧ophon的分布式架構替代集中式的國外數(shù)據(jù)分析軟件后,除了數(shù)據(jù)處理量及建模性能的指數(shù)型提升,還能擁有邊緣計算、知識圖譜、隱私計算等高階AI場景的支持能力,可以有效支持企業(yè)的數(shù)字化轉型及未來智慧化場景的拓展。
截至目前,星環(huán)科技智能分析工具Sophon已服務鄭商所、中行、工行等金融機構,外交部等政府機構,國網(wǎng)、南網(wǎng)、中化等能源用戶,人民網(wǎng)等媒體用戶,上汽紅巖、中煙等制造業(yè)用戶,并且在多個醫(yī)療和科研院所落地。
此前,Sophon已入選工信部人工智能產業(yè)創(chuàng)新任務“揭榜產品”,并且為上海數(shù)據(jù)交易所提供數(shù)據(jù)要素流通服務產品工具集。2021年至2022年,連續(xù)兩年被Gartner選為增強數(shù)據(jù)分析技術(Augmented Data and Analytics)推薦供應商,并入選Gartner大中華區(qū)AI創(chuàng)業(yè)標桿企業(yè)、《中國分析平臺市場指南》等權威報告。
“科技自立自強”任重而道遠,技術自主研發(fā)是唯一的解法
在不斷頻出的斷供事件及國內外政策加持下,軟件自主權及信息安全保障已成為頭等要務。數(shù)據(jù)是企業(yè)的資產和命脈,數(shù)據(jù)安全是企業(yè)固守的第一道墻。在使用國外開源組件或封裝服務的過程中,仍舊無法避免授權許可協(xié)議修改、安全相關模塊不提供等斷供風險,始終受制于國外法律與國際形勢。
想要實現(xiàn)“科技自立自強”,只有把技術真正牢牢掌握在自己手中。星環(huán)科技作為國產大數(shù)據(jù)領域的重要參與者,已實現(xiàn)了全軟件棧的自主研發(fā),且性能優(yōu)于國外的同類型基礎軟件產品。未來,星環(huán)科技將持續(xù)自主研發(fā)大數(shù)據(jù)基礎軟件領域的關鍵技術,推動國家數(shù)據(jù)信息安全和其他產業(yè)的發(fā)展,持續(xù)為客戶帶來安全可靠、性能優(yōu)異、兼容性強的基礎軟件產品。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )