開源搜索引擎國產(chǎn)化替代勢在必行
科技自立自強(qiáng)是時代發(fā)展的迫切需要和必然選擇。二十大報告強(qiáng)調(diào),“集聚力量進(jìn)行原創(chuàng)性引領(lǐng)科技攻關(guān),堅決打贏關(guān)鍵核心技術(shù)攻堅戰(zhàn)”。從中興等一系列高新技企業(yè)被制裁,到今年俄烏沖突發(fā)生后,多家科技公司宣布暫停在俄羅斯的所有業(yè)務(wù),包括芯片、軟件、云服務(wù)等斷供事件,都在警示我們要擺脫被科技制裁風(fēng)險的唯一出路就是要自主研發(fā),實現(xiàn)真正的自主可控。
1、開源協(xié)議變更帶來商業(yè)風(fēng)險
Elasticsearch是一款開源搜索引擎,憑借著先發(fā)優(yōu)勢和早期的積累,被用于多種檢索類業(yè)務(wù)場景,并占據(jù)了一定的市場。2021年初, Elastic公司決定將這款開源軟件的 Apache License 2.0 變更為雙授權(quán)許可,即Server Side Public License (SSPL) 和 Elastic License。其核心條款是“如果將程序的功能或修改后的版本作為服務(wù)提供給第三方,那么必須免費公開提供服務(wù)源代碼”。這意味著不法分子可以獲得其源代碼并研究其漏洞,給企業(yè)用戶帶來巨大的安全風(fēng)險。
2、開源軟件存在“被制裁”風(fēng)險
Apache 軟件基金會和GitHub官網(wǎng)都有公開說明,產(chǎn)品和技術(shù)受到美國的出口法律和法規(guī)限制。盡管此類軟件的使用是免費的,但它的許可協(xié)議仍然存在諸多限制,包括禁止受制裁的國家使用原本對公眾免費開放的代碼。受美國出口管制的俄羅斯在近期俄烏事件中將這方面風(fēng)險徹底暴露。
3、安全工具出口和漏洞分享禁令政策陸續(xù)出臺
2021年美國商務(wù)部和安全局發(fā)布最新控制措施,禁止美國公司向中國和俄羅斯等“有問題”的國家出口和轉(zhuǎn)售網(wǎng)絡(luò)安全產(chǎn)品。
今年6月份,美國商務(wù)部和安全局又發(fā)布了一項針對網(wǎng)絡(luò)安全領(lǐng)域的出口管制規(guī)定,未經(jīng)審批禁止向中國分享安全漏洞。簡單的說,就是美國實體與中國政府相關(guān)的組織和個人合作時,如果發(fā)現(xiàn)潛在安全漏洞和信息,不能直接公布,要先經(jīng)過美國商務(wù)部審核。這意味著如果繼續(xù)使用國外軟件,那安全問題將掌握在別人手里。
Elasticsearch數(shù)據(jù)泄露事件頻發(fā),安全能力不足
1、Elasticsearch數(shù)據(jù)泄露事件頻發(fā)
在過去幾年內(nèi),Elasticsearch 數(shù)據(jù)泄露事件頻發(fā),甚至一個月被曝6次數(shù)據(jù)泄露。
去年,受美國出口管制的巴林,暴露的Elasticsearch集群中近200萬條信息被泄露,包含有關(guān)人員的敏感信息。
而作為美國出口管制重點對象的俄羅斯,近幾年發(fā)生多起Elasticsearch數(shù)據(jù)泄露事件。
* 2019年,2000萬條個人信息和稅務(wù)記錄在網(wǎng)上曝光,任何擁有網(wǎng)絡(luò)瀏覽器的人都可以訪問;
* 2021年底,Elasticsearch服務(wù)器再次發(fā)生數(shù)據(jù)泄露,超過8.7億條記錄或147GB個人信息數(shù)據(jù)在網(wǎng)上曝光;
* 2022年6月,俄羅斯金融領(lǐng)域也發(fā)生了一起駭人的數(shù)據(jù)泄露事件,130GB的數(shù)據(jù)集包含俄羅斯人的付款,發(fā)票和其他財務(wù)敏感信息,甚至包括政府方面的日志數(shù)據(jù);
在國內(nèi),今年某漫畫閱讀平臺也遭遇數(shù)據(jù)泄露,黑客從不安全的Elasticsearch數(shù)據(jù)庫中竊取了2300萬用戶帳戶敏感信息。
此外,根據(jù)Group-IB報告顯示,2021年網(wǎng)絡(luò)上暴露的 Elasticsearch 實例超過10萬個,約占2021年暴露數(shù)據(jù)庫總數(shù)的30%。
2、數(shù)據(jù)保護(hù)能力不足
Elasticsearch 開源版本是不具備數(shù)據(jù)保護(hù)功能的,看似免費,但不安全。用戶必須付費獲得Gold+許可才能獲得相關(guān)的安全保護(hù)功能,且不同的安全功能對應(yīng)不同的收費標(biāo)準(zhǔn)。
3、數(shù)據(jù)有丟失風(fēng)險
為了滿足數(shù)據(jù)入庫性能要求,Elasticsearch在數(shù)據(jù)層采用了簡單的主從最終一致性模型。當(dāng)主副本出現(xiàn)故障時,從副本和主副本不能保證數(shù)據(jù)的強(qiáng)一致性,從副本的數(shù)據(jù)有可能不是最新的。以此為基礎(chǔ)恢復(fù)數(shù)據(jù),很有可能導(dǎo)致部分?jǐn)?shù)據(jù)丟失。
星環(huán)科技自主研發(fā)的國產(chǎn)搜索引擎TranswarpScope
Transwarp Scope是星環(huán)科技自主研發(fā)的企業(yè)級分布式搜索引擎,提供PB級海量數(shù)據(jù)的交互式多維檢索分析服務(wù),支持百萬級高并發(fā)和毫秒級低延時檢索業(yè)務(wù),覆蓋模糊匹配,精確查詢,多維檢索等各類檢索類場景,滿足數(shù)據(jù)檢索多樣化需求。
* 海量日志存儲與檢索Scope在數(shù)據(jù)存儲做了多層優(yōu)化,輕松滿足海量檢索數(shù)據(jù)的存儲,支持大規(guī)模數(shù)據(jù)的入庫,而且架構(gòu)穩(wěn)定,數(shù)據(jù)提供一致性和多副本容災(zāi)。此外,底層的搜索模塊通過分區(qū),索引排序等各類優(yōu)化手段,滿足大體量數(shù)據(jù)的快速精確檢索,實現(xiàn)毫秒級檢索和讀寫互不影響,非常適合電信、安全、能源等領(lǐng)域的檢索需求。
* 一站式檢索平臺Scope支持結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化小對象數(shù)據(jù)的分級存儲與毫秒級檢索響應(yīng),提供完備的分區(qū)優(yōu)化機(jī)制和高并發(fā)檢索能力。一站化服務(wù)使得業(yè)務(wù)無需通過不同數(shù)據(jù)庫產(chǎn)品的組合來實現(xiàn)復(fù)雜檢索場景,一套產(chǎn)品滿足多類需求。高并發(fā)非結(jié)構(gòu)化數(shù)據(jù)靈活檢索等業(yè)務(wù)均可通過Scope滿足。
1、國產(chǎn)自研搜索引擎,自主可控
Transwarp Scope通過了工信部源代碼掃描測試,并于2019年上榜由信息技術(shù)應(yīng)用創(chuàng)新工作委員會編制的國產(chǎn)軟硬件技術(shù)圖譜。
2、國產(chǎn)軟硬件適配
Scope已完成與主流信創(chuàng)生態(tài)廠商的適配互認(rèn)工作,支持適配長城飛騰、華為泰山、龍芯等服務(wù)器架構(gòu),同時滿足麒麟,UOS等操作系統(tǒng),滿足信創(chuàng)要求和國產(chǎn)化替換需求。
3、兼容Elasticsearch接口,多生態(tài)兼容,實現(xiàn)低成本平滑遷移
Transwarp Scope兼容常用Elasticsearch的接口,可實現(xiàn)Elasticsearch業(yè)務(wù)的平滑遷移。星環(huán)科技提供多種數(shù)據(jù)遷移方案,用戶可根據(jù)實際情況靈活選擇。經(jīng)過大量項目的實踐和經(jīng)驗,星環(huán)科技建立了成熟標(biāo)準(zhǔn)的Elasticsearch平滑遷移方法論,通過調(diào)研評估、方案測試和上線保障“三步”策略,全程保障數(shù)據(jù)與業(yè)務(wù)的平滑遷移。
除了兼容以上Elasticsearch接口,Scope還兼容PostgreSQL協(xié)議以及Spark等大數(shù)據(jù)產(chǎn)品的接入。同時,Scope還提供完備的SQL語法支持,滿足傳統(tǒng)數(shù)據(jù)庫遷移到Scope的需求,通過星環(huán)科技SQL編譯器QUARK實現(xiàn)大數(shù)據(jù)基礎(chǔ)平臺TDH內(nèi)部的完整數(shù)據(jù)流轉(zhuǎn)方案。
ROI、擴(kuò)展性、穩(wěn)定性、安全性、數(shù)據(jù)讀寫/恢復(fù)/一致性等全面超越開源搜索引擎
1、硬件和運維成本
Elasticsearch單節(jié)點支持的數(shù)據(jù)量最多到20TB左右,在項目實踐中客戶通常在每臺服務(wù)器上部署多個Elasticsearch實例,而如此多的實例將會帶來不穩(wěn)定問題,觸發(fā)節(jié)點失聯(lián),運維成本高。反之,如果每臺服務(wù)器配置較少容量的磁盤,那么用戶將付出非常高的硬件成本。而當(dāng)節(jié)點數(shù)超過100時,同樣會有穩(wěn)定性問題。
這兩類方案,運維成本和硬件成本變成了魚和熊掌不可兼得,讓用戶陷入兩難的境地。
星環(huán)科技Transwarp Scope對內(nèi)存進(jìn)行創(chuàng)新優(yōu)化,提高單集群單節(jié)點容量上限,單實例可突破至百TB的數(shù)據(jù)存儲,是Elasticsearch的5倍以上,大大降低用戶硬件成本。
在提高單實例存儲容量,降低集群規(guī)模的同時,Scope通過多進(jìn)程架構(gòu),充分利用集群cpu/內(nèi)存資源,讀寫壓力分流,滿足更高的并發(fā)需求,提高集群穩(wěn)定性的同時降低運維成本。
2、集群擴(kuò)展性
Elasticsearch在集群擴(kuò)展上存在瓶頸,其采用的P2P架構(gòu)和排隊模型處理一些狀態(tài)同步和元數(shù)據(jù)改變等操作時,效率比較低。在項目實踐中,當(dāng)節(jié)點(或?qū)嵗?規(guī)模超過100個時,會遇到穩(wěn)定性問題,特別是多種任務(wù)并發(fā)的情景下,集群壓力大,容易觸發(fā)節(jié)點接連失聯(lián)的問題。
星環(huán)科技Transwarp Scope采用多進(jìn)程架構(gòu),充分利用集群cpu/內(nèi)存資源,讀寫壓力分流,滿足更高的并發(fā)需求以及提升穩(wěn)定性,單集群在200以上節(jié)點規(guī)模下穩(wěn)定運行,同時保障性能無衰減。
3、全方位數(shù)據(jù)安全保障
Transwarp Scope內(nèi)置配套的安全授權(quán)、用戶權(quán)限控制等相關(guān)安全功能,可以有效保障系統(tǒng)數(shù)據(jù)和訪問上的安全。
在用戶權(quán)限認(rèn)證上,基于SASL提供plain與gssapi兩種認(rèn)證方式,對應(yīng)傳統(tǒng)的用戶名密碼認(rèn)證方式和基于Kerberos的登錄驗證方式。其中kerberos可依賴于TDH平臺的安全服務(wù)Guardian,同時提供用戶組概念,便于通過平臺實現(xiàn)統(tǒng)一管理與操作。
在數(shù)據(jù)權(quán)限上,基于角色的訪問控制(RBAC)機(jī)制,使用戶能夠通過將權(quán)限分配給角色并將角色分配給用戶或組來授權(quán)用戶,支持Index level Security &Database level Security。
在數(shù)據(jù)加密上,Scope支持基于SSL/TLS兩類協(xié)議進(jìn)行數(shù)據(jù)加密,確保數(shù)據(jù)傳輸過程的安全。
4、數(shù)據(jù)讀寫性能
Elasticsearch在數(shù)據(jù)讀寫性能方面存在不足,如壓縮率不足,數(shù)據(jù)膨脹率高,讀寫策略優(yōu)化不足等都大大降低了數(shù)據(jù)讀寫的效率。數(shù)據(jù)讀寫性能受限,直接影響查詢操作的并發(fā)度和數(shù)據(jù)入倉的效率。
星環(huán)科技Transwarp Scope對讀寫線程資源的管理更嚴(yán)格、更精細(xì),使讀寫性能更優(yōu),數(shù)據(jù)批量寫入速度相對Elasticsearch提升40%,讀寫分離的特性大幅提升查詢的穩(wěn)定性。
5、數(shù)據(jù)恢復(fù)性能
Elasticsearch缺乏“增量數(shù)據(jù)”的概念,當(dāng)單點發(fā)生故障進(jìn)行數(shù)據(jù)恢復(fù)時,采用全量數(shù)據(jù)拷貝方式恢復(fù)數(shù)據(jù),工作量大,往往需要小時級的時間才能恢復(fù)服務(wù),嚴(yán)重影響服務(wù)的正常進(jìn)行。星環(huán)科技Transwarp Scope具有很強(qiáng)的容災(zāi)和數(shù)據(jù)恢復(fù)能力。Scope基于Raft協(xié)議保證數(shù)據(jù)的一致性,同時提供多副本支持,重啟恢復(fù)時間在TB級數(shù)據(jù)量下控制在分鐘級,不到Elasticsearch的1/10,大幅降低了服務(wù)不可用時間。
此外,Scope支持跨數(shù)據(jù)中心的多活部署,使得重要業(yè)務(wù)在多數(shù)據(jù)中心交互和流轉(zhuǎn),還支持主備集群的實時數(shù)據(jù)同步,滿足主備集群的failover和switchover。
6、數(shù)據(jù)一致性
Elasticsearch主本和副本之間同步采用P2P架構(gòu)和排隊模型實現(xiàn)主從最終一致性。當(dāng)主副本出現(xiàn)故障時,從副本和主副本不能保證數(shù)據(jù)的強(qiáng)一致性,很有可能導(dǎo)致部分?jǐn)?shù)據(jù)丟失。
Transwarp Scope基于自主研發(fā)的分布式數(shù)據(jù)庫管理系統(tǒng)TDDMS,采用shared-nothing架構(gòu),通過多副本機(jī)制實現(xiàn)數(shù)據(jù)服務(wù)高可用,使用raft協(xié)議保證副本之間的數(shù)據(jù)一致性,保障數(shù)據(jù)不丟失。此外,TDDMS支持彈性擴(kuò)縮容、自動故障恢復(fù)、權(quán)限控制、多租戶與冷熱數(shù)據(jù)分層存儲等功能。
7、售后服務(wù)
Elasticsearch是開源產(chǎn)品,用戶需自己探索和解決問題,無法獲取有效的服務(wù)保障。用戶需要購買企業(yè)版才能獲得相應(yīng)的服務(wù),且在國內(nèi)沒有原廠技術(shù)研發(fā)人員,很難保障SLA。Transwarp Scope的產(chǎn)品提供方星環(huán)科技是國內(nèi)廠商,具有非常強(qiáng)大的研發(fā)、技術(shù)支持與服務(wù)能力,提供強(qiáng)大的原廠服務(wù)保障能力,保障用戶售后無憂。
星環(huán)科技TranswarpScope助力某政府單位平滑替換Elasticsearch
1、客戶挑戰(zhàn)
某政府單位原先使用開源Elasticsearch,隨著內(nèi)部系統(tǒng)數(shù)據(jù)量的高速增長,總數(shù)據(jù)量超幾十PB,單張表達(dá)百億條級別,在不斷擴(kuò)容下節(jié)點數(shù)達(dá)Elasticsearch上限,穩(wěn)定性經(jīng)常出現(xiàn)問題,同時當(dāng)集群出現(xiàn)問題時,Elasticsearch重啟需要小時級別,集群恢復(fù)速度慢。在性能問題方面,讀寫資源無法隔離,拖累查詢性能,系統(tǒng)設(shè)計為讀寫兩套集群。
2、解決方案
基于星環(huán)科技大數(shù)據(jù)基礎(chǔ)平臺TDH構(gòu)建大規(guī)模數(shù)據(jù)綜合搜索平臺,Slipstream做實時數(shù)據(jù)引擎,清洗分析并入庫到Hyperbase與Scope的綜合搜索庫中,提供基于幾十PB數(shù)據(jù)量的快速查詢和搜索能力,集群規(guī)模達(dá)200個節(jié)點。
3、項目成果
融合人、地、物、事、組織與視頻/圖片等因素,通過星環(huán)TDH構(gòu)建一站式搜索平臺,實現(xiàn)了PB級數(shù)據(jù)統(tǒng)一存儲、檢索滿足海量數(shù)據(jù)毫秒級響應(yīng),高并發(fā)、快速統(tǒng)計、字段精確與模糊查詢等復(fù)雜組合場景,指定條件查詢1s內(nèi)返回并支持上千并發(fā),并通過單節(jié)點存儲容量比開源高5倍的優(yōu)勢,降低了客戶硬件投資成本。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )