精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    DataCanvas王桐:實時流數據分析模型和時間序列分析模型

    DataCanvas九章云極公布其明星產品DataCanvas RT實時計算平臺和DataCanvas APS機器學習平臺升級新版本,兩款產品重大升級的背后,離不開優(yōu)質算法支撐。近日,DataCanvas九章云極布道師團隊首席算法官王桐針對實時流數據分析模型和時間序列分析模型做出專業(yè)解讀。

    根據Markets & Markets的預測,流數據分析市場將從 2016 年的 30.8 億美元增長到 2021 年的 137 億美元。各個企業(yè)都將快速意識到他們需要利用實時數據集成和流數據分析來獲得更有價值的信息、使數據變得更安全以及保持增長。在數據無時無刻不在產生的背景下,企業(yè)需要:過濾無關數據,進行聚合和分組,跨流關聯信息,將元數據、參考數據和歷史數據與上下文的流數據相結合和實時監(jiān)測異常數據。

    面對實時流數據分析我們內在的訴求體現在兩個方面:首先是我們的模型分析要考慮到近期的數據變化情況,舉個生活當中的例子,如果過去的兩天氣溫一直在35度,那么明天的天氣不大可能下雪。另一方面,我們的模型需要是可以不斷持續(xù)更新的,也就是說隨著新數據不斷的流入,模型也在不斷的更新,例如我們常見的營銷數據分析,隨著經營的規(guī)模和體量的增加,模型也要不斷的更新。

    這兩個訴求看上去貌似是一回事,但其實不然,核心問題是,流數據產生的內在邏輯是否一致。

    比如剛才提到的氣溫,我們如果按照去年同期的溫度情況來進行預測,那么通常都可以達到一定的準確度。也就是說,依照去年全年的數據生成的模型在今年大概率是可以復用的,即使有誤差,也是在一個比較小的范圍內。

    再回到我們提到的第二個營銷數據分析場景,如果我們根據今年的數據對未來的銷售情況進行預測,那么很可能會和去年同期的數字有很大區(qū)別,因為商業(yè)環(huán)境變了,經營規(guī)模在增長,去年同期的銷售量因為經營體量的原因,和今年有本質的區(qū)別。在這種情況下,我們要重新訓練模型,甚至重新構建模型。

    對于剛才的氣溫預測情景,我們通常意義上把它稱為時間序列模型。此類模型需要大量的歷史數據做為輸入,來形成較準確的預測模型。

    那么剛才說的營銷數據分析場景,就不是簡單意義上的時間序列模型,因為它是含有不穩(wěn)定趨勢的一組序列值。這類問題也是我們接下來要討論的重點。

    面對這類問題,我們會想到下面幾類方法:

    第一類,增量學習算法,也就是每當我們新增加一個新樣本的時候,我們對模型進行一次更新。那么針對這樣的情景,我們需要對原有批量模式的算法模型進行改造。

    第二類,定期的批量模型重新訓練模型,這種是最直接的模式,即定期匯總更新的數據,同歷史數據一并重新訓練模型。

    增量學習算法可以用批量模式來進行使用,但是批量模式的模型如果要轉換成增量學習算法,需要大量改造工作,并且有一定的準確率損失。

    如何對這兩種方法進行取舍,我們需要考慮兩方面:

    第一,需要考慮新增數據的邊界。我們的模型是否要在新增樣本數據出現的第一時間來更新,還是說模型需要根據新的數據進行相機抉擇。如果是后一種情形,那么就是一個時間序列問題而不是一個增量學習算法的情景。

    第二,需要考慮數據的廢棄。距離現在一定的時間范圍之外的歷史數據,我們是否應該劃定一個范圍,來界定該范圍之外的數據應該廢棄掉,不參加模型的訓練?這種范圍如何來劃分?例如在金融方面的場景,距離現在越近的數據通常具有更強的相關性,但是在某些特定情形下,往年同期的數據更具有參考意義和相關性。特殊一點的例子,比如在金融衰退期,往往上一個金融衰退時期的數據比近期的數據和現在具有更強的相關性。

    雖然實時流數據分析和時間序列預測比較類似,數據的來源也相近,但是兩種方法的關注點不同。

    增量學習算法在兩方面比較擅長:

    第一,便利性。不需要緩沖數據和重新訓練模型。

    第二,時效性。模型總是更新到最新的狀態(tài)

    增量學習在模型的靈活性和模型的功效方面有一些損失。但在模型特殊場景,增量學習是必須的,例如數據隱私方面需要數據出現之后就要求被刪除。

    周期的批量學習模型保存了算法的功效,需要更加復雜的實施過程。在上層利用工具也可以在必要的時候利用必要的部分數據進行訓練和學習。而且可以用最小的代價,同時嘗試不同的算法模型。

    DataCanvas RT實時計算平臺,是國內外領先的流數據實時處理和分析平臺,具備低時延(毫秒級)、高吞吐(單集群支持>10TB/日流量)、高性能(>40,000 TPS 保序場景/>160,000 TPS 非保序場景)等特性,能夠提供風險監(jiān)控、精準營銷、實時預警與事中分析等多種應用場景的實時分析。

    DataCanvas RT實時計算平臺強大的數據分析處理能力,為企業(yè)提供面向未來的大數據技術和人工智能計算架構的支撐。DataCanvas九章云極全面考慮實際應用的業(yè)務場景與技術指標要求,為企業(yè)未來的大數據技術提供高效可靠的基礎設施。

    免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

    2018-11-07
    DataCanvas王桐:實時流數據分析模型和時間序列分析模型
    DataCanvas九章云極公布其明星產品DataCanvas RT實時計算平臺和DataCanvas APS機器學習平臺升級新版本,兩款產品重大升級的背后,離

    長按掃碼 閱讀全文