精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    神策數(shù)據(jù):六大環(huán)節(jié),教你如何從 0 到 1 搭建一場 A/B 測試

    神策數(shù)據(jù):六大環(huán)節(jié),教你如何從 0 到 1 搭建一場 A/B 測試

    隨著“增長黑客”概念的盛行,A/B 測試作為“數(shù)據(jù)驅(qū)動增長”的最佳實踐受到了國內(nèi)外眾多公司的青睞。

    A/B 測試的目的在于通過科學的試驗設計、高效精準的流量分割算法來獲取具有代表性的試驗結論,并將該結論推廣運用至全部流量。目前,A/B 測試已廣泛運用于產(chǎn)品交互設計、推薦算法、運營策略制定等方方面面,在最優(yōu)方案的判斷與決策過程中為公司提供有力的數(shù)據(jù)支持。

    因為市面上對于 A/B 測試搭建的信息都比較碎片化,沒有成體系化的梳理,且缺少標準化、規(guī)范化的 A/B 測試工具,所以,神策數(shù)據(jù)結合數(shù)百場 A/B 測試的服務及交付經(jīng)驗,總結、沉淀出了建立假設、確定評價指標、設計試驗、運行試驗并獲取數(shù)據(jù)、結果分析、最終決策六大環(huán)節(jié),幫助企業(yè)順利落地 A/B 測試,為客戶帶來價值。

    神策數(shù)據(jù):六大環(huán)節(jié),教你如何從 0 到 1 搭建一場 A/B 測試

    神策數(shù)據(jù) A/B 測試已得到充分的實踐驗證,通過科學規(guī)范的試驗流程、高效精準的流量分割算法,幫助公司有效降低試驗成本與風險,實現(xiàn)業(yè)績增長。關注神策數(shù)據(jù)公眾號,回復關鍵字“A/B 測試”即可免費體驗!

    一、建立假設

    A/B 測試最核心的原理是假設檢驗。先假設,然后根據(jù)數(shù)據(jù)檢驗試驗組和對照組的結果,輔助決策。一般情況下,假設成對出現(xiàn),如果我們認為試驗組和對照組的結果沒有顯著差異,那么可以稱為零假設(H0);相反,則稱為備擇假設(H1)。

    在試驗前,我們需要先明確想要實現(xiàn)的結果。比如,我們希望通過優(yōu)化注冊流程,提高用戶的注冊轉(zhuǎn)化率。針對這個場景,零假設就是優(yōu)化后流程(試驗組)和優(yōu)化前流程(對照組)的用戶注冊轉(zhuǎn)化率無顯著差異,備擇假設則是兩組結果有顯著差異。

    另外,在建立假設的過程中,需要注意兩點:第一,A/B 測試本身屬于因果推斷,所以要先確定原因和結果;第二,假設必須是可衡量的,需要有相應的評價指標來檢驗假設是否成立。

    二、確定評價指標

    注冊流程優(yōu)化的試驗目的是為了提高注冊轉(zhuǎn)化率,那么注冊轉(zhuǎn)化率就可以作為檢驗假設是否成立的評價指標。同時,評價指標也需要分層級,確定唯一核心指標,輔助多個觀察指標,才能從盡可能多的角度來評估試驗結果。

    評價指標主要分為三類:核心指標、驅(qū)動指標和護欄指標。

    1、核心指標

    核心數(shù)據(jù)指標通常情況下只有一個,或者是極少數(shù)指標的合集,很多時候是一家公司或組織的核心 KPI,可以驅(qū)動業(yè)務核心價值,比如注冊轉(zhuǎn)化率(衡量注冊流程優(yōu)化試驗效果)、活動按鈕點擊率(評估某項推廣活動試驗的 CTR 效果)、人均使用時長(評估某項推薦算法對用戶粘性的改進效果)等。

    在確定核心指標時,需要滿足兩個關鍵原則:第一,簡單的,易理解的,可以在公司/團隊范圍內(nèi)被廣泛接受;第二,相對穩(wěn)定的,無需頻繁為了一個新功能更新核心指標。

    核心指標除了用來衡量試驗的效果,還可以用來計算試驗所需的樣本量(將在后文中詳細介紹),由此可見,核心指標直接關系著試驗的成敗,需要重點關注。

    2、驅(qū)動指標

    驅(qū)動指標一般比核心指標更短期,變化更快也更靈敏,幫助我們更加快速、全面地觀測業(yè)務變化。我們可以通過兩個案例做進一步了解:

    在某項商品推廣活動試驗中,核心指標是下單轉(zhuǎn)化率,運營同學可以使用客單價、人均下單次數(shù)、退貨率等作為驅(qū)動指標。觀察發(fā)現(xiàn),雖然下單率有所提升,但退貨率或客單價指標下降,此時便需要做針對性調(diào)整。

    某個視頻推薦列表試驗中,核心指標是人均播放視頻數(shù)量,驅(qū)動指標是完播率、人均觀看時長,通過核心指標和多個驅(qū)動指標的配合來進行推薦算法效果的評估。

    通過以上我們可以看出,驅(qū)動指標能夠幫助我們從更多、更全面的角度來觀察試驗給業(yè)務帶來的影響,尤其是當發(fā)現(xiàn)問題時,能夠幫助我們及時分析原因、調(diào)整策略,通過不斷優(yōu)化達到最終的試驗目的。

    在確定驅(qū)動指標時,需要滿足三個原則:第一,驅(qū)動指標與核心指標的目標一致,能夠直接反映業(yè)務變化;第二,當指標發(fā)生變化時,能夠有既定的途徑和方法來優(yōu)化指標,是可行動、與業(yè)務相關的;第三,驅(qū)動指標是核心指標的先導指數(shù),需要具備足夠的靈敏性,快速衡量大部分試驗的效果。

    3、護欄指標

    護欄指標,可以理解為保護業(yè)務的指標,在實際應用過程中,護欄指標的異??梢杂行Х从吵鲈囼炘O計、基礎設施、數(shù)據(jù)處理環(huán)節(jié)是否正常,能夠幫助我們在評價試驗效果時做出正確的權衡取舍,避免因為短期指標優(yōu)化影響長期指標,從而得出值得信任的試驗結果。

    舉個例子,我們在試驗中設置一定的比例讓用戶命中試驗分組(通常建議各組流量平均分配),實際運行中如果發(fā)現(xiàn)樣本量和構建時的預期不一致,那么可以猜測是否是分流服務出了問題,導致可信度降低。

    關注神策數(shù)據(jù)公眾號,回復關鍵字“A/B 測試”即可免費體驗!

    三、設計試驗

    在確定試驗評價指標之后,我們就可以開始進行試驗設計,主要分為四個階段:

    1、選擇正確的試驗主體

    試驗主體是試驗中進行分流的隨機化單元,在試驗時需確保分流主體與評價指標分析主體相同。

    用戶(通常為 user_id )是當前主流的隨機化單元。如果分流主體是用戶,那指標分析主體也應該是用戶,例如人均會話數(shù)、人均點擊量、人均支付金額等。

    在實際業(yè)務場景中,可能使用其他分流主體,比如設備主體(device_id),按照設備進行隨機化,意味著每臺設備產(chǎn)生的指標數(shù)據(jù)是獨立的,比如在點餐機或者自動售賣機(一般為 Android 系統(tǒng))的試驗場景中,不需要用戶進行登錄即可下單購買,那么此時試驗的分流主體和分析主體就是這個獨立設備,可以用每臺設備的平均下單時長(完成下單的總時長/獨立設備數(shù))作為評價指標,用來衡量下單頁優(yōu)化效果。

    除了以上兩個常用的試驗主體外,也會存在其他主體,例如在推薦算法試驗中,可以用推薦的頁面(或推薦的商品)作為試驗主體單位等,在評估選擇使用哪種隨機化單元(分流主體)時,需要結合具體試驗場景來考慮,可以重點從用戶體驗一致性、分流主體和評價指標主體一致性兩個角度綜合評估。

    2、確定試驗目標受眾

    當我們假設了一個試驗并選定試驗主體時,需要進一步明確試驗的受眾范圍,也就是說需要明確哪些用戶參與到試驗中。通常有完全隨機和定向篩選兩種方式:

    完全隨機,是指不做任何干預,所有的線上用戶都是目標受眾。

    定向篩選,是以特定的用戶群體為目標。比如,某在線教育 App 的會員活動試驗中,想要通過不同活動來探索和提升用戶的購買轉(zhuǎn)化,便將新用戶設定為目標群體。

    需要注意的是,當使用定向篩選圈定受眾意味著當前的試驗效果只對這部分用戶有效,并不能代表線上全量用戶應用后都具備相同顯著的效果。因此,在實驗結束將新 Feature 固化到線上時,需要考慮有針對性的發(fā)布策略。

    3、確定試驗樣本量

    (1)樣本量并非越多越好

    我們都知道試驗的樣本量大小對結果的精確度有直接影響,從統(tǒng)計學理論來講,越大的樣本量意味著有更大的幾率檢測出很小的變化,得出的結論信度就越高。

    但在實際業(yè)務場景中,當我們回收到優(yōu)勝方案時應盡快發(fā)布給全量用戶,這樣才能擴大試驗效果、實現(xiàn)業(yè)務的全面增長。另一方面,雖然 A/B 測試的目標是驗證某個優(yōu)化方案能夠提升收入指標、改善用戶體驗,但試驗總會伴隨著未知、未被考慮到的風險,就有可能出現(xiàn)與假設截然相反的結果。因此,快速分析定位原因,及時調(diào)整試驗就顯得尤為重要,“快”是A/B 測試的重要優(yōu)勢,能夠快速應用、擴大收益;快速得出結論驅(qū)動決策等。

    在進行試驗設計時,我們需要在實際業(yè)務場景和統(tǒng)計理論中做到平衡:既要保證足夠的樣本量,又要把試驗控制在盡可能短的時間內(nèi)。

    (2)如何確定試驗所需的最小樣本量

    樣本量并不是越多越好,那么該如何確定樣本的數(shù)量呢?這里我們需要了解一下中心極限定理,通俗地理解為:只要樣本量足夠大,無論是什么指標,無論對應的指標是如何分布的,樣本的均值分布都會趨于正態(tài)分布?;谡龖B(tài)分布,我們才能計算出相應的樣本量,作出假設與檢驗。

    樣本量計算背后的統(tǒng)計學邏輯較為復雜,計算公式如下:

    神策數(shù)據(jù):六大環(huán)節(jié),教你如何從 0 到 1 搭建一場 A/B 測試

    從公式中我們可以看出,樣本量主要由 α、Power、△ 和 σ^2 四個因素決定,當確定了這幾個變量,也就確定了試驗所需的樣本量。相關統(tǒng)計原理詳見文末「補充閱讀」。[1]

    目前市面上有很多樣本量計算工具,其背后的統(tǒng)計邏輯基本一致,這里需要提醒大家的是,大部分工具都只能計算比率類指標,而均值類(絕對值類)指標的計算需要用到歷史數(shù)據(jù),通常只能利用公式來進行計算。

    神策數(shù)據(jù):六大環(huán)節(jié),教你如何從 0 到 1 搭建一場 A/B 測試

    圖 神策數(shù)據(jù)最小樣本量計算器(數(shù)據(jù)為模擬)

    4、確定試驗運行時長

    只要試驗結果顯著,并且符合最小樣本量,是否就可以停止試驗了呢?答案是否定的。除了最小樣本量之外,我們還需要考慮試驗指標的周期性波動以及新奇效應影響。

    (1)周期性

    在實際業(yè)務運行過程中,往往需要考慮周期性帶來的指標變化。比如,旅游行業(yè)在周末的用戶訪問量明顯高于工作日;而辦公軟件的各項指標都證明在節(jié)假日的使用頻率遠低于工作日。因此,當需要考察的指標自身帶有周期性特征時,那么在試驗中就必須要考慮到周期性影響,不能單純地根據(jù)結果顯著性來做決策。我們通常會建議客戶在合理的試驗時間內(nèi)至少包含一個完整的數(shù)據(jù)波動周期。

    (2)新奇效應

    在試驗的初始階段,可能會產(chǎn)生一些明顯的效應,并在接下來的一段時間內(nèi)趨于穩(wěn)定。原因在于剛上線新策略時用戶的興趣值較高,從而引發(fā)新奇效應;隨著時間推進,用戶的新奇感會逐漸消失。所以,在做 A/B 測試時,我們需要評估引入的新策略能否引發(fā)新奇效應,從而判斷當獲得顯著結果時,是否需要延長試驗周期以得到穩(wěn)定的結果。

    關注神策數(shù)據(jù)公眾號,回復關鍵字“A/B 測試”即可免費體驗!

    四、運行試驗并獲取數(shù)據(jù)

    雖然試驗上線前我們已經(jīng)做了充分的測試工作,但仍需要驗證試驗是否按照預期的設定正常運行。其中以下兩項工作需要重點驗證:

    分流驗證:分流比例和預期設定是否一致,不同分組策略是否正常展示,用戶有無跳版本等。

    數(shù)據(jù)驗證:缺少有效、準備好的評估數(shù)據(jù),再多的試驗也是徒勞。

    在確保試驗正常運行的情況下,我們還需要對不同分組的數(shù)據(jù)進行觀察分析,避免因為設計缺陷或者引入功能 bug,造成重大業(yè)務損失。

    五、結果分析

    A/B 測試能夠高效驅(qū)動決策。在統(tǒng)計學中,會采用 P 值法和置信區(qū)間法評估結果顯著性,這里我們詳細介紹一下使用頻率較高的置信區(qū)間法。

    置信區(qū)間是一個范圍,最常見的是 95% 的置信區(qū)間。如何理解呢?對于一個隨機變量來說,95% 的概率包含總體均值的范圍,就叫做 95% 的置信區(qū)間。也可以簡單理解為總體數(shù)據(jù)有 95% 的可能性在這個范圍內(nèi)。

    在 A/B 測試中,我們會計算兩組指標的差異值,如果計算得出的差異值置信區(qū)間不含 0,那么就可以拒絕零假設,認為兩組結果差異顯著;反之則接受零假設,認為兩組結果差異不顯著。

    神策數(shù)據(jù):六大環(huán)節(jié),教你如何從 0 到 1 搭建一場 A/B 測試

    圖 神策數(shù)據(jù) A/B 測試-實驗報告示意(數(shù)據(jù)為模擬)

    六、數(shù)據(jù)驅(qū)動決策

    運行 A/B 測試的終極目的為了提升業(yè)務指標。那么在收集試驗數(shù)據(jù)到最終決策的過程中需要考慮哪些因素呢?

    試驗結果差異是否真實可信,是否具備統(tǒng)計顯著性?

    統(tǒng)計功效是否充足(通常根據(jù)是否大于 80% 來判定)?

    ?試驗放量之后會帶來哪些風險,風險處理的預備方案是什么?

    顯著結果往往比較容易判斷,可以通過增加統(tǒng)計功效來提升真實顯著的幾率。但對于一些差異不顯著的試驗,就需要在試驗方案中做出取舍,我們需要明確決策對未來可能產(chǎn)生的影響,并讓影響盡量控制在可預測的范圍內(nèi),而非局限于根據(jù)某個單一指標來進行決策。

    以上是一個完整 A/B 測試流程,后續(xù)我們將結合具體業(yè)務案例,深入探索試驗各個環(huán)節(jié),敬請期待!關注神策數(shù)據(jù)公眾號,回復關鍵字“A/B 測試”即可免費體驗!

    (免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
    任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )