內容
- 什麼是數據採樣?
- 為什麼 Google Analytics 使用數據採樣?
- Google Analytics 4 中資料採樣的更改
- 為什麼數據採樣可能成為網路分析的問題
- 減少 Google Analytics 中資料採樣的 3 種方法
- 透過改用可靠的替代方案來完全避免數據採樣
- 使用 Matomo 擺脫數據採樣
當行銷決策依賴網站分析時,準確性就很重要。
然而,Google Analytics 和其他分析平台會採樣數據來
產生報告,有時可能會扭曲真實的數據趨勢。
在本文中,我們將探討 Google Analytics 4 如何使用資料採樣、其配額限制的變化,以及為何採樣資料對於大容量網路媒體資源仍然存在問題。
什麼是數據採樣?
資料採樣是一種統計分析技術,它使用較小的資料子集來分析和識別較大資料集中的趨勢。
當收集完整的資料集具有挑戰性時(例如在政治調查中),或者當資料集太大以至於準備和計算所有資料變得困難時,它會很有幫助。
這是許多行業的標準做法,其中任何一個問題都會帶來問題。例如,蓋洛普無法調查整個美國人口,因此他們使用代表性樣本。
為了確保樣本具有代表性,請仔細選擇構成樣本的受試者。此步驟是避免資料選擇偏差的關鍵(稍後會詳細介紹)。
為什麼 Google Analytics 使用數據採樣?
Google Analytics 限制其處理報告的資料量,特別是對於免費用戶。簡而言之,該公司這樣做是為了節省雲端運算資源(隨著越來越多的資源擁抱人工智慧,雲端運算資源可能會面臨不斷增加的成本)。
資料集越大,完成報告計算所需的計算資源就越多。因此,Google Analytics 傾向於使用完整數據來產生短期、數據量較少的報告,而使用樣本進行更深入的分析。
例如,查看來自流量有限的網站的基本報告。複選標記表示該卡「未採樣」並使用 100% 的可用資料。 (請注意綠色報告圖示 – 對於採樣報告,該圖示是紅色的。)
GA 中的數據品質圖示指示結果基於 100% 的可用數據
但對於流量較大的網路資產和更複雜的報告(例如漏斗分析或群組分析),幾乎可以保證結果是抽樣的。當比較多個資料集時,情況會變得更糟,例如,將兩個使用者細分相互比較或與基準比較。 GA 中的 12 個月漏斗報告可能僅使用 48.3% 的可用數據,如下所示。
GA 中的數據品質圖示指示結果基於 48.3% 的可用數據
分析越先進,遺傳演算法和其他分析工具就越有可能產生無法顯示全貌的結果。
Google Analytics 4 中資料採樣的更改
在Universal Analytics 中,日落之前,非抽樣報告的最大樣本量為500,000 個使用者會話。如果一個網站每月收到超過數千個使用者會話,這可能很快就會成為一個問題。
隨著 GA4 的更改,採樣閾值現在設定為1000 萬個「事件」。乍一看,這聽起來像是一次大規模升級。但是,由於事件本質上是單獨的資料行,因此重要的是要考慮每個會話可能代表數十個單獨的事件,具體取決於報告。
因此,交通量並不是唯一的限制因素。新增的次要維度越多,事件集就會成長得越大(呈指數級增長)。這通常意味著,如果重新運行以比較段或添加更多細微差別,最初使用非採樣資料的報告將開始使用採樣資料。
谷歌表示,這 1000 萬隻適用於「標準報告」。因此,即使事件少得多,複雜的報告也會很快開始依賴採樣資料。除此之外,關於抽樣方法或 GA 如何選擇隨機樣本的公開資訊有限。
底線?數據採樣仍然影響高流量的酒店和使用高級報告的營銷人員。使用自訂維度或事件是另一個限制因素。
進一步閱讀:您應該注意的 10 個主要 Google Analytics 限制
為什麼數據採樣可能成為網路分析的問題
Google Analytics 對為何使用數據採樣的官方解釋使用了透過推斷一英畝數據來估計大面積樹木數量的範例。如果每英畝 100 英畝有 800 棵樹 ,那麼該土地上的樹木總數估計約為 80,000 棵。
這是相當不誠實的,因為林務員不需要 泰國電話號碼數據 完整的數據準確性來就他們的地塊的未來做出明智的營銷決策。另外,首先可以輕鬆地對該區域進行空中勘測,以確保其在整個長度上具有可比性。這讓他們可以挑選一英畝準確代表森林其餘部分的樹木。
透過網路分析,避免樣本選擇偏差並平等地代表網站的所有資料來源和訪客類型具有挑戰性。
最終,這意味著找到真正代表普通用戶行為的數據樣本將具有挑戰性。如果分析平台碰巧從特定促銷活動中選擇了大量訪問,則可能會增加或減少銷售數字。
這只是影響數據準確度的一個因素。
典型誤差範圍
好的,數據已經採樣了,但是它有多糟糕?平均而言,報告相當準確,但樣本越小,典型誤差範圍就越大。
雖然誤差幅度可低至 1%,但多個用戶 馬昌斯基汽車經銷商數位行銷服 發現較小範圍的誤差率可能高達 30%,但平均約為 5%。
(圖片來源)
這使得為大流量網站產生準確的報告變得具有挑戰性,其中 1000 萬個事件可能只佔年度流量的一小部分。
在看到一份簡單的年度報告的 GA 採樣率 美國數據 低於 50% 後,這不是好消息。那是在我們考慮進行長期細分比較之前(這會增加更多的變數和事件)。
這並不是谷歌分析可能不像某些人想像的那麼準確的唯一原因。
減少 Google Analytics 中資料採樣的 3 種方法
想要更準確的報告嗎?若要減少大容量網站的 Google Analytics(分析)報告中的資料採樣,請使用以下三種方法之一:
縮短報告的時間範圍以提高準確性
大多數用戶可以透過關注較短的時期來避免採樣。減小日期範圍可能會使事件總數低於資料採樣限制,從而使它們能夠處理實際資料。
對於準確估計短期趨勢(例如新活動的影響)來說,這是一個好主意。但這不是一個永久的解決方案。
它使得創建可靠的長期報告變得非常耗費人力。例如,如果 30 天的報告只能實現 100% 的數據準確性,則一份季度報告將需要來自三份報告的數據。年度報告的負擔甚至更大。
此外,任何基於細分的報告都需要手動完成,因為它們很快就會開始依賴採樣資料。
非抽樣報告的關鍵是保持簡單且日期範圍短。 (如果這聽起來與徹底分析相反,那麼事實確實如此。對於詳細的見解,大數據集比小數據集更好。)
將資料匯出至第三方資料分析工具(仍有風險限制)
將原始資料匯出到第三方資料分析平台可以完全控制產生報告時是否使用採樣。
例如,Google Data Studio 和 Google BigQuery 預設不使用取樣。 (有些電子表格愛好者甚至使用 Google Sheets。)
然而,GA 方面的數據導出也受到限制,因此不幸的是,這不是一個可靠的解決方案。如果每天的事件超過一百萬個,則匯出將基於樣本。
根據平台的不同,可能有一種解決方法可以逐漸從短期請求中收集資料。但是,它不能保證有效,因此它可能不是最佳解決方案。