針對遲到數據的 3 種策略

在收集基於時間的資料時：有些人出生較晚，有些人遲到，有些人則被強加了遲到。這使得處理“最新”數據變得具有挑戰性。例如，

追蹤資料通常按開始時間索引。持續時間間隔的資料產生較晚，尚無法產生。
在故障或突發的情況下，收集系統的工作速度可能會變慢，從而實現生成資料的延遲。

分散式收集系統可能會

延遲一些數據，從而導致延遲。
收集管道的所有層級 英國 WhatsApp 號碼數據 都會發生延遲。大多數收集管道都是分散式的，延遲到達的資料明顯無序。

遲到是不可避免的，強有力的處理是至關重要的。

複查詢是可取的，而添加最新資料可能會直接與其發生衝突。例如，聚合必須考慮最新資料。

常見策略會根據儲存方式和查詢最新資料的方式進行調整。選擇哪一個既取決於業務邏輯，也取決於技術優勢。

策略：更新

新資料更新現有資料。每項數據，無論多晚，都會根據其時間戳插入。

這可以透過許多資料庫以簡單的方式完成。它可以透過簡單的資料儲存來執行。但任何擴展都是困難的——例如，需要為後期資料 上包含架構標記是幫助搜尋引擎更好地 產生新的資料檔案或分區。不存在可重複性（很晚的資料可能在同一查詢的重複之間到達），並且必須增強、重新處理或刪除任何儲存的聚合。

策略：兩次
雙時態建模使我們能夠添加可重複性：向所有資料添加第二個序列化儲存到達時間欄位。每個分析或聚合查詢都可以按時間戳 加拿大數據 過濾時間，然後按已知（透過序列化）過去的某個儲存到達時間來過濾時間。

到達時間，允許查詢透過過濾資料的主資料來查看稍後到達的資料來使用它們。

策略忽略它！
另一個選擇是忽略最新數據。設定一些固定的截止時間間隔。任何晚於截止日期到達的資料都會被丟

在截止日期後發布資料以供存取。

這是一個易於理解、實施和擴展的簡單選項。但為了可重複性，即使所有數據按時到達，它也會將所

因此，如果有相關的截止日期值，它是直接有用的。

透過對此策略的多個實例進行分層，將忽略遲到的資料與有效到達時間結合。設定一系列截止時間間隔。

況下進入第一層，給出量化的到達時間。

同樣，資料收集會保留一系列期限不斷增加的儲存桶。當截止日期到期時，它的桶子會被密封，並在相同的截止日期內打開一個新的桶。