資料準備:資料治理檢查
資料準備:資料治理檢查
資料治理檢查的重要性
在進行隱私強化合成資料生成之前,確保資料經過適當的治理檢查是至關重要的。資料治理檢查不僅能提升合成資料的品質與可用性,更能確保合成過程符合業務邏輯與現實情境。未經妥善準備的資料可能導致合成結果出現邏輯矛盾、參照完整性缺失,或產生不符合業務規則的記錄,進而影響下游分析模型的訓練效果與預測準確度。
本章節聚焦於兩個關鍵的資料治理環節:多表格關聯資料的整合與商業邏輯約束的定義。這兩項實踐能夠有效解決實務中常見的資料準備挑戰:
多表格關聯資料整合:當資料分散在多個關聯表格時,透過反正規化策略整合為單一寬表,可以避免多表格合成技術的限制與不穩定性,確保表格間的參照完整性,並提供更可控的合成品質。
商業邏輯約束定義:明確定義資料中隱含的業務規則與限制條件(如時間邏輯、數值關係、條件依賴等),確保合成資料在生成過程中遵守這些約束,避免產生不合理或無意義的記錄。
除了上述兩項核心實踐外,您也可以視需要進行資料描述統計,以了解資料的基本特性與品質狀況。根據資料結構與業務需求,選擇適合的準備方式,確保資料在進入合成流程前已具備良好的治理基礎。
flowchart
Start[資料準備] --> Describer[資料描述<br/>統計]
Describer --> MultiTable{是否為<br/>多表格?}
MultiTable -->|是| Denormalize[多表格關聯<br/>反正規化]
MultiTable -->|否| ConstraintCheck{是否需要<br/>約束條件?}
Denormalize --> ConstraintCheck
ConstraintCheck -->|是| Constraints[商業邏輯<br/>約束定義]
ConstraintCheck -->|否| Complete[完成準備]
Constraints --> Complete
%% 馬卡龍配色
style Start fill:#B0E0E6,stroke:#87CEEB,stroke-width:2px,color:#333
style Describer fill:#B4E7CE,stroke:#98D8C8,stroke-width:2px,color:#333
style MultiTable fill:#E6E6FA,stroke:#DDA0DD,stroke-width:2px,color:#333
style Denormalize fill:#B4E7CE,stroke:#98D8C8,stroke-width:2px,color:#333
style ConstraintCheck fill:#E6E6FA,stroke:#DDA0DD,stroke-width:2px,color:#333
style Constraints fill:#B4E7CE,stroke:#98D8C8,stroke-width:2px,color:#333
style Complete fill:#D3D3D3,stroke:#A9A9A9,stroke-width:2px,color:#333圖例說明:
- 淡藍色框:流程起點
- 淡紫色框:條件判斷節點
- 淡綠色框:執行操作節點
資料準備流程
根據您的資料特性,請選擇適合的準備步驟:
資料描述統計(選擇性)
- 資料描述統計 - 了解資料特性與品質狀況
- 使用 Describer 模組產生統計報告
- 檢視資料的基本統計資訊
- 識別資料品質問題
- 了解資料分布特性
多表格資料處理(必要時)
- 多表格關聯資料 - 資料分散在多個關聯表格時
- 使用資料庫反正規化技術整合多表
- 根據下游任務選擇適當的顆粒度
- 提供 SQL 整合範例
- 避免使用不成熟的多表格合成技術
約束條件定義(建議)
- 商業邏輯約束資料 - 需要確保業務規則時
- 定義欄位間的邏輯關係
- 維護類別分布與空值比例
- 使用 Constrainer 驗證與過濾
- 提供完整的 YAML 設定範例
下一步
完成資料準備後,您可以:
- 參考快速入門開始進行資料合成
- 查看最佳實踐了解特殊資料類型的處理方式
- 深入了解 PETsARD YAML 設定檔的詳細說明