資料準備:資料治理檢查

資料準備:資料治理檢查

資料治理檢查的重要性

在進行隱私強化合成資料生成之前,確保資料經過適當的治理檢查是至關重要的。資料治理檢查不僅能提升合成資料的品質與可用性,更能確保合成過程符合業務邏輯與現實情境。未經妥善準備的資料可能導致合成結果出現邏輯矛盾、參照完整性缺失,或產生不符合業務規則的記錄,進而影響下游分析模型的訓練效果與預測準確度。

本章節聚焦於兩個關鍵的資料治理環節:多表格關聯資料的整合商業邏輯約束的定義。這兩項實踐能夠有效解決實務中常見的資料準備挑戰:

  • 多表格關聯資料整合:當資料分散在多個關聯表格時,透過反正規化策略整合為單一寬表,可以避免多表格合成技術的限制與不穩定性,確保表格間的參照完整性,並提供更可控的合成品質。

  • 商業邏輯約束定義:明確定義資料中隱含的業務規則與限制條件(如時間邏輯、數值關係、條件依賴等),確保合成資料在生成過程中遵守這些約束,避免產生不合理或無意義的記錄。

除了上述兩項核心實踐外,您也可以視需要進行資料描述統計,以了解資料的基本特性與品質狀況。根據資料結構與業務需求,選擇適合的準備方式,確保資料在進入合成流程前已具備良好的治理基礎。

flowchart
    Start[資料準備] --> Describer[資料描述<br/>統計]
    Describer --> MultiTable{是否為<br/>多表格?}
    MultiTable -->|是| Denormalize[多表格關聯<br/>反正規化]
    MultiTable -->|否| ConstraintCheck{是否需要<br/>約束條件?}
    Denormalize --> ConstraintCheck
    
    ConstraintCheck -->|是| Constraints[商業邏輯<br/>約束定義]
    ConstraintCheck -->|否| Complete[完成準備]
    Constraints --> Complete

    %% 馬卡龍配色
    style Start fill:#B0E0E6,stroke:#87CEEB,stroke-width:2px,color:#333
    style Describer fill:#B4E7CE,stroke:#98D8C8,stroke-width:2px,color:#333
    style MultiTable fill:#E6E6FA,stroke:#DDA0DD,stroke-width:2px,color:#333
    style Denormalize fill:#B4E7CE,stroke:#98D8C8,stroke-width:2px,color:#333
    style ConstraintCheck fill:#E6E6FA,stroke:#DDA0DD,stroke-width:2px,color:#333
    style Constraints fill:#B4E7CE,stroke:#98D8C8,stroke-width:2px,color:#333
    style Complete fill:#D3D3D3,stroke:#A9A9A9,stroke-width:2px,color:#333

圖例說明:

  • 淡藍色框:流程起點
  • 淡紫色框:條件判斷節點
  • 淡綠色框:執行操作節點

資料準備流程

根據您的資料特性,請選擇適合的準備步驟:

資料描述統計(選擇性)

  • 資料描述統計 - 了解資料特性與品質狀況
    • 使用 Describer 模組產生統計報告
    • 檢視資料的基本統計資訊
    • 識別資料品質問題
    • 了解資料分布特性

多表格資料處理(必要時)

  • 多表格關聯資料 - 資料分散在多個關聯表格時
    • 使用資料庫反正規化技術整合多表
    • 根據下游任務選擇適當的顆粒度
    • 提供 SQL 整合範例
    • 避免使用不成熟的多表格合成技術

約束條件定義(建議)

  • 商業邏輯約束資料 - 需要確保業務規則時
    • 定義欄位間的邏輯關係
    • 維護類別分布與空值比例
    • 使用 Constrainer 驗證與過濾
    • 提供完整的 YAML 設定範例

下一步

完成資料準備後,您可以:

  1. 參考快速入門開始進行資料合成
  2. 查看最佳實踐了解特殊資料類型的處理方式
  3. 深入了解 PETsARD YAML 設定檔的詳細說明