統計資訊

統計資訊

設定 enable_stats: true 時,系統會自動計算並記錄欄位的統計資訊,用於資料品質分析、合成資料驗證和欄位特徵理解。大型資料集(超過 100 萬列)計算會較耗時,建議謹慎使用。

啟用方式

全域設定

id: my_schema
enable_stats: true  # 全域啟用
attributes:
  age:
    type: int

個別欄位設定

attributes:
  age:
    type: int
    enable_stats: true   # 啟用
  notes:
    type: str
    enable_stats: false  # 停用

統計項目

通用統計(所有欄位)

項目說明
row_count總列數
na_count空值數量
na_percentage空值百分比
detected_type偵測到的資料型別
actual_dtypepandas dtype

數值統計

僅在 typeintfloatcategory: false 時計算:

項目說明
mean平均值
std標準差
min最小值
max最大值
median中位數
q1第一四分位數
q3第三四分位數

類別統計

僅在 category: true 時計算:

項目說明
unique_count唯一值數量
mode眾數
mode_frequency眾數出現次數
category_distribution類別分佈(最多 20 個)

統計資訊結構

attributes:
  age:
    type: int
    enable_stats: true
    stats:
      row_count: 1000
      na_count: 50
      na_percentage: 0.05
      mean: 35.5
      std: 12.3
      min: 18
      max: 85
      median: 34.0
      q1: 27.0
      q3: 43.0