N=100 分层抽样器

按月份 × 疾病类别 × 报告长度三轴分层抽样,seed 可复现

抽样规格 (v3)

候选池

881 份报告 − 50 份 Stage A bootstrap = 831 份候选

样本量

100 份 (schema finalization)

分层轴

  • 1
    月份 (12 层) · 每月 ≥7 份,尾月取余
  • 2
    疾病类别 · LN / IgAN / MN / DN / FSGS / MCD 各 ≥10 份,其余按比例
  • 3
    报告长度三分位 · 短/中/长各约 33 份

随机种子

seed = 168

优先级

完整交叉积不可得时 → 疾病代表性优先 → 月份均匀分布 → 长度三分位平衡

操作

抽样脚本 pipeline/stratified_sample.py 尚未实现。 生成后输出至 staging/manifests/stage_a_100_sample.json

晋升规则 (post-N=100)

≥5% 规则:N=100 中出现 ≥5 份的未映射短语(按规范化形式聚类) 晋升为结构化字段。3–5 份为判断区间,由 PI 决定。 疾病定义性特征可以凭文献证据覆盖频率阈值。 结果驱动 migration 006, 预计 3–8 列新增。