N=100 分层抽样器
按月份 × 疾病类别 × 报告长度三轴分层抽样,seed 可复现
抽样规格 (v3)
候选池
881 份报告 − 50 份 Stage A bootstrap = 831 份候选
样本量
100 份 (schema finalization)
分层轴
- 1月份 (12 层) · 每月 ≥7 份,尾月取余
- 2疾病类别 · LN / IgAN / MN / DN / FSGS / MCD 各 ≥10 份,其余按比例
- 3报告长度三分位 · 短/中/长各约 33 份
随机种子
seed = 168
优先级
完整交叉积不可得时 → 疾病代表性优先 → 月份均匀分布 → 长度三分位平衡
操作
抽样脚本 pipeline/stratified_sample.py 尚未实现。 生成后输出至 staging/manifests/stage_a_100_sample.json。
晋升规则 (post-N=100)
≥5% 规则:N=100 中出现 ≥5 份的未映射短语(按规范化形式聚类) 晋升为结构化字段。3–5 份为判断区间,由 PI 决定。 疾病定义性特征可以凭文献证据覆盖频率阈值。 结果驱动 migration 006, 预计 3–8 列新增。