N=100 分层抽样器

按月份 × 疾病类别 × 报告长度三轴分层抽样,seed 可复现

抽样规格 (v3)

候选池

881 份报告 − 50 份 Stage A bootstrap = 831 份候选

样本量

100 份 (schema finalization)

分层轴

随机种子

seed = 168

优先级

完整交叉积不可得时 → 疾病代表性优先 → 月份均匀分布 → 长度三分位平衡

抽样脚本 pipeline/stratified_sample.py 尚未实现。生成后输出至 staging/manifests/stage_a_100_sample.json。

≥5% 规则:N=100 中出现 ≥5 份的未映射短语(按规范化形式聚类) 晋升为结构化字段。3–5 份为判断区间,由 PI 决定。疾病定义性特征可以凭文献证据覆盖频率阈值。结果驱动 migration 006, 预计 3–8 列新增。