PEARL 项目总览
PEARL = Peircean Extraction via Abstraction and Repair Learning
论文题目(已锁定):PEARL: Decoupling Generation from Verification for Small-Model Scientific Reasoning Graph Extraction
目标投稿:EMNLP Findings(备选 Main / Industry)
当前日期:2026-04-22
零、这是一份什么文档
本文档把 arche_student_framework_release/docs/ 下 15+ 份设计、路线、评测、运维文档汇总成一份可以从头读到尾的项目总览。读完之后你应该能回答:
- 这个项目到底在做什么?
- 为什么它值得做?
- 它用什么方法做?
- 当前做到哪一步?
- 对外交付什么?
读者不需要再去翻原始 docs 才能理解全貌。如需细节,文末的 §十一 给出源文档索引。
一、一句话项目定义
PEARL 训练一个 4B 参数的 Qwen 小模型,从 Nature Communications 论文的 Introduction 中抽取结构化的 Peircean 推理图(Reasoning Logic Tree, RLT),并把这件事重构成一个 schema-first、validator-centered、可训练可修复的 framework。
不是”再做一个 ARCHE benchmark 的复现”,而是要补上 ARCHE 之后缺失的统一训练框架——让科学推理图抽取从”模仿 teacher DOT 表层形式”升级为”迁移 graph 的结构规则”。
二、项目背景:ARCHE 任务与它留下的 Gap
2.1 ARCHE 任务最小定义(来自 arXiv:2511.12485)
- 输入:一篇 Nature Communications 论文的 Introduction(约 2,000–5,000 words)+ sentence-level viewpoints + 每句引用的 reference opinions
- 输出:Graphviz DOT 格式的推理树
- 节点:
(source_triple, text)二元组;source是(X, Y, Z)四类之一:sentence / viewpoint / reference opinion / implicit - 边:Peirce 定义的 6 种推理类型
deduction-rule/deduction-caseinduction-common/induction-caseabduction-phenomenon/abduction-knowledge
- 结构约束:
- 单 root
- 无孤立点
- 严格配对(deduction 必须 rule+case 成对,induction 必须 common+case,abduction 必须 phenomenon+knowledge)
- 无自环
- 节点:
2.2 ARCHE 解决了什么,没解决什么
ARCHE 给了任务定义 + 数据 + 评测协议,但没有给训练框架。与此同时:
- IR / scaffold structured generation 工作(IRCoder / NL2FLOW / REFINER / Abstraction-of-Thought)表明,复杂结构输出不应被直接当成原始序列学。
- Validator-guided refinement 工作(RefineBench / CGI / DVR / SAGA)表明,generation 与 verification、diagnosis 与 repair 最好解耦。
这三条前人工作线共同指向一个空缺:如何把 benchmark-defined 的科学推理图抽取,重构成一个 schema-first 的训练框架问题? 这就是 PEARL 想补的位置。
2.3 为什么这件事在 AI-for-Science 中有意义
一旦这件事做成,它不只是方法论论文,还对齐 4 类真实下游应用(这些是 secondary motivation,不是论文前门):
| 应用 | 为什么需要结构化推理图 |
|---|---|
| 文献综述自动化 | 10K 篇论文找 research gap,必须对齐推理链条 |
| 科研想法生成 | 新 idea 的每条 premise 需能追溯到已有 support |
| 同行评审 / 假设验证辅助 | 检查 abduction 合不合理、induction case 是否充分 |
| Citation grounding | 每条推理边绑定具体 sentence / reference,才能做可审计 AI-for-Science |
三、核心 scientific hook:Structural Transfer,而不是 Deployment
论文的前门不是“frontier API 贵 → 蒸馏小模型省钱”,也不是“小模型做不到所以要努力”。真正的 hook 是:
当 scientific reasoning graph 被 distill 到 4B decoder-only 时,模型学到的是结构规则,还是只学到 teacher DOT 的表层 token 形式?
3.1 Canonical Failure Mode:Phase 0 DOT-first 的现象
直接把 teacher final_clean_graph.dot 作 SFT target,student 被迫同时学三件事:
Content layer : 从 17K tokens 筛出正确节点内容
Structure layer : 单 root / pairing / 无孤立点
Syntax layer : Graphviz DOT 大括号、属性、边语法
Phase 0 的实测结果非常清晰:
adapter loss → 1.43(收敛)
parseable_ratio > 0.5 ← DOT 语法会一点
structure_ok_ratio ≈ 0 ← 结构约束完全没学到
这不是”模型不会输出 graph”,而是更具体的失败模式:
模型会模仿 teacher DOT 的表层形式,却不会稳定转移其底层结构规则。
3.2 为什么这不是普通的 structured output bug
真正坏掉的不是语法,而是:
- root 不唯一
- deduction / induction / abduction pairing 缺边
- isolated node
- self-loop
也就是说,模型不会验证自己生成的 graph 是否满足结构语义——generation 与 verification 在模型内部没有解耦。
3.3 Literature 预言这个失败是必然的
这个 failure mode 不是拍脑袋想出来的,它被两条独立 literature 预言:
- Small Model Learnability Gap (Li et al., ACL 2025 Findings, arXiv:2502.12143)——3B 级小模型从 long-CoT strong teacher 学习反而变差,content + structure + syntax 三目标同时压给 4B decoder-only 必然 partial-mastery。
- Algebraic Invariants for Structured Reasoning (ICLR 2026 Workshop)——”LLMs conflate hypothesis generation with verification, allow weak reasoning steps to propagate unchecked.”
所以 PEARL 的 motivation 顺序是:
- Primary:Benchmark-to-Framework Gap under Hard Structural Constraints
- Scientific question:Surface Mimicry vs Structural Transfer
- Task manifestation:Structured Output Inconsistency(但更深一层,是语义约束不是纯语法)
- Supporting context:specialized 科学任务 / specialist small 可超 generalist / multi-teacher consolidation
- Secondary:Cost / Deployment / Privacy
四、解法:Schema-Guided Framework
4.1 核心洞察
让学习负担匹配模型容量。
把 “content + structure + syntax” 分给三种不同工具:
模型学 : content + structure(从长文本抽取 + 结构语义)
代码管 : validator 检查结构 + compiler 生成语法
4.2 Framework 四件套
| 模块 | 角色 | 职责 |
|---|---|---|
graph_spec IR |
Schema-defined JSON 中间表示 | 让模型学结构内容,不学 DOT 字符串 |
| Validator | Deterministic 结构检查器 | 产出 structured issue list,代码层面保证结构 |
| Compiler | Deterministic DOT 生成器 | 代码层面保证语法 100% 合法 |
| Issue-list Self-Repair | 学 (bad_graph, issue_list) → good_graph |
把 validator 的诊断外包给代码,student 只学修复 |
4.3 数据层配套
- Smart Prompt:每个 reference 只保留 top-3 opinions(teacher 实际只用 0.81%)。中位 tokens 从 17,700 降到 9,700;24K 零截断。
- Quality-weighted Multi-Teacher SFT:5 个 teacher × 70 paper = 350 个 DOT,按
w = 0.5·EC + 0.5·REA加权参与训练,有效样本 223/38/45。
4.4 七层架构
┌───────────────────────────────────────────────────────────────┐
│ Layer 7 │ EVALUATION │ EC / REA / joint_score / 对比 teacher │
├──────────┼───────────────┼────────────────────────────────────┤
│ Layer 6 │ (opt) RL │ graph reward / GRPO (Phase 6, future)│
├──────────┼───────────────┼────────────────────────────────────┤
│ Layer 5 │ REPAIR │ issue-list-driven self-repair │
├──────────┼───────────────┼────────────────────────────────────┤
│ Layer 4 │ INFERENCE │ first-pass + validator gate │
├──────────┼───────────────┼────────────────────────────────────┤
│ Layer 3 │ TRAINING │ SFT / LoRA / quality-weighted │
├──────────┼───────────────┼────────────────────────────────────┤
│ Layer 2 │ REPRESENTATION│ graph_spec schema + validator + compiler │
├──────────┼───────────────┼────────────────────────────────────┤
│ Layer 1 │ DATA │ 5 teachers × 70 papers + smart prompt│
└───────────────────────────────────────────────────────────────┘
每层都有 extension hook,这是 framework 长期可迭代性的基础。
4.5 整体数据流
paper intro + views + refs
|
v
smart prompt
|
v
5 teacher DOT outputs
|
v
dot_to_graph_spec.py
|
v
graph_spec + issue stats
|
+----+----+
| |
v v
validator compiler
| |
v v
graph_spec train set strict-valid DOT target
|
+------------------------------+
| |
v v
Phase 3: first-pass SFT Phase 4: repair SFT
| |
+--------------+---------------+
|
v
student graph_spec inference
|
v
validator issue list / repair
|
v
compiler -> final DOT
|
v
evaluator -> valid / EC / REA / joint
五、关键设计决策的理由
5.1 为什么 Schema-First + Intermediate Representation
- Phase 0 实测:4B 在三目标同时学时必然 partial-mastery(Small-Model Gap 在结构化场景的具体化)
- 支撑论证来自跨领域 converging evidence:
- IRCoder (ACL 2024):IR 作 code-LM 训练目标,显著提升 1.1B–7.3B 小模型 robustness
- NL2FLOW (NeurIPS 2025):参数化 IR 让 LLM 生成 86% valid plan
- REFINER (EACL 2024):IR 作为 reasoning feedback 载体
- Abstraction-of-Thought (2025):硬件设计 LLM 用 IR 解耦高层 reasoning 和低层 RTL
- 约束解码(XGrammar / GCD)只能解 syntax,解不了 structure;而 pairing / root / 孤立点是语义约束。
5.2 为什么 Validator-Guided Repair 而不是 LLM Critic
- RefineBench (NeurIPS 2025-W):diagnosis 才是真正瓶颈;外部提供 structured feedback 时 GPT-4.1 从 23.4% → 95.5%。
- CGI (ICLR 2025):critic-actor 解耦,8B critic 反超 GPT-4 as critic +29.16%。PEARL 把 critic 进一步退化到代码 validator(零推理成本、deterministic、零 self-bias)。
- SAGA (NeurIPS 2025):”weak verifiers undermine RLVR training”——直接支撑”用代码而非 LLM critic”的决策。
- PEARL 独有发现:decoder-only +
no_repeat_ngram_size的交互陷阱。原版 ARCHE 把坏 DOT 全文塞进 repair prompt;对 4B decoder-only 会触发坏 DOT n-gram 被禁止集合纳入,导致 self-repair 生成 7 tokens 就早停。PEARL 的 fix:- Repair prompt 只含 issue list + 原训练 prompt 尾部,不含坏 DOT
- Self-repair 阶段独立解码参数(
temperature=0, no_repeat_ngram_size=0)
5.3 为什么 Multi-Teacher + Quality Weighting
- Teacher REA 分布:GPT-5.2 46.7% / Gemini 39.9% / Qwen3.5-397B 31.9% / Grok 27.7% / Claude Sonnet 4.5 21.9%
- 即便 GPT-5.2 全局最强,不同 teacher 在不同 paper 上 complementary。
- “Small Models Struggle to Learn from Strong Reasoners” (ACL 2025 Findings):Mix-Long + Mix-Large 组合显著优于单 strong teacher——直接支撑用全部 5 个 teacher 的决策。
- FAIR (ACL 2025 Findings) 用 peer-review confidence 加权;我们用下游任务指标(
0.5·EC + 0.5·REA)加权,对可结构化评测任务更紧。
5.4 为什么先框架后 RL
RL 上线前必须同时满足:
- ✅ graph_spec v1 schema 稳定
- ✅ validator / compiler coverage 100%
- ✅ SFT student valid_ratio > 60%
- ✅ 至少一个 teacher 的 REA > 40%
当前条件未全部达成。EMNLP 主体不含 Phase 6 RL,作为 future work 保留。
六、Phase 0–6 Roadmap 与当前进度
状态更新日:2026-04-20
| Phase | 内容 | 状态 | 产物 |
|---|---|---|---|
| Phase 0 | DOT-first SFT baseline | ✅ 完成 | baseline_outputs/smart_24k/adapter(loss 1.43, structure_ok≈0) |
| Phase 1 | graph_spec 四件套(converter / validator / compiler / repair) | ✅ 代码就绪,Gate B 本地已通过 | 四件套 + graph_spec_runtime.py |
| Phase 2 | graph_spec 训练数据重构 | 🟡 脚本完成,待批量生成 | build_graph_spec_dataset.py |
| Phase 3 | graph_spec first-pass SFT | 🟡 代码就绪,adapter 未跑 | run_train.py --target-format graph_spec_json |
| Phase 4 | Issue-list repair SFT | 🟡 代码就绪,repair adapter 未跑 | build_repair_dataset.py + run_train.py --mode repair |
| Phase 5 | graph_spec-first 推理 + joint 评测 | 🟡 代码就绪,主实验未跑 | run_inference.py / run_eval_student.py |
| Phase 6 | (conditional) RL | ⬜ future work | — |
6.1 Phase 1 最新状态
- Gate B 本地已通过:
conversion_success_rate=1.0000、validator_pass_rate=0.9714、roundtrip_parseable_rate=1.0000 - Converter 能解析
Source: (x,y,z)和(x,y)形式 - 空 label helper edge 不再被误当 reasoning edge
abduction-hypothesis/deduction-common等 legacy alias 会在转换阶段归一化- validator 升级为双模式:
strict(student 生成终态)/teacher_compatible(legacy teacher DOT 的 Gate B / fairness / dataset build)
6.2 当前最大瓶颈:不是训练,是表示层和推理层
- 训练端:DOT-first 已经可收敛,不是主问题
- 表示层:已从 DOT-first 升级到 graph_spec-first 的代码已经就绪,主线 adapter 尚未跑完
- 推理层:validator + issue-list repair + compiler 的端到端主线已就绪,主实验未跑
6.3 Phase 3 启动前的三个 Pilot Gate
为避免把 Phase 3+ adapter 训练建在未被验证的假设上,启动前必须跑完三个 pilot,每个 < 30 分钟 CPU 可跑:
| Gate | 被测假设 | 脚本 |
|---|---|---|
| Gate A · Teacher fairness | student 赢是不是只因为有 compiler、teacher 没有(apples-to-oranges 风险) | teacher_fairness_check.py |
| Gate B · Converter batch | converter>95% / validator>95% / compiler 100% 是否真的达标 | phase1_validate_converter.py |
| Gate C · Zero-shot baseline | SFT 真的在 EC/REA 上显著贡献(否则 reviewer 会问”为什么不直接用 base Qwen + XGrammar?”) | run_zero_shot_baseline.py + run_eval_student.py |
任一 Gate 崩 → 暂停 Phase 3 训练,调整 framework narrative。
6.4 下一步优先级
- 跑通 Phase 2:
build_graph_spec_dataset.py产出graph_spec_data/ - Phase 3 训练:graph_spec-first SFT adapter
- Phase 4 训练:repair dataset +
run_train.py --mode repair - Phase 5 推理 + joint_score 评测 → 验证核心承诺 A(majority-teacher superiority)
- Ablation D(schema vs DOT)+ E(self-repair variant)是两个核心 contribution 的直接证据,必须优先做扎实
七、评测协议
7.1 五级指标
Level 1 · parseable_ratio = pydot 可解析比例
Level 2 · structure_ok_ratio = 通过 validator 结构检查比例
Level 3 · dot_valid_ratio = Level 1 ∧ Level 2
Level 4 · EC (Entity Coverage) = 核心实体被节点覆盖比例(O3 抽取 + 子串匹配)
Level 5 · REA (Reasoning Edge Accuracy) = 推理步骤逻辑正确率(3 judge 投票)
7.2 主报告指标
joint_score = valid_ratio × (EC + REA) / 2
乘法 gate 反映下游真实价值——无效 graph 对下游零价值。Student 的 valid_ratio = 1.0(compiler 保证),teacher 原始 DOT 约 85–95% valid,joint 让框架优势可量化体现。
7.3 Cross-Evaluator Robustness
- 3 judge(O3 / Claude Sonnet 4 thinking / Gemini 2.5 Pro)独立打分
- Pairwise agreement 目标 > 0.75
- Krippendorff’s α 目标 > 0.7
- REA-strict:3 judge 全部一致才算 correct(appendix 报告)
7.4 Judge 版本锁定(sticky 决策,2026-04-19)
沿用 ARCHE benchmark 原 judge 集合,不升级到 Claude 4.5 / Gemini 3.1 Pro。理由:
- Protocol fidelity:PEARL 贡献是 distillation framework,不是评测协议的重新定义;换 judge 会让 teacher 数字与 ARCHE 原报告不可比。
- Internal consistency:student 与 5 teacher 用同一组 judge 评分,相对排序 apples-to-apples。
- Reviewer 防御:若被问”judge 为何不升级”,答”我们继承 ARCHE 评测协议”。
Snapshot pinning 已实现(pin_judge_snapshots.py + eval_env.json),确保 reproducibility。
7.5 Error Taxonomy(5 级分类)
Level A: Protocol failure (A1 empty/nondot, A2 graph_spec parse fail)
Level B: Syntax failure (B1 unbalanced braces, B2 attr, B3 edge syntax)
Level C: Structure failure (C1 multi/zero root, C2 isolated, C3 self_loop,
C4 pairing violation, C5 multi-rule,
C6 non-standard edge, C7 mixed families)
Level D: Content failure (D1 hallucinated entity, D2 misattributed source,
D3 logical inconsistency)
Level E: Efficiency failure (E1 maxed_out, E2 repair timeout, E3 worker stalled)
八、实验规划(EMNLP 主体)
8.1 实验总览
| 类别 | 数量 | 预期 compute |
|---|---|---|
| 主实验(student vs 5 teachers) | 1 | 4×A100 × 2h |
| Ablation | 6 组 × 2–4 settings ≈ 16 runs | 4×A100 × 20h |
| Baseline | 3 组(GraphMERT / KG-MASD / zero/few-shot) | 视 baseline |
| Cross-evaluator | 1 run | LLM API |
| Case study | 3–5 篇 | 手工 |
总 compute:约 200–300 GPU-hour + $2,000 API 日历时间:约 10 周
8.2 6 组 Ablation 对应三贡献
| 贡献 | 对应 ablation |
|---|---|
| C1. Multi-teacher + quality-weighted SFT | A (prompt mode), B (teacher subset), C (quality weight) |
| C2. Schema-first IR | D (target format) —— 核心证据 |
| C3. Issue-list self-repair | E (self-repair variant), F (curriculum) |
8.3 主实验预期(待跑)
| Teacher | valid | EC | REA | joint |
|---|---|---|---|---|
| GPT-5.2 | ~0.95 | 0.919 | 0.467 | 0.66 |
| Qwen3.5-397B | ~0.95 | 0.831 | 0.319 | 0.55 |
| Gemini 3.1 Pro | ~0.85 | 0.634 | 0.399 | 0.44 |
| Grok 4.1 | ~0.85 | 0.735 | 0.277 | 0.43 |
| Claude Sonnet 4.5 | ~0.85 | 0.668 | 0.219 | 0.38 |
| Student (target) | 1.00 | 0.75 | 0.35 | ≈0.55 |
Student 的目标是 joint_score 超过 5 个 teacher 中至少 4 个(majority-teacher superiority)——仅低于 GPT-5.2。
九、承诺与不承诺
9.1 我们承诺什么
承诺 A · Joint Metric Majority Superiority
Student 在 joint_score 上超过 5 teacher 中至少 4 个。
承诺 B · Framework-as-Artifact(对外产出):
graph_specschema v1 规范(GRAPH_SPEC_SCHEMA_V1.md)- 四件套代码:
dot_to_graph_spec.py/graph_spec_validator.py/graph_spec_to_dot.py/graph_spec_repair.py - Smart Prompt 构建管线:
build_dataset.py - 训练 / 推理 / 评测脚本
- LoRA adapter 权重(HuggingFace 发布)
- 训练数据集(223/38/45 split)
- 复现文档 + smoke test 命令
- Framework 扩展指南:如何把 schema+validator+compiler+repair 套路迁移到别的结构化科学抽取任务(causal graph / argument graph / citation graph / experimental protocol graph)
9.2 我们不承诺什么
- 不承诺 absolute superiority:GPT-5.2 作 “upper bound” 诚实保留;仅 joint metric 上声明 majority superiority
- 不承诺 Phase 6 RL 在 scope 内:RL 是 conditional future work
- 不承诺任意 paper 的 perfect extraction:hard papers 上 teacher 也失败;只声明 aggregate 指标 + per-paper win rate in some subset
十、哲学立场:Narrow-Task Specialization
10.1 范式之争
| 路线 | 代表 | 哲学 |
|---|---|---|
| Generalist | GPT-5.2 / Claude 4.5 / Gemini 3.1 | 一个模型通吃,靠规模换能力 |
| Narrow Specialist | GraphMERT (80M) / SciLitLLM (7B) / PEARL (4B) | 单任务精调,靠 task specialization 换成本 + 可解释 + 可定制 |
PEARL 的立场不是反对 generalist(frontier 模型当 teacher 有用),而是论证:
窄任务专化可以在特定能力轴上超越通才——不是靠更大的模型,而是靠更深入挖掘任务的结构。
10.2 Trade-offs
| 维度 | Generalist | Narrow Specialist |
|---|---|---|
| 任务覆盖度 | 宽 | 窄 |
| 单任务质量 | 中–高 | 高(若做得好) |
| 成本 | 高 | 低 |
| 可解释性 | 黑盒 | 可审计(validator + compiler 是代码) |
| 可定制 | ❌ API | ✅ Fine-tune |
| 可复现 | ❌ 版本漂移 | ✅ 权重冻结 |
结论:对”科学推理图抽取”这种可结构化评测的任务,narrow specialization 是优势。
10.3 与相关工作的精确边界
- vs ARCHE benchmark:ARCHE 给任务 + 评测;PEARL 给 student distillation 方法 + framework。互补不冲突。
- vs GraphMERT:GraphMERT 是 80M encoder-only 输出平坦
(head, relation, tail)triple;PEARL 是 4B decoder-only 输出带配对约束的推理 DAG。 - vs KG-MASD:KG-MASD 需要 multi-agent LLM runtime;PEARL 用预生成 350 DOT,成本固定、可复现。
- vs SO-LM / SLOT / PARSE:他们处理 JSON 业务对象;PEARL 处理带 Peircean pairing 语义约束的推理图。
- vs Self-Refine / DeCRIM / RefineBench:用 LLM 做 critic;PEARL 用代码 validator 做 critic——零成本、deterministic、无 self-bias。与 RefineBench “diagnosis > repair” 一致,把 diagnosis 外包给代码。
- vs 约束解码 (XGrammar / GCD):约束解码是 inference-time 技术,只解 syntax;PEARL 在 SFT 时学结构 + validator 检结构 + compiler 保语法,完全互补(约束解码留作 future work)。
十一、附录:源文档索引
本文档的所有内容都追溯到 arche_student_framework_release/docs/ 下的原始文档:
| 主题 | 原始文档 |
|---|---|
| 顶层项目叙事(Single Source of Truth) | 00_VISION.md |
| 快速上手(一页看懂版) | FRAMEWORK_QUICKSTART.md |
| 论文故事线(EMNLP) | PAPER_STORY_EMNLP.md |
| 完整设计文档(~1200 行) | MASTER_DESIGN.md |
| 7 层架构 + 每层 API | TECHNICAL_FRAMEWORK.md |
| 设计理由 + Phase 0-6 路线 | FRAMEWORK_RATIONALE_AND_ROADMAP.md |
graph_spec schema v1 规范 |
GRAPH_SPEC_SCHEMA_V1.md |
| 实验执行蓝图 | EXPERIMENTS_PLAN.md |
| 评测协议(5 级指标 + error taxonomy) | EVALUATION_PROTOCOL.md |
| 30 篇相关工作 | RELATED_WORK_SURVEY.md |
| 当前进展与下一步 | CURRENT_PROGRESS.md |
| 推理 4 层验收 | INFERENCE_VALIDATION_PLAN.md |
| 模型 / adapter 清单 | MODEL_AND_ARTIFACTS_NOTE.md |
| 云端部署命令 | DEPLOY.md |
| 完整操作指南 | OPERATION_GUIDE.md |
| 与原版 ARCHE 对齐 | ORIGINAL_ARCHETYPE_ALIGNMENT.md |
| Round 1+2+3 代码审查 | CODE_REVIEW_REPORT.md |
| 早期诊断(归档) | ARCHIVE_修改规划_legacy.md |
| 顶层入口 | PROJECT_MASTER_PLAN.md / README.md |
十二、一段话总结(给没时间读完的人)
PEARL 是 ARCHE benchmark-to-framework gap 的首个 schema-first 回应。核心困境是小模型更容易模仿 graph 的表层形式,而不容易稳定转移其结构规则;解法是把学习负担解耦——
graph_specIR 把 structure learning 与 DOT syntax generation 分离,code validator 的 issue list 把 diagnosis 与 repair 分离,multi-teacher SFT + smart prompt + quality weighting 让这套方案真正可训练、可复现、可扩展。交付物是 paper + 四件套代码 + adapter + schema + 数据 + 扩展指南,目标是让别人能用这一套 template 解决自己领域的结构化科学抽取任务。当前 Phase 0-2 代码已就绪,Phase 3-5 主实验待跑,Phase 6 RL 作为 conditional future work。EMNLP Findings 仍是首选投稿目标。