1. 任务描述

   在住院质量控制(Quality Control, QC)实践中,叙事性病历(尤其是入院记录)承载了病程起始阶段最关键的信息:患者主诉、病史、检查检验、初步诊断等。然而,在真实临床工作流中,针对这些叙事性病历进行“内涵质控”——即系统性评估其信息完整性、诊断规范性、前后逻辑一致性等维度——仍缺乏公开、权威且可复用的评测任务与基准数据。
  随着大语言模型(LLM)在医学 NLP 领域的能力提升,其在自由文本的语义理解、推理分析和医学知识补全等方面已展现出显著潜力。为推动医疗大模型在临床质控场景中的应用落地,本次“面向住院电子病历入院记录的内涵质控评测”任务基于贴近真实临床场景的高质量病历样本构建,围绕信息缺失、诊断质量、逻辑一致性、检查记录规范性等关键质控维度,设置“零样本/不微调赛道”与“微调赛道”两种任务形式,全面评估大模型在医疗文本理解与推理方面的能力。任务亦希望通过产学研协作,持续完善病历质控的评价体系,推动人工智能(特别是医疗大模型)在医院质控环节的实际应用。
  该任务的特点为:
  真实性:病历信息包含了主诉、现病史、既往史以及检验检查等,符合真实临床诊疗流程与记录习惯。
  覆盖面广:任务样本覆盖多个临床科室与常见疾病类型,有助于评估模型在多学科背景下的综合医学能力。
  评测维度深度:任务设置五大核心质控维度——信息完整性、诊断质量、逻辑一致性、检查记录规范性、诊疗计划合理性,既考察模型是否能识别病历缺陷,又关注其字段定位、归因解释及输出可读性,兼具挑战性与场景契合度。

2. 任务详情

  本评测聚焦于“病历内涵质控”这一核心任务,旨在评估模型对医疗叙事性文书的理解、推理与问题发现能力。任务面向常见的住院病历文书——入院记录(Admission Note)
  输入内容:
  模型需处理的输入为单份病历文本文档,类型包括:
  ✧ADM_NOTE(入院记录):包含主诉、现病史、既往史、出生史、家族史、体格检查表、检验化验结果、初步诊断等字段;
  模型需对单份病历文本输出具体质控结果:
  质控结果中,每个问题用一个对象描述,包含三个字段:

表 1 字段说明
字段 类型 含义 约束
field string 病历的字段 必填
issue_type string 问题类型:
INFO_COMPLETENESS、CONSISTENCY、
DIAGNOSIS_QUALITY、EXAM_RECORD_NORM
必填
rule_id String 质控规则 必填
description string 中文自由文本(≤ 100 字),
阐明缺陷细节与依据
必填

输出示例:
sponsors
图 1:输出示例

备注:关于issue_type、rule_id、质控字段、质控规则等随数据集发布。
3. 数据集
3.1 规模与分布
表 2 数据集规模与分布
数据集 病历条数
Train 1000
(其中300条有标注)
Test-A 300
Test-B 300

3.2 字段列表
  完整字段说明随着数据发布。

表 3 部分字段说明
记录类型 字段 ID 中文名称
ADM_NOTE action_in_chief 主诉
medical_history_now 现病史
auxiliary_exam_result 辅助检查
admsn_diag 入院诊断
... ...
4. 赛道设置

  本项目设置两个赛道,分为不微调和微调赛道。两条赛道的评分指标和test集相同,最终榜单各自独立排名。

表 4 赛道说明
赛道 允许资源 / 方法 模型参数要求
Track-A (不微调) 不可微调模型参数;可用 In-Context Learning、检索式增强(外部知识库需声明)等 使用的模型参数规模均≤70B 参数
Track-B (微调) 允许在官方提供的数据上微调;亦可用 RAG
5. 评价指标
  评估分为两个维度: 1)问题抽取能力评估;2)病例整体合规性判定评估。
5.1 问题抽取能力评估

表 5 问题抽取能力评估
维度 指标 计算方式 含义 权重
缺陷识别性能
(对(field, issue_type, rule_id)三元组进行评价)
F1 2×P×R/(P+R) 缺陷识别能力 40%
精确率(P) TP/(TP+FP) 误报控制能力 25%
召回率(R) TP/(TP+FN) 漏检控制能力 15%
解释文本质量 ROUGE-L 最长公共子序列相似度 自动评估描述准确性 20%

  其中:
  TP:正确识别的真是缺陷,当(field, issue_type, rule_id)与标注完全匹配;
  FP:错误识别的缺陷;
  FN:遗漏的真实缺陷。

Scoreextract = 0.4 × F1 + 0.25 × P + 0.15 × R + 0.2 × ROUGE-L


5.2 整体合规性判定评估
  整体合规性判定能力的评价基于缺陷驱动的扣分机制,模拟真实医疗质控场景。计算方式如下:
  1)仅当模型识别的(field, issue_type, rule_id)与标注数据完全匹配时,该缺陷才被计为有效扣分项;
  2)每个有效缺陷根据预定义规则库计算扣分值;
  3)病例满分为100分,扣除分值之后小于一定阈值后,则判定当前病例不合规。
  注:阈值将在公布数据的时候确定。

表 6 整体合规性判定评估
指标 计算方式 含义 权重
F1 2×P×R/(P+R) 综合判定能力 50%
精确率(P) TP/(TP+FP) 避免误判合规 25%
召回率(R) TP/(TP+FN) 避免漏盘问题 25%

  其中:
  TP:真实不合规且预测不合规,正确识别问题病例;
  FP:真实合规但预测不合规,误判正常病例;
  FN:真实不合规但预测合规,漏判问题病例。
Scorecompliant = 0.5 × F1 + 0.25 × P + 0.25 × R
5.3 榜单说明
  综合得分计算如下:
Scorefinal = 0.7 × Scoreextract + 0.3 × Scorecompliant

  Track-A和Track-B均会公布综合榜单。其中,对Track-A和Track-B的综合榜前三名颁布奖项。

6. 获奖队伍材料提交

   Track-A和Track-B综合榜排名前三的队伍还需提交以下材料:
  1) 相关代码及说明。
  2) 方法描述文档。
  3) 如果方法使用了额外公开的数据资源,要求说明并提供资源文件或地址,包括但不限于代码、工具和数据。要求所使用的资源是公开可获取的。
  选手需要将以上材料在任务提交截止日期前发送至邮箱,邮箱地址:chip2025_emrqc@163.com,邮件的标题为:“CHIP2025-面向住院电子病历入院记录的内涵质控任务-参赛队伍名称”。代码及文档需打包成一个文件(zip,rar等均可),作为邮件附件传送,要求提交所有的程序代码及相关的配置说明。
  说明: 若没有提交上述材料,将视为自动放弃参与评奖。评奖资格将会自动顺延至排名紧随其后的队伍。要求提交所有的程序代码及相关的配置说明,程序应当可以运行,可以供组织者验证,若排行榜上的结果无法复现,将取消比赛资格。

7. 参赛规则
1) 每名选手只能注册一个账号,一旦发现选手注册多个账号进行提交,将取消所有账号的参赛资格。
2) 允许使用外部资源,包括但不限于代码、工具和数据,要求所使用的资源是公开可获取的。
3) 获奖选手最终需要提交可运行的代码和方法描述文档,若排行榜上的结果无法复现,将取消参赛资格。
4) 获奖选手需要自行注册参加CHIP会议,在会议上进行口头汇报,撰写技术论文,否则取消参赛成绩。
5) 欢迎国内外在校生及企业人员参加,个人必须依托单位报名参赛,比赛组织方成员不可参赛。
6) 组队人数限制1-5人。
7) 每日提交结果次数为3次。
8) 该任务数据仅用于本次评测,如需用于其他目的,请与任务组织者联系。

8. 报名方式

  本次评测任务依托阿里云天池平台展开。在八月初会公布平台网址及钉钉群,方便参赛者讨论。

9. 日程安排
报名参赛开始:8月15日-10月14日
训练数据发布时间:8月15日
A榜测试数据发布时间:8月15日
A榜测试结果提交截止时间:10月14日
B榜测试数据发布时间:10月15日
B榜测试结果提交截止时间:10月20日
评测论文提交截止时间:11月8日
会议日期(评测报告及颁奖):11月22日-11月24日

10. 组织
组织者
 向露,中国科学院自动化研究所
 王静,讯飞医疗科技股份有限公司
 刘思凯,讯飞医疗科技股份有限公司
 张维玉,齐鲁工业大学(山东省科学院)
 鹿文鹏,齐鲁工业大学(山东省科学院)
 陈国强,山东第一医科大学第一附属医院
 廉颖,山东第一医科大学第一附属医院
 李庚尧,北京中科凡语科技有限公司