1. 任务描述
2. 任务详情
本评测聚焦于“病历内涵质控”这一核心任务,旨在评估模型对医疗叙事性文书的理解、推理与问题发现能力。任务面向常见的住院病历文书——入院记录(Admission Note)。
输入内容:
模型需处理的输入为单份病历文本文档,类型包括:
✧ADM_NOTE(入院记录):包含主诉、现病史、既往史、出生史、家族史、体格检查表、检验化验结果、初步诊断等字段;
模型需对单份病历文本输出具体质控结果:
质控结果中,每个问题用一个对象描述,包含三个字段:
输出示例:
图 1:输出示例
备注:关于issue_type、rule_id、质控字段、质控规则等随数据集发布。
3. 数据集
6. 获奖队伍材料提交
8. 报名方式
10. 组织
在住院质量控制(Quality Control, QC)实践中,叙事性病历(尤其是入院记录)承载了病程起始阶段最关键的信息:患者主诉、病史、检查检验、初步诊断等。然而,在真实临床工作流中,针对这些叙事性病历进行“内涵质控”——即系统性评估其信息完整性、诊断规范性、前后逻辑一致性等维度——仍缺乏公开、权威且可复用的评测任务与基准数据。
随着大语言模型(LLM)在医学 NLP 领域的能力提升,其在自由文本的语义理解、推理分析和医学知识补全等方面已展现出显著潜力。为推动医疗大模型在临床质控场景中的应用落地,本次“面向住院电子病历入院记录的内涵质控评测”任务基于贴近真实临床场景的高质量病历样本构建,围绕信息缺失、诊断质量、逻辑一致性、检查记录规范性等关键质控维度,设置“零样本/不微调赛道”与“微调赛道”两种任务形式,全面评估大模型在医疗文本理解与推理方面的能力。任务亦希望通过产学研协作,持续完善病历质控的评价体系,推动人工智能(特别是医疗大模型)在医院质控环节的实际应用。
该任务的特点为:
真实性:病历信息包含了主诉、现病史、既往史以及检验检查等,符合真实临床诊疗流程与记录习惯。
覆盖面广:任务样本覆盖多个临床科室与常见疾病类型,有助于评估模型在多学科背景下的综合医学能力。
评测维度深度:任务设置五大核心质控维度——信息完整性、诊断质量、逻辑一致性、检查记录规范性、诊疗计划合理性,既考察模型是否能识别病历缺陷,又关注其字段定位、归因解释及输出可读性,兼具挑战性与场景契合度。
随着大语言模型(LLM)在医学 NLP 领域的能力提升,其在自由文本的语义理解、推理分析和医学知识补全等方面已展现出显著潜力。为推动医疗大模型在临床质控场景中的应用落地,本次“面向住院电子病历入院记录的内涵质控评测”任务基于贴近真实临床场景的高质量病历样本构建,围绕信息缺失、诊断质量、逻辑一致性、检查记录规范性等关键质控维度,设置“零样本/不微调赛道”与“微调赛道”两种任务形式,全面评估大模型在医疗文本理解与推理方面的能力。任务亦希望通过产学研协作,持续完善病历质控的评价体系,推动人工智能(特别是医疗大模型)在医院质控环节的实际应用。
该任务的特点为:
真实性:病历信息包含了主诉、现病史、既往史以及检验检查等,符合真实临床诊疗流程与记录习惯。
覆盖面广:任务样本覆盖多个临床科室与常见疾病类型,有助于评估模型在多学科背景下的综合医学能力。
评测维度深度:任务设置五大核心质控维度——信息完整性、诊断质量、逻辑一致性、检查记录规范性、诊疗计划合理性,既考察模型是否能识别病历缺陷,又关注其字段定位、归因解释及输出可读性,兼具挑战性与场景契合度。
2. 任务详情
本评测聚焦于“病历内涵质控”这一核心任务,旨在评估模型对医疗叙事性文书的理解、推理与问题发现能力。任务面向常见的住院病历文书——入院记录(Admission Note)。
输入内容:
模型需处理的输入为单份病历文本文档,类型包括:
✧ADM_NOTE(入院记录):包含主诉、现病史、既往史、出生史、家族史、体格检查表、检验化验结果、初步诊断等字段;
模型需对单份病历文本输出具体质控结果:
质控结果中,每个问题用一个对象描述,包含三个字段:
表 1 字段说明
字段 | 类型 | 含义 | 约束 |
---|---|---|---|
field | string | 病历的字段 | 必填 |
issue_type | string | 问题类型: INFO_COMPLETENESS、CONSISTENCY、 DIAGNOSIS_QUALITY、EXAM_RECORD_NORM |
必填 |
rule_id | String | 质控规则 | 必填 |
description | string | 中文自由文本(≤ 100 字), 阐明缺陷细节与依据 |
必填 |
输出示例:

图 1:输出示例
备注:关于issue_type、rule_id、质控字段、质控规则等随数据集发布。
3.1 规模与分布
3.2 字段列表
完整字段说明随着数据发布。
4. 赛道设置
表 2 数据集规模与分布
数据集 | 病历条数 |
---|---|
Train | 1000 (其中300条有标注) |
Test-A | 300 |
Test-B | 300 |
3.2 字段列表
完整字段说明随着数据发布。
表 3 部分字段说明
记录类型 | 字段 ID | 中文名称 |
---|---|---|
ADM_NOTE | action_in_chief | 主诉 |
medical_history_now | 现病史 | |
auxiliary_exam_result | 辅助检查 | |
admsn_diag | 入院诊断 | |
... | ... |
本项目设置两个赛道,分为不微调和微调赛道。两条赛道的评分指标和test集相同,最终榜单各自独立排名。
5. 评价指标
表 4 赛道说明
赛道 | 允许资源 / 方法 | 模型参数要求 |
---|---|---|
Track-A (不微调) | 不可微调模型参数;可用 In-Context Learning、检索式增强(外部知识库需声明)等 | 使用的模型参数规模均≤70B 参数 |
Track-B (微调) | 允许在官方提供的数据上微调;亦可用 RAG |
评估分为两个维度: 1)问题抽取能力评估;2)病例整体合规性判定评估。
5.1 问题抽取能力评估
其中:
TP:正确识别的真是缺陷,当(field, issue_type, rule_id)与标注完全匹配;
FP:错误识别的缺陷;
FN:遗漏的真实缺陷。
5.1 问题抽取能力评估
表 5 问题抽取能力评估
维度 | 指标 | 计算方式 | 含义 | 权重 |
---|---|---|---|---|
缺陷识别性能 (对(field, issue_type, rule_id)三元组进行评价) |
F1 | 2×P×R/(P+R) | 缺陷识别能力 | 40% |
精确率(P) | TP/(TP+FP) | 误报控制能力 | 25% | |
召回率(R) | TP/(TP+FN) | 漏检控制能力 | 15% | |
解释文本质量 | ROUGE-L | 最长公共子序列相似度 | 自动评估描述准确性 | 20% |
其中:
TP:正确识别的真是缺陷,当(field, issue_type, rule_id)与标注完全匹配;
FP:错误识别的缺陷;
FN:遗漏的真实缺陷。
Scoreextract = 0.4 × F1 + 0.25 × P + 0.15 × R + 0.2 × ROUGE-L
5.2 整体合规性判定评估
整体合规性判定能力的评价基于缺陷驱动的扣分机制,模拟真实医疗质控场景。计算方式如下:
1)仅当模型识别的(field, issue_type, rule_id)与标注数据完全匹配时,该缺陷才被计为有效扣分项;
2)每个有效缺陷根据预定义规则库计算扣分值;
3)病例满分为100分,扣除分值之后小于一定阈值后,则判定当前病例不合规。
注:阈值将在公布数据的时候确定。
其中:
TP:真实不合规且预测不合规,正确识别问题病例;
FP:真实合规但预测不合规,误判正常病例;
FN:真实不合规但预测合规,漏判问题病例。
整体合规性判定能力的评价基于缺陷驱动的扣分机制,模拟真实医疗质控场景。计算方式如下:
1)仅当模型识别的(field, issue_type, rule_id)与标注数据完全匹配时,该缺陷才被计为有效扣分项;
2)每个有效缺陷根据预定义规则库计算扣分值;
3)病例满分为100分,扣除分值之后小于一定阈值后,则判定当前病例不合规。
注:阈值将在公布数据的时候确定。
表 6 整体合规性判定评估
指标 | 计算方式 | 含义 | 权重 |
---|---|---|---|
F1 | 2×P×R/(P+R) | 综合判定能力 | 50% |
精确率(P) | TP/(TP+FP) | 避免误判合规 | 25% |
召回率(R) | TP/(TP+FN) | 避免漏盘问题 | 25% |
其中:
TP:真实不合规且预测不合规,正确识别问题病例;
FP:真实合规但预测不合规,误判正常病例;
FN:真实不合规但预测合规,漏判问题病例。
Scorecompliant = 0.5 × F1 + 0.25 × P + 0.25 × R
5.3 榜单说明
综合得分计算如下:
Track-A和Track-B均会公布综合榜单。其中,对Track-A和Track-B的综合榜前三名颁布奖项。
综合得分计算如下:
Scorefinal = 0.7 × Scoreextract + 0.3 × Scorecompliant
Track-A和Track-B均会公布综合榜单。其中,对Track-A和Track-B的综合榜前三名颁布奖项。
6. 获奖队伍材料提交
Track-A和Track-B综合榜排名前三的队伍还需提交以下材料:
1) 相关代码及说明。
2) 方法描述文档。
3) 如果方法使用了额外公开的数据资源,要求说明并提供资源文件或地址,包括但不限于代码、工具和数据。要求所使用的资源是公开可获取的。
选手需要将以上材料在任务提交截止日期前发送至邮箱,邮箱地址:chip2025_emrqc@163.com,邮件的标题为:“CHIP2025-面向住院电子病历入院记录的内涵质控任务-参赛队伍名称”。代码及文档需打包成一个文件(zip,rar等均可),作为邮件附件传送,要求提交所有的程序代码及相关的配置说明。
说明: 若没有提交上述材料,将视为自动放弃参与评奖。评奖资格将会自动顺延至排名紧随其后的队伍。要求提交所有的程序代码及相关的配置说明,程序应当可以运行,可以供组织者验证,若排行榜上的结果无法复现,将取消比赛资格。
1) 相关代码及说明。
2) 方法描述文档。
3) 如果方法使用了额外公开的数据资源,要求说明并提供资源文件或地址,包括但不限于代码、工具和数据。要求所使用的资源是公开可获取的。
选手需要将以上材料在任务提交截止日期前发送至邮箱,邮箱地址:chip2025_emrqc@163.com,邮件的标题为:“CHIP2025-面向住院电子病历入院记录的内涵质控任务-参赛队伍名称”。代码及文档需打包成一个文件(zip,rar等均可),作为邮件附件传送,要求提交所有的程序代码及相关的配置说明。
说明: 若没有提交上述材料,将视为自动放弃参与评奖。评奖资格将会自动顺延至排名紧随其后的队伍。要求提交所有的程序代码及相关的配置说明,程序应当可以运行,可以供组织者验证,若排行榜上的结果无法复现,将取消比赛资格。
7. 参赛规则
1) 每名选手只能注册一个账号,一旦发现选手注册多个账号进行提交,将取消所有账号的参赛资格。
2) 允许使用外部资源,包括但不限于代码、工具和数据,要求所使用的资源是公开可获取的。
3) 获奖选手最终需要提交可运行的代码和方法描述文档,若排行榜上的结果无法复现,将取消参赛资格。
4) 获奖选手需要自行注册参加CHIP会议,在会议上进行口头汇报,撰写技术论文,否则取消参赛成绩。
5) 欢迎国内外在校生及企业人员参加,个人必须依托单位报名参赛,比赛组织方成员不可参赛。
6) 组队人数限制1-5人。
7) 每日提交结果次数为3次。
8) 该任务数据仅用于本次评测,如需用于其他目的,请与任务组织者联系。
8. 报名方式
本次评测任务依托阿里云天池平台展开。在八月初会公布平台网址及钉钉群,方便参赛者讨论。
9. 日程安排
报名参赛开始:8月15日-10月14日
训练数据发布时间:8月15日
A榜测试数据发布时间:8月15日
A榜测试结果提交截止时间:10月14日
B榜测试数据发布时间:10月15日
B榜测试结果提交截止时间:10月20日
评测论文提交截止时间:11月8日
会议日期(评测报告及颁奖):11月22日-11月24日
10. 组织
组织者
向露,中国科学院自动化研究所
王静,讯飞医疗科技股份有限公司
刘思凯,讯飞医疗科技股份有限公司
张维玉,齐鲁工业大学(山东省科学院)
鹿文鹏,齐鲁工业大学(山东省科学院)
陈国强,山东第一医科大学第一附属医院
廉颖,山东第一医科大学第一附属医院
李庚尧,北京中科凡语科技有限公司
向露,中国科学院自动化研究所
王静,讯飞医疗科技股份有限公司
刘思凯,讯飞医疗科技股份有限公司
张维玉,齐鲁工业大学(山东省科学院)
鹿文鹏,齐鲁工业大学(山东省科学院)
陈国强,山东第一医科大学第一附属医院
廉颖,山东第一医科大学第一附属医院
李庚尧,北京中科凡语科技有限公司