CHIP 2025

1. 任务描述

在住院质量控制（Quality Control, QC）实践中，叙事性病历（尤其是入院记录）承载了病程起始阶段最关键的信息：患者主诉、病史、检查检验、初步诊断等。然而，在真实临床工作流中，针对这些叙事性病历进行“内涵质控”——即系统性评估其信息完整性、诊断规范性、前后逻辑一致性等维度——仍缺乏公开、权威且可复用的评测任务与基准数据。
随着大语言模型（LLM）在医学 NLP 领域的能力提升，其在自由文本的语义理解、推理分析和医学知识补全等方面已展现出显著潜力。为推动医疗大模型在临床质控场景中的应用落地，本次“面向住院电子病历入院记录的内涵质控评测”任务基于贴近真实临床场景的高质量病历样本构建，围绕信息缺失、诊断质量、逻辑一致性、检查记录规范性等关键质控维度，设置“零样本/不微调赛道”与“微调赛道”两种任务形式，全面评估大模型在医疗文本理解与推理方面的能力。任务亦希望通过产学研协作，持续完善病历质控的评价体系，推动人工智能（特别是医疗大模型）在医院质控环节的实际应用。
该任务的特点为：
真实性：病历信息包含了主诉、现病史、既往史以及检验检查等，符合真实临床诊疗流程与记录习惯。
覆盖面广：任务样本覆盖多个临床科室与常见疾病类型，有助于评估模型在多学科背景下的综合医学能力。
评测维度深度：任务设置五大核心质控维度——信息完整性、诊断质量、逻辑一致性、检查记录规范性、诊疗计划合理性，既考察模型是否能识别病历缺陷，又关注其字段定位、归因解释及输出可读性，兼具挑战性与场景契合度。

2. 任务详情

本评测聚焦于“病历内涵质控”这一核心任务，旨在评估模型对医疗叙事性文书的理解、推理与问题发现能力。任务面向常见的住院病历文书——入院记录（Admission Note）。
输入内容：
模型需处理的输入为单份病历文本文档，类型包括：
✧ADM_NOTE（入院记录）：包含主诉（chief_complaint）、现病史（history_present）、既往史（history_past）、专科检查（special_exam）、辅助检查（lab_exam）、入院诊断（admission_diagnosis）、初步诊断（initial_diagnosis）等字段；
模型需对单份病历文本输出具体质控结果:
质控结果中，每个问题用一个对象描述，包含三个字段：

表 1 字段说明

字段	类型	含义	约束
field	string	病历的字段	必填
issue_type	string	问题类型： INFO_COMPLETENESS、CONSISTENCY、 DIAGNOSIS_QUALITY、EXAM_RECORD_NORM	必填
rule_id	String	质控规则	必填
description	string	中文自由文本（≤ 100 字），阐明缺陷细节与依据	必填

输出示例：

图 1：输出示例

备注：关于issue_type、rule_id、质控字段、质控规则等随数据集发布。

3. 数据集

表 2 数据集规模与分布

数据集	病历条数
Train	1000 (其中300条有标注)
Test-A	300
Test-B	300

4. 赛道设置

本项目设置两个赛道，分为不微调和微调赛道。两条赛道的评分指标和test集相同，最终榜单各自独立排名。

表 3 赛道说明

赛道	允许资源 / 方法	模型参数要求
Track-A (不微调)	不可微调模型参数；可用 In-Context Learning、检索式增强（外部知识库需声明）等	使用的模型参数规模均≤70B 参数
Track-B (微调)	允许在官方提供的数据上微调；亦可用 RAG	使用的模型参数规模均≤70B 参数

5. 评价指标

评估分为两个维度： 1）问题抽取能力评估；2）病例整体合规性判定评估。
5.1 问题抽取能力评估

表 4 问题抽取能力评估

维度	指标	计算方式	含义	权重
缺陷识别性能（对(field, issue_type, rule_id)三元组进行评价）	F1	2×P×R/(P+R)	缺陷识别能力	40%
	精确率(P)	TP/(TP+FP)	误报控制能力	25%
	召回率(R)	TP/(TP+FN)	漏检控制能力	15%
解释文本质量	ROUGE-L	最长公共子序列相似度	自动评估描述准确性	20%

其中：
TP：正确识别的真实缺陷，当(field, issue_type, rule_id)与标注完全匹配；
FP：错误识别的缺陷；
FN：遗漏的真实缺陷。

Score_extract = 0.4 × F1 + 0.25 × P + 0.15 × R + 0.2 × ROUGE-L

5.2 整体合规性判定评估
整体合规性判定能力的评价基于缺陷驱动的扣分机制，模拟真实医疗质控场景。计算方式如下：
1)仅当模型识别的(field, issue_type, rule_id)与质控规则完全匹配时，该缺陷才被计为有效扣分项；
2)每个有效缺陷根据预定义规则库计算扣分值；
3)病例满分为100分，扣除分值之后小于一定阈值后，则判定当前病例不合规。
注：本次评测中，阈值为95分，小于95分的病例为不合规病例。

表 5 整体合规性判定评估

指标	计算方式	含义	权重
F1	2×P×R/(P+R)	综合判定能力	50%
精确率(P)	TP/(TP+FP)	避免误判合规	25%
召回率(R)	TP/(TP+FN)	避免漏盘问题	25%

其中：
TP：真实不合规且预测不合规，正确识别问题病例；
FP：真实合规但预测不合规，误判正常病例；
FN：真实不合规但预测合规，漏判问题病例。

Score_compliant = 0.5 × F1 + 0.25 × P + 0.25 × R

5.3 榜单说明
综合得分计算如下：

Score_final = 0.7 × Score_extract + 0.3 × Score_compliant

Track-A和Track-B均会公布综合榜单。其中，对Track-A和Track-B的综合榜前三名颁布奖项。

6. 获奖队伍材料提交

Track-A和Track-B综合榜排名前三的队伍还需提交以下材料：
1) 相关代码及说明。
2) 方法描述文档。
3) 如果方法使用了额外公开的数据资源，要求说明并提供资源文件或地址，包括但不限于代码、工具和数据。要求所使用的资源是公开可获取的。
选手需要将以上材料在任务提交截止日期前发送至邮箱，邮箱地址：chip2025_emrqc@163.com，邮件的标题为：“CHIP2025-面向住院电子病历入院记录的内涵质控任务-参赛队伍名称”。代码及文档需打包成一个文件（zip，rar等均可），作为邮件附件传送，要求提交所有的程序代码及相关的配置说明。
说明：若没有提交上述材料，将视为自动放弃参与评奖。评奖资格将会自动顺延至排名紧随其后的队伍。要求提交所有的程序代码及相关的配置说明，程序应当可以运行，可以供组织者验证，若排行榜上的结果无法复现，将取消比赛资格。

7. 参赛规则

1) 每名选手只能注册一个账号，一旦发现选手注册多个账号进行提交，将取消所有账号的参赛资格。

2) 允许使用外部资源，包括但不限于代码、工具和数据，要求所使用的资源是公开可获取的。

3) 获奖选手最终需要提交可运行的代码和方法描述文档，若排行榜上的结果无法复现，将取消参赛资格。

4) 获奖选手需要自行注册参加CHIP会议，在会议上进行口头汇报，撰写技术论文，否则取消参赛成绩。

5) 欢迎国内外在校生及企业人员参加，个人必须依托单位报名参赛，比赛组织方成员不可参赛。

6) 组队人数限制1-5人。

7) 每日提交结果次数为3次。

8) 该任务数据仅用于本次评测，如需用于其他目的，请与任务组织者联系。

8. 报名方式

本次评测任务依托阿里云天池平台展开。

评测任务网页链接：https://tianchi.aliyun.com/competition/entrance/532413
请加入以下钉钉群，任务相关事宜讨论群。

图 2：钉钉群二维码

9. 日程安排

报名参赛开始：8月25日-10月14日

训练数据发布时间：8月25日

A榜测试数据发布时间：8月25日

A榜测试结果提交截止时间：10月14日

B榜测试数据发布时间：10月15日

B榜测试结果提交截止时间：10月20日

评测论文提交截止时间：11月8日

会议日期（评测报告及颁奖）：11月22日-11月24日

10. 组织

组织者
向露，中国科学院自动化研究所
王静，讯飞医疗科技股份有限公司
刘思凯，讯飞医疗科技股份有限公司
张维玉，齐鲁工业大学（山东省科学院）
鹿文鹏，齐鲁工业大学（山东省科学院）
陈国强，山东第一医科大学第一附属医院
廉颖，山东第一医科大学第一附属医院
李庚尧，北京中科凡语科技有限公司

评测一: 面向住院电子病历入院记录的内涵质控任务