全球首创!MedCT震撼问世!虎博科技发布全球首个中文临床术语体系
时间:2024-12-27     来源:虎博科技公众号

      今日,虎博科技正式发布全球首个中文临床术语体系——MedCT (Medical Clinical Terminology)。MedCT是世界上第一个针对非英语使用地区的临床术语体系,尤其是中文使用地区。MedCT在医学领域的命名实体识别(NER)和命名实体链接(NEL)任务中,无论是英文还是中文场景,都展现了一流的性能与卓越的应用效果。MedCT结合了先进的人工智能技术与深厚的医学领域知识,标志着智慧医疗标准化进程的又一里程碑。


MedCT Github: https://github.com/TigerResearch/MedCT  

MedCT Huggingface: https://huggingface.co/collections/TigerResearch/medct-6744641d6f19b9d70a56f848


对于中国医疗人工智能发展的意义


      目前世界上的临床术语体系以英文为主,中文临床术语体系的匮乏一直是阻碍中国医疗人工智能发展的重要瓶颈。传统的医疗术语往往存在语言和表达不一致、信息孤岛等问题,导致医疗数据难以有效共享,影响了诊疗效率和治疗质量。为了填补这一行业空白,虎博科技携手医学专家、技术研发团队正式发布了首个中文临床术语体系MedCT,旨在提升中国医疗行业的数据互操作性、信息共享效率,并为智能医疗技术的应用奠定坚实基础。

      MedCT涵盖了诊断术语、医疗程序、药物名称等多个方面,并通过特定的代码和清晰的定义来进行组织和管理,从而便于计算机系统进行高效的处理和深入的分析。


MedCT:开创中文临床术语标准化新纪元


MedCT第一版包含内容


1.     MedCT 双语临床术语词典(中文和英文),{concept_id, [synonyms]}..., MedCT

2.     MedCT命名实体识别(NER)模型:MedLink-en, MedLink-zh

3.     MedCT 基础模型:MedBERT

4.     MedCT-clinical-notes 数据集。包括:

(1)NER 和 NEL 任务:包含7.4K 份中文真实临床笔记 (medct_ner_notes.csv),以及每张 MedCT 图表有 61K 个实体提及注释 (medct_ner_annotations.csv)。

(2)搜索任务:包含20 个临床查询 (medct_search_queries.csv) 和 两千多份带有相关性注释的出院记录 (medct_search_notes.csv)。

(3)出院小结自动生成任务:91 份经由医生、LLM 和 MedCT 增强生成总结的原始出院记录(medct_summary_notes.csv)。并医生进行偏好 Likert 量表注释(medct_summary_scores.csv)。


MedCT 和搜索应用程序演示


MedCT:https://medct.tigerbot.com/

MedSearch:https://medsearch.tigerbot.com/