
今日,虎博科技正式发布全球首个中文临床术语体系——MedCT (Medical Clinical Terminology)。MedCT是世界上第一个针对非英语使用地区的临床术语体系,尤其是中文使用地区。MedCT在医学领域的命名实体识别(NER)和命名实体链接(NEL)任务中,无论是英文还是中文场景,都展现了一流的性能与卓越的应用效果。MedCT结合了先进的人工智能技术与深厚的医学领域知识,标志着智慧医疗标准化进程的又一里程碑。
MedCT Github: https://github.com/TigerResearch/MedCT
MedCT Huggingface: https://huggingface.co/collections/TigerResearch/medct-6744641d6f19b9d70a56f848
MedCT涵盖了诊断术语、医疗程序、药物名称等多个方面,并通过特定的代码和清晰的定义来进行组织和管理,从而便于计算机系统进行高效的处理和深入的分析。
- 多语言支持:支持中文和英文两种语言,满足不同国家和地区的临床需求。
- 智能化支持:结合自然语言处理(NLP)技术,基于MedBERT基础模型,在医学领域的命名实体识别(NER)和命名实体链接(NEL)任务中表现优秀。
- 真实临床数据:数据集中包含真实临床数据和医生总结的报告。
1. MedCT 双语临床术语词典(中文和英文),{concept_id, [synonyms]}..., MedCT
2. MedCT命名实体识别(NER)模型:MedLink-en, MedLink-zh。
4. MedCT-clinical-notes 数据集。包括:
(1)NER 和 NEL 任务:包含7.4K 份中文真实临床笔记 (medct_ner_notes.csv),以及每张 MedCT 图表有 61K 个实体提及注释 (medct_ner_annotations.csv)。
(2)搜索任务:包含20 个临床查询 (medct_search_queries.csv) 和 两千多份带有相关性注释的出院记录 (medct_search_notes.csv)。
(3)出院小结自动生成任务:91 份经由医生、LLM 和 MedCT 增强生成总结的原始出院记录(medct_summary_notes.csv)。并医生进行偏好 Likert 量表注释(medct_summary_scores.csv)。
MedCT:https://medct.tigerbot.com/
MedSearch:https://medsearch.tigerbot.com/