分类:论文范文 发表时间:2021-08-26 10:08
[摘要]运用数据挖掘技术构建医案数据库是归纳和总结名医经验的常用方法。为了提升数据挖掘结果的使用价值,探讨现代名老中医医案数据库的构建方式,在优化数据库结构与常用字段的基础上,借助HanLP分词系统,应用结合最大概率算法的隐马尔可夫模型(HMM)分词算法进行医案文本的切分与语义标注,并通过python根据语义标注结果进行医案信息提取。该方法有助于优化医案数据结构,提升了数据库的构建效率和数据挖掘质量。
[关键词]中医医案;数据库;名老中医;数据处理
中医医案具有较高的学术价值,是后世中医学发展与创新的源头。随着信息技术的发展,传统纸质医案已不能满足人们快速获取与利用的需求,借助数据库与数据挖掘技术对大量中医医案进行储存、查询、统计分析成为中医信息化发展的新方向。
1医案数据库的建立
1.1数据采集
1.1.1数据来源
现代名老中医医案主要来源于中医药管理局评选的国医大师及全国第一、二、三、四批500位名老中医专家1949~2020年出版的临证验案集。
1.1.2医案纳入标准
1)语言叙述符合现代化用语习惯且内容完整;2)首次就诊;3)中药治疗有效。
1.1.3医案排除标准
1)语言晦涩艰深、难以理解;2)四诊资料记录不完整、缺失具体方药、诊断不明确;3)内容重复。
1.2研究方法
运用正则表达式对数字化医案进行文本清洗;再通过HanLP分词系统应用结合最大概率分词算法的隐马尔可夫模型(HiddenMarkovModel,HMM)对清洗后的医案信息进行中文分词与词性标注,利用基于HMM的命名实体识别功能结合人工进行语义标注;最后,建立医案信息提取模型,依据语义标注结果进行特定词性词语提取与聚类,形成结构化数据并储存,完成医案数据库的内容填充。
2医案数据库的数据处理
2.1初步数字化
录入员通过扫描识别、格式转化或人工录入的方式,使医案信息转化为可被医案录入程序识别处图1医案数据库结构设计图图2医案信息库常用字段及分类体系理的文本格式,并上传医案原图片,建立医案原文数据库。审核员进行两次文字校对,合格者纳入医案数据库,以保证医案信息的完整性与准确性。
2.2名词术语规范化
参考《中医临床诊疗术语》《中医药学主题词表》《图书馆分类法·医学专业分类表》《中医药学名词》《中医大辞典》《中药大辞典》《中医临床常见症状术语规范》、全国中医药规范教材等建立标准库,为后续医案切分等数据处理提供依据。鉴于中医病名与西医病名并非一一对应的关系,采取西医病名与中医病证结合的模式更有利于疾病的研究。对症状的处理主要是将复合症状拆分为单独症状,张启明等[10]总结了复合症状的拆分原则,可为此提供参考。临床检验与影像学检查结果名称要规范,数值单位要统一。两方甚至多方合用的方剂需拆分为单个方剂,名老中医自拟方剂需先进行标记,其中未命名方剂可根据方药组成等自行命名,并添加标记。药物因取材部位、炮炙方法、药源产地等差异使用别称者,均统一为规范名称。初步的名词术语规范化处理能够消除冗余信息,清除部分数据噪声,使数据结构更加合理,便于分词算法的统计与识别,以提升切分质量。
2.3医案切分
自然语言处理(NLP)是信息时代最重要的技术之一,HanLP作为NLP最常用、最普遍的工具,相较于其他分词软件,具有基于多种算法的中文分词、词性标注、命名实体识别、关键词提取等功能,同时支持用户自定义词典,其性能高效、架构清晰的优点,为医案切分和语义标注提供了极大便利。
3讨论
现代名老中医是中医药学术发展的杰出代表。他们的医案数量充足,覆盖临床常见疾病,语言结构清晰,逻辑明确,蕴含丰富的临证经验与诊疗特色,具有极高的挖掘价值[11]。尽管数据库技术已广泛应用其中,但多集中在挖掘方法的选择与创新层面,在实际操作过程中,充分的数据处理是进行深度挖掘的前提,尤其面对大量医案时,如何兼顾数据处理的质量与效率,是值得讨论的问题。
本研究数据处理的基本思想是借助自然语言处理技术对医案底层数据进行切分与标注,以完成特定字段信息的提取,其效果优劣的关键在于分词方法的选择。目前常用的分词方法有以下三类:基于字符串匹配的分词方法、基于理解的分词方法以及基于统计的分词方法。医案信息的数量庞杂,运用基于字符串匹配的分词方法效率低下,加之基于理解的分词方法目前发展并不成熟,医案语言的复杂性亦使其难以转化为计算机直接读取的形式,故采用基于统计的分词方法较为合适。在具体方法的选择上,采用结合最大概率算法的HMM分词算法。由于医案文本所包含的大多数信息都在规范用语数据库中有迹可循,为基于词典的最大概率算法提供了广阔的应用空间。然而,这种分词方法并不具备新词识别与歧义处理能力,对词典以外的医案信息分词效果较差[12]。作为补充与完善,HMM分词相比于其他算法更适用于医案这种信息规律较为固定的文本,既保证了切分的质量,其词性标注、命名实体识别等功能亦为后续的处理步骤提供了帮助,极大的节约了人力成本与时间。
结合自然语言处理技术的数据处理方法具有一定的实用性,促进了医案信息提取过程的系统化与规范化,为现代名老中医医案数据库的构建奠定了基础。医案数据库的构建是一个不断完善、不断发展的过程,也是一项复杂且繁重的跨学科工作,需要中医科研者与程序员的通力协作。深度发掘医案中不便于统计分析的隐含规律有待进一步研究。
参考文献
[1]周京艳,杨萍,王世雯.我国中医药信息资源数字化建设的现状[J].中华医学图书情报杂志,2016,25(7):49-52.
[2]于琦,崔蒙,李园白,等.中医药文献数据库建设规范研究[J].世界科学技术-中医药现代化,2014,16(11):2304-2307.
[3]武烨,马路.中医医案数据库的研发现状及展望[J].中华医学图书情报杂志,2012,21(11):49-52.
[4]吴中平,何新慧,柯雪帆,等.医案查询统计分析系统介绍[J].上海中医药杂志,2003,37(3):54-56.
[5]张启明,王永炎,张志斌,等.中医历代医案数据库的建立与统计方法[J].山东中医药大学学报,2005,29(4):298-299.
[6]陈丽平,李建生,蔡永敏,等.中医肺病数据库构建及挖掘的思路与方法[J].中华中医药杂志,2017,32(12):5530-5534
赵泽鹏1,戴国华2,高武霖2
相关阅读
论文常识
期刊知识
著作出版
教材出书
专利申请
出版社