开题报告内容:(包括拟研究或解决的问题、采用的研究手段及文献综述,不少于2000字)一、研究背景随着电子病历系统的大规模使用,医院积累了大量非结构化医疗文本,这些文本中不仅有结构化的信息,比如患者的姓名、年龄、体检数据等,还包括了大量的非结构化的自由文本信息,像患者分临床特诊、医生的判断依据以及对各种诊疗行为的疗效跟踪等关键信息,通过提取其中的疾病、症状和治疗之间的潜在关联,并进行进一步的分析对发展循证医学、支持临床决策、提高医疗信息服务水平有十分重大的意义。
若要充分发挥这些信息的价值,采用人工整理或执行检索等操作将耗费大量的人力和时间,需要通过计算机技术来优化工作流程和提升效率,实现提供辅助医疗服务的功能。
目前已有的中文电子病历实体识别系统,虽然可以取得不错的效果,但是没有能够充分利用医学语言特征。
另外,由于就诊录入操作缺乏严格的语义规范以及录入人员的语言风格习惯存在差异,同意诊断与治疗方案,不同医生的录入内容可能会不同。
因此,对文本数据进行结构化与特征化处理是进行文本挖掘与应用的关键步骤。
目前由谷歌团队于2018年提出的基于双向Trasformer的自然语言表示框架[1]可以更好的实现对上下文信息以及语义语法信息的提取,取得了更加优秀的通用语言模型的训练效果,在通用性和性能上都有着下明显的提升。
二、研究手段本研究拟进行医疗文本分词、关键词研究及医学词库建立,并进一步运用自然语言处理(Natural Language Processing,NLP)技术实现自动化抽取和总结电子病历中的信息。
自然语言处理主要用来使计算机理解、处理自然语言的一种理论方法,本身就是处于语言学与计算机语言的交叉点上,自然语言处理是计算机的一个重要研究方向。
1. 信息提取(Information Extraction IE)信息提取的目标是从非结构化文本信息中提取结构化数据,用于定位自然语言文本中的特定概念和关系等有用信息,属于自然语言处理领域的一个子领域。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。