研究目的与意义:
对中国的医疗大数据领域而言,2012年是一个值得纪念的年份。这一年,医疗信息化投入成倍增加,电子病历评级全面展开,医院等级评审重新启动,移动医疗、区域医疗、物联网持续升温,云计算、大数据崭露头角,医疗信息化的热潮扑面而来,让每一个行业从业者都切实感受到了它的热度。医疗领域的大数据主要来源有1)制药企业/生命科学2)临床医疗/实验数据3)费用报销/利用率等等,其重要表现形式则包括医疗记录文本(电子病历)以及生物医药文献,这两者也是本毕业设计课题的主要研究对象。医疗大数据的研究具有重大意义,麦肯锡公司(世界级领先的全球管理咨询公司)在其报告中指出,大数据分析可以帮助美国医疗服务业一年创造3000 亿美元的附件价值,包括医疗服务业 5 大领域(临床业务、付款 / 定价、研发、新的商业模式、公众健康)的 15 项应用,比如临床决策支持系统,远程病人监控,个性化治疗,疾病模式的分析等等。大数据的应用可产生很高的经济价值。按照世界经济论坛的说法,大数据是新财富,价值堪比石油。但是医疗大数据的分析与应用也存在着诸多挑战,例如医疗数据的非标准化、医疗数据的分析技术、数据的安全隐私问题等等,本文主要研究医疗数据的处理与分析技术,并进行项目实战。
论文的研究内容及预期结果:
本论文的主要研究对象是医疗记录文本(电子病历数据、社交媒体数据、临床数据等等)以及医疗文献,将主要运用自然语言处理(NLP)和机器学习(ML)模型,在医疗记录和文献的数据结构化、医疗信息的提取、基于医疗信息的疾病预测等领域进行相关技术的研究。最终将选择一个具体领域进行项目实战,解决具体问题,形成相关代码集合并撰写相关论文。
研究方法:
1) 自然语言处理
实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分,包括信息检索、问答系统、语义分析、信息抽取、文本挖掘等应用。
2) 文本深度学习方法
嵌入式词语表示,也被称为词向量,是现在最广泛使用的自然语言处理技术之一。词向量表示是一种既能表示词本身又可以考虑语义距离的表示方法。然而,大多数NLP问题面对的不是单个词语,而是需要分析更长的文本内容。现在有一个简单而灵活的解决方案,它在许多任务上都表现出了卓越的性能,即RNN模型。将文本用一个向量的序列表示之后,使用双向RNN模型将向量编码为一个句子向量矩阵。这个矩阵的每一行可以理解为词向量 它们对句子的上下文敏感。最后一步被称为注意力机制。这可以将句子矩阵压缩成一个句子向量,用于预测。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。