一、文献综述
1课题背景
1.1研究目的:
随着计算机技术的发展和各种数据大量涌入,计算机领域出现所谓的“数据极度丰富,而知识缺乏”的困境。数据驱动的科学发现与研究已经成为巨大的需求。数据挖掘技术是从海量的、不完全的、随机的、有噪声的数据信息之中,挖掘出其中潜在的有价值的信息的过程。数据挖掘技术结合了计算机科学,综合运用了数理统计分析、情报检索、机器学习、专家系统等多种方法[1]。数据挖掘技术已经成功应用于商业管理、工程、电信等很多领域。然而,与其他领域相比,数据挖掘技术在临床实验数据的应用则处于一个初步探索阶段。临床试验是以人体(病人或健康志愿者)为研究对象进行的系统性研究,以证实或揭示实验药物的作用、不良反应或试验药物的吸收、分布、代谢和排泄。临床试验根据研究的目的,对足够的研究对象(样本)实施干预性地控制,并实时检测人体的各项指标[2]。在临床试验中会产生大量的临床实验数据,这些数据对新药的开发、试验药物的疗效及药物的安全性等评价起着决定性的作用,同时对这些临床实验数据研究质量和水平的高低也将直接关系到患者的生命健康和利益。数据挖掘技术在临床实验数据中应用,将对药物的开发、药物疗效及安全性的跟踪调查起到积极作用[10]。
1.2国内外研究现状:
随着我国临床试验管理的规范化及各项指标的标准化和数据仓库的建立,使得数据挖掘技术已成为制药公司、医院、科学工作者研究的重要课题。在美国,在1997年Duke University Medical Center 就对基于过去10年的45000围产期患者数据,包括215626诊次,建立了临床试验数据仓库,进行了数据挖掘的研究[3]。在我国,在医药领域,基于医学结构化数据的数据挖掘在用于医学文献数据库的挖掘、医院管理信息系统中的数据挖掘、中医药领域的数据挖掘、方剂数据库、中医症候分析以及新药开发的研究也取得了一定进展。利用中医临床结构化病历数据,构建面向研究的临床仓库平台,并进行了中医辨证、处方等方面的挖掘分析应用。该研究自2001年开始,有中国中医科学院刘宝延牵头,受北京市科委、国家973,国家科技重大专项、医药行业专项等项目支持,目前已包含近20万中医医院和门诊结构化病历数据[3]。然而,临床试验数据具有不完整性、多样性、异质性、冗余性等特点,给数据挖掘的应用造成了困难。所以,对于临床医药数据挖掘技术和方法的研究,仍需我们进一步地探索创新。
1.3研究技术及方法综述
- 聚类分析:
可将相似性质的变量归为一类的统计分析方法,在找出变量相似程度的统计量之后,根据这些统计量寻找合理的分类方法将变量分类。聚类分析适用于未知的组进行分类,是一种探索性的资料分析方法。多用于对中医用药经验的知识总结[6]。
- 关联规则数据挖掘(本课题重点研究方法)
用来描述数据中强关联特征的模式,用于发现隐藏在大型数据集中的令人感兴趣的联系。所发现的模式通常蕴含规则或特征子集的形式表示。 关联分析主要应用于DNA序列间相似搜索与比较、识别同时出现的基因序列、在患者生理参数分析中的应用、疾病相关因素分析等[8]。
方法可行性:有学者对37000例肾病患者进行了追踪观察,监测肾小球过滤率、尿蛋白水平和贫血状况,结果发现以上3种指标中的任何一项异常都伴随着心脏病发病率的上升,这种肾病与心脏病“关联”的现象可发生在肾病的早期阶段[9]。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。