文献综述
随着信息科技的进步和互联网的日益普及,人类正在进行信息史上的一项巨大工程,将现实世界的信息,如传统报纸,期刊,新闻,书籍专利文献等都放到网络上去,以及现在美食酒店车票,同时也不停地在网络上生产出数不胜数的新信息,整个网络正在堆积成一个前所未有的超级大型数据库,但是信息种类太过于分散,如何在浩瀚如海的信息空间里,快速查找并获取所需信息已成为信息是带最根本的问题之一。由此出现了很多聚合网站,比如58同城,里面包含了各个城市找兼职,租房等信息,还有一些专题新闻网站包含各大网站的新闻再分类,还要一些聚合视频网站等。什么是网站内容聚合?是指根据一定主题或者关键词将网站原有内容进行重新组合排序而生成一个新的列表或专题页面。网站聚合的初衷是方便用户对同一主题相关的内容进行拓展阅读。但是发展到目前,这种聚合成了很多网站为了在搜索引擎中快速获取流量而使用的一种提升搜索排名的技术手段。所谓提升搜索排名技术通常是双刃剑,用得好时流量风声水起,用错时机,网站几乎就很难再有流量。任何一个网站都会进行内容聚合,内容聚合的形式多样化,最常见的如网站栏目,专题,(标签),组合搜索页面等。
如今自然语言的发展也使得内容聚合更加容易,聚合的内容相关性更高。早在20世纪50年代,自然语言处理就被提起,但直到20世纪80年代前,自然语言处理的系统大多仅支持有限的词汇并需要大量的人工编写的规则。到了80年代,机器计算能力的飞速提升以及机器学习算法的出现,为自然语言处理领域带来了变革。隐马尔可夫模型的使用,以及越来越多的基于统计模型的研究,使得系统拥有了更强的对未知输入的处理能力。如今,研究更多的集中于无监督学习或者语义监督学习,比较成功的便是自动翻译系统。近几年,大数据时代的到来,以及深度学习算法的广泛应用,又为自然语言处理带来了新的突破,如此多的文本训练数据也让NLP(人工智能的子领域)大放异彩,NLP是数据科学领域的一个重要的分支,它包含了以一种高效的方式去分析,理解和从文本里提取信息等重要过程。通过利用NLP及其组件,可以组织大量的文本数据,执行大量的自动化任务,并解决各种问题,比如自动摘要,主题分割等。
2、 本课题研究的意义和价值
而我们搜索查询的时候,搜索到的结果往往时效性太差,或者内容与我们想要的结果并不是高度相关,还需用肉眼慢慢筛选观察,这样就会非常的耗费时间,于是我们可以通过网络爬虫将网络上的一些资源爬取下来归类存储,搭建网站可以按照详细分类搜索,这样搜索获取到的内容与自己想要的内容相关度就会大大提高,让有兴趣的用户能够更方便的进行阅读。而我的简易聚合网站主要包含五个分类的搜索,技术博客,问答专区,新闻,美食,职位。因此网站面向的群众主要就是大学生群体,因为他们很多比较关注所在城市的美食,时常观看新闻,有些学生喜欢看体育类的,有些喜欢政治类的,因此对新闻进行整合分类再按照分类搜索是非常有必要的,还有学校的一些计算机课程经常需要进行编程作业,在技术专区搜索就可以学习到很多相关的知识解决在课后遇到的问题,对于那些邻近毕业的大学生而言,很多即将走进工作岗位,因此对于招聘信息这一块也非常的关注,就可以选择在本网站职位板块进搜索了解自己感兴趣职位所需要的技能和专业能力,这样就无需去多个招聘网站寻找费时费力,对于职位信息通过处理,以图表形式显示在前端,对于各行业薪资状况看起来也更加直观。并且爬虫每日都在运行填充新的数据,因此数据一直都在更新,不会出现那种一直都是一些老数据再不更新的情况。对于那些没有分类的推荐新闻,我们就可以使用机器学习算法训练出可以给新闻分类的模型方便分类,这就涉及到了对于文本的处理也就是自然语言方面的学习和研究。再结合爬虫获取文本信息,可以将网站想要聚合的内容打造的相关度更高,更符合一部分用户的搜索精确度的需求。
资料编号:[675113]
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。