开题报告内容:(包括拟研究或解决的问题、采用的研究手段及文献综述,不少于2000字)
一、课题研究的背景及意义
互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具,然而,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包括大量用户不关心的网页,为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。
本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是要具有一定的性能,并且要考虑到网络爬虫的各种需求。
根据网络爬虫主体网站的特性对URL进行构造。网络爬虫使用Scrapy实现多线程,让爬虫具备更强大的抓取能力和灵活性。网络爬虫要实现对特定主题的抓取。网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来:新闻、电子图书、行业信息等。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。
最终实现的网络爬虫应该能根据设定的主题,从构造的URL进行一定数据爬取,并最终得到需要的数据。
二、课题研究的内容与拟解决的问题
本课题研究的内容是如何使网络爬虫灵活高效。
本课题研究的主要内容有:
1)如何根据网站主体特性不同构造URL
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。