面向舆情监测的Web站点内容获取和分析系统文献综述

 2023-08-20 08:08
{title}{title}
  1. 文献综述(或调研报告):

网络舆情(Internet Public Opinion,IPO),即在网络媒体上发布的社情民意。孙培梁等人[1]提出,网络舆情概念强调两点:一是新闻事件、社会现象和社会问题主要通过互联网首发或传播,二是表达信念、态度、意见和情绪的公众主要是网民。从二十世纪九十年代开始,我国互联网事业的飞速发展深刻地改变了社会的信息传播渠道;如今网络媒体的普及更是完全颠覆了传统的舆论观念和传播媒介。

祝华新等人[2]认为,我国的网络舆论形成机制与以下四个特点密切相关:中国网民的年轻化特征,高学历群体互联网普及率高;中国互联网舆论平台十分发达;网络舆论压力十分强大;互联网逐步成为舆论“主流媒介”。网络舆情的传播形成过程可分为以下八个步骤[3]:平面媒体的采访与报道——网络媒体转载——网友留言或在论坛发帖——形成民意体验——概念化的网络舆论——网络媒体与平面媒体互动作用——具体化的网络舆论(提升观点化的民意)——影响政府决策。如果不加以监督引导,负面的网络舆情将对公共安全形成一定程度的威胁。加强国家对网络舆论的监测与引导,建立网络舆情监测体系,积极化解舆论危机,对促进国家发展、维护社会稳定、构建和谐社会具有重要意义。

随着网络舆情理论和网络舆情监测技术研究的深入开展,国内外学者及相关单位纷纷开始着手开发舆情监测系统并提供相关的信息服务,将研究成果运用到了实际工作中。目前国内比较出色的舆情信息服务工作室有人民网舆情监测室,其已经初步形成了一套较完整的网络舆情监测理论体系、工作方法、作业流程和应用技术,可以对网络舆情主要载体进行24小时监测,并进行专业的统计和分析,形成监测分析研究报告等成果。从可公开获取的资料来看,方正智思舆情预警辅助决策支持系统、TRS系统和上海网络舆情预警监测系统等舆情监测分析软件表现较为出色。系统名称及系统功能如表1所示。

表1 四种网络舆情监测与预警系统及其功能简介[4]

系统名称

系统功能

方正智思舆情预警辅助决策支持系统

系统可实现全文检索、自动分类、自动聚类、主题监测/追踪、相关推荐与消重、关联分析与趋势分析、自动摘要与自动关键词提取、突发事件分析、生成统计报表等功能

上海网络舆情预警监测系统

系统可对采集到的论坛和新闻网站信息进行抽取、清洗,转换成符合系统要求的舆情信息并加以存储,然后对存储在数据中心的舆情信息进行数据挖掘,通过二维或三维的图形方式呈现各种挖掘结果

TRS网络舆情监控系统

系统可提供热点发现和热点跟踪、敏感信息监控、辅助决策支持、舆情预警等多种功能

Goonie互联网舆情监控系统

通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现各单位对自己相关网络舆情监督管理的需要,最终形成舆情简报、舆情专报、分析报告、移动快报,为决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据

从总体来看,上述这些系统主要包括以下三个基本功能:一是與情信息采集,二是舆情处理分析,三是舆情信息服务。从功能来看,现有的系统都是各有侧重,暂时还没有出现一个整体功能较为完备的系统。

网络舆情监测分析系统有着较高的复杂性,同时包含了人工智能技术、海量数据存储管理技术与文本挖掘技术等,是一种综合性比较强的系统。

在语义分析方面,人工智能算法的使用已十分常见。由于不像英文那样每个单词有空格间隔,中文的分词方法要更加复杂和困难。传统的中文分词方法是最大匹配法,利用数次正反向词典匹配,从而提炼出分词结果,这也是目前搜索引擎所使用的主流方法。这种方法有着一定的局限性,首先需要比较完善的词库,其次对语句中的歧义处理不佳。

针对这种情况,刘春辉等人提出了一种基于优化最大匹配与统计结合的汉语分词方法匹配与统计结合的中文分词方法OMSSA(Optimization Matching and Statistics Segmentation Algorithm) [5],其思想主要是对待切分文本依次进行预处理,优化最大匹配分词,规则判断和统计方法处理。这里的统计方法是建立统计模型,其中应用最多的是神经元网络和隐马尔可夫模型,这些都是典型的人工智能算法。

在海量数据存储管理方面,分级存储(Hierarchical Storage Management,HSM)[6]是目前存储策略中最有影响力的方案,它的用意在于在几乎不降低效率的同时,极大地降低存储成本。分级存储的理论依据是数据的价值随时间的推移而变化(一般是降低)。通常采用分级存储技术将价值最大的数据保存在等级最高、性能最好的存储资源上,以保证高性能、高可靠性。

情感分析,又称为意见挖掘,是自然语言处理和计算语言学的基本任务。对网络舆论检测工作而言,获取标准格式信息后进行的情感分析更是工作重点。Aspect级别的情感分类是情感分析中的一项细粒度任务。由于它提供了更完整和深入的结果,aspect级别的情感分析近年来受到了广泛的关注。一个句子的情感极性不仅由句子的内容决定,而且与句子的有关方面密切相关,一个aspect与一个句子的内容之间的联系是值得研究的。因此,Wang等人[7]提出了基于注意力机制长短期记忆网络的Aspect级别情感分类,当输入不同的aspect时,注意力机制可以集中在句子的不同部分,从而在aspect级别的分类上更具竞争力。

此外,Tang等人[8]还提出了基于深度记忆网络的Aspect级别情感分类,通过上下文信息构建memory,通过attention捕获对于判断不同aspect的情感倾向较重要的信息。在attention机制中,Tang等人增加了location特征,将aspect的位置也作为记忆网络中memory的一部分。实验证明本方法在实验数据集上取得了较好的结果。

本次毕业设计中,要综合运用大学四年所学的知识进行设计。主要是依据相关规范,使用Scrapy等分布式爬虫框架和Celery等大规模异步处理框架,使用学习NLP相关算法并对境外网络空间相关站点进行文本分析,提取文章摘要、关键词,识别其中的负面内容。

参考文献:

  1. 孙培梁,林枫,昌志泷. 大数据时代的政府网络舆情监测系统研究[J]. 数字技术与应用,2014,(03):84-85.
  2. 祝华新,胡江春,孙文涛. 2007中国互联网舆情分析报告[J]. 今传媒,2008,(2):31-40.
  3. 赵瑞华. 网络舆论的特征及功能研究[D]. 暨南大学,2005.
  4. 陈忆金,曹树金,陈少驰,陈珏静. 网络舆情信息监测研究进展[J]. 图书情报知识,2011,(6):41-49.
  5. 刘春辉, 金顺福, 刘国华, et al. 基于优化最大匹配与统计结合的汉语分词方法[J]. 燕山大学学报,2009,(02):34-39.
  6. 赵晓南, 李战怀, 曾雷杰, et al. 分级存储管理技术研究[J].计算机研究与发展, 2011,48(增刊):105-111.
  7. Wang Y , Huang M , Zhu X , et al. Attention-based LSTM for Aspect-level Sentiment Classification[C]. Conference on Empirical Methods in Natural Language Processing. 2016:606-615.
  8. Tang D , Qin B , Liu T . Aspect Level Sentiment Classification with Deep Memory Network[C]. Conference on Empirical Methods in Natural Language Processing. 2016:214-224.
  1. 文献综述(或调研报告):

网络舆情(Internet Public Opinion,IPO),即在网络媒体上发布的社情民意。孙培梁等人[1]提出,网络舆情概念强调两点:一是新闻事件、社会现象和社会问题主要通过互联网首发或传播,二是表达信念、态度、意见和情绪的公众主要是网民。从二十世纪九十年代开始,我国互联网事业的飞速发展深刻地改变了社会的信息传播渠道;如今网络媒体的普及更是完全颠覆了传统的舆论观念和传播媒介。

祝华新等人[2]认为,我国的网络舆论形成机制与以下四个特点密切相关:中国网民的年轻化特征,高学历群体互联网普及率高;中国互联网舆论平台十分发达;网络舆论压力十分强大;互联网逐步成为舆论“主流媒介”。网络舆情的传播形成过程可分为以下八个步骤[3]:平面媒体的采访与报道——网络媒体转载——网友留言或在论坛发帖——形成民意体验——概念化的网络舆论——网络媒体与平面媒体互动作用——具体化的网络舆论(提升观点化的民意)——影响政府决策。如果不加以监督引导,负面的网络舆情将对公共安全形成一定程度的威胁。加强国家对网络舆论的监测与引导,建立网络舆情监测体系,积极化解舆论危机,对促进国家发展、维护社会稳定、构建和谐社会具有重要意义。

随着网络舆情理论和网络舆情监测技术研究的深入开展,国内外学者及相关单位纷纷开始着手开发舆情监测系统并提供相关的信息服务,将研究成果运用到了实际工作中。目前国内比较出色的舆情信息服务工作室有人民网舆情监测室,其已经初步形成了一套较完整的网络舆情监测理论体系、工作方法、作业流程和应用技术,可以对网络舆情主要载体进行24小时监测,并进行专业的统计和分析,形成监测分析研究报告等成果。从可公开获取的资料来看,方正智思舆情预警辅助决策支持系统、TRS系统和上海网络舆情预警监测系统等舆情监测分析软件表现较为出色。系统名称及系统功能如表1所示。

表1 四种网络舆情监测与预警系统及其功能简介[4]

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。