搜索研究

搜索引擎与舆情监测系统的区别

yealu2012-03-06 10:15  浏览:1467

舆情监测是一项新兴的业务领域,由于缺乏专业的技术指导与工作流标准,不少从业人员不知道使用什么工具可以最优化的完成舆情监测工作,甚至还有一部分舆情工作者现在还在使用原始的搜索引擎作为舆情收集的主要工具。工具使用不对,工作起来的效率自然就会降低,或者结果出现偏差,导致舆情误判,或者根本就无法完成预设工作。要知道,舆情无小事,一个基于错误认识上的误判,很有可能就会酿成一场灾难,所以舆情工作马虎不得,选择正确的工具是顺利完成舆情监测工作的有力保障。

搜索引擎和舆情监测系统虽然有着一些共通之处,但是二者的设计初衷完全不同,我们要想要了解舆情监测需要哪种工具,就必须先要了解各种工具是为了解决什么问题而设计的,其工作原理又是什么。

搜索引擎的核心价值在于快速地为用户找到所需要的内容,它是在大而全的收录的基础上,按一定算法评估页面内容的价值,并以倒序排列的方式呈现给用户。董敬一网络舆情研究认为,舆情监测系统的核心价值是时间获取与“我”相关的舆情信息。舆情监控重点强调的是时间、与“我相关”以及舆情价值。有一点需要注意的是内容价值和舆情价值完全是两回事,并不是所有的页面的信息都是舆情信息,技术站点、下载站点以及访问量极低的僵尸站点的信息就不是舆情信息。也有可能某一篇博文的内容价值很低,只有几句话几个图片,但是很有可能它的舆情价值却很大。

搜索引擎与舆情监测系统的不同具体体现在:

一、全网抓取与重点抓取

搜索引擎的工作原理是先将所有互联网上它认为有用的页面先抓取到它的数据库中,然后对这些页面进行索引,最后使用户提交一个关键词时由系统在它自己的数据库中对这个关键词进行匹配,并将匹配结果以一种顺序展示给搜索者。

整个互联网上的站点是海量的,并不是所有的网络站点上都会产生有价值的舆情信息,我们通过对近些年的网络热点事件进行观察就会发现,几乎所有的舆情事件最开始都是在有数的一些重点网站上产生的,例如新浪博客、天涯论坛、猫扑以及类似华龙网、辽一网这类地方网站,除了突发事件能够直接被门户关注之外,一般性事件都是经过这些网站的发酵之后,才被各大新闻门户关注,从而促使舆情爆发。

所以舆情监控的重点,显然不是整个互联网,而是这些易于产生舆情事件的论坛、博客、社交网站、地方网站及新闻站点,例如大连西盈信息技术有限公司的西盈网络舆情监测系统就提供了一个3000个基础网站监测列表,几乎已经可以覆盖整个网络舆论场。舆情系统的重点抓取策略可以使信息抓取工作更加精准,有效的避免了信息噪音对系统正常运行的影响,从而提高后面的舆情分析系统的工作效率。

二、内容价值与舆情价值

搜索引擎的工作原理主要是判断网页的内容价值,判断内容价值这其中起主导作用的是链接分析技术,基本工作原理是,当搜索引擎发现有大量的高质量页面有链接同时指向某一个页面时,搜索引擎则认为这个页面很“重要”,从而将这个页面呈现给搜索者。

链接分析技术显然不适用于舆情价值的判断。

,链接分析技术存在盲区,近年来一些新兴的WEB2.0站点开始主动屏蔽搜索引擎的抓取,例如一些微博和SNS社交网站,而这些网站由于其传播速度快,恰恰是易于爆发舆情危机的地方。

,链接分析技术无法判断该页面的舆情价值,例如某个论坛的某个贴子,可能只有几行文字配合几副图片,该页面对于搜索引擎来讲,内容的价值很低,但可能由于其文字内容和图片内容与网民利益切身相关,它可能具有很重要的舆情价值,但搜索引擎可能并不会对这个页面进行收录,或者该页面排名非常靠后,使人难以检索发现到,错过了舆情监控的最佳时机。

以上搜索引擎在舆情工作中的两个致命缺陷,严重制约了舆情工作人员及时获取舆情信息的能力,被忽略的舆情信息很有可能发展爆发,产生严重后果。而舆情监测系统会考虑到如转发数、回复数、浏览量、传播速度这些更能反映舆情价值的参数,来判断一个信息是否具有舆情价值。

三、被动收录与主动抓取

由于搜索引擎索引的范围是整个互联网,海量数据的处理肯定无法做到时实监控,搜索引擎基于内容价值对各个网站有自己判断,对它认为质量高的网站收录速度会快一些,对它认为质量低的网站收录速度就会慢一些,而这种判断并不是基于对舆情价值的判断,所以仍然会产生舆情价值高的内容没有被索引或是已经过了很久才被索引,搜索引擎什么时间放出爬虫去抓取目标网站,以及收录目标网站的哪些页面,这对我们来说都只能被动等待,搜索引擎处于自身商业利益考虑,一般是不会100%抓取一个网站的内容的。

还有一点,通常舆情信息都会发生在网站的内页,搜索引擎抓取网站内页后,在很长一段时间都不会对这个内页再次抓取,这样便很难跟踪这些舆情信息的变化趋势,例如对信息回贴、评论、浏览量和转载量的监控,这些都会对舆情监控工作带来严重影响。

而舆情监控系统的监控范围是互联网上易于产生舆情信息的网站,由于监控目标非常精确,所以可以提高监控效率,舆情监控系统什么时候放出爬虫去抓取目标网站,完全由我们自己说了算,我们可以30分钟抓取一次,也可以1分钟抓取一次,也可以想抓取的时候就抓取,而且理论上可以做到对目标网站的100%抓取,包括对重点舆情信息的跟踪抓取,这种主动监控机制可以保证舆情工作者时间发现舆情信息,有效把握4小时,引导舆情走向。舆情监控系统在重点监控网站以外也可以参考和跟踪搜索引擎的内容,可以做到统筹兼顾,万无一失。

四、人工检索与软件聚合

在没有舆情监控系统的年代,监控各个网站舆情信息,人工检索的工作量是很大的,例如判断一个信息的转载量,还要考虑其标题的变种,衍生内容,替代词、传播范围等等因素,而且很多私秘网站的内容在通用搜索引擎上还无法检索到,例如**息,这些监控工作都需要持续跟踪,所以就需要不断的重复进行相关人工检索,这个工作效率就非常低了。

软件就是为了解决人工重复劳动的问题,这些动作其实完全都可以借助专业的舆情监控系统来完成,例如董敬一网络舆情提供的专业舆情监控系统,可以对舆情信息进行深度分析,通过重点目标监测和元搜索引擎辅助监测,实现全网信息匹配,将全网各种舆情信息副本、衍生版本聚合在一个操作界面下,覆盖微博、SNS社区或其他私秘网站,帮助舆情监控工作者宏观把握舆情走势。

五、主观判断与智能预警

以前舆情工作者通过搜索引擎获取信息,都是通过自己的主观认识,评判一个舆情信息的价值,而这种主观认识,由于缺乏及时的具体数据支持,例如传播速度、转载量、回复量、正反面观点比例判断等等,经常会出现偏差,这就易于产生舆情误判。还有对一些新兴网络词语用在不同情景下的语意把握,完全凭主观学习和判断,这个难度就比较大。

舆情监控系统拥有有效监控这些判断舆情价值参数的手段,就可以解决这些问题。舆情监控系统通过对历史舆情事件的研究,通常拥有自己的判断模型,什么条件达到什么预警级别、在什么时候预警,以何种方式预警,舆情监控系统都会有更科学的判断方法。

舆情监控系统一般都会配备一个衍生词数据库,这个数据库通常具备自我学习功能,针对近些年互联网上陆续出现的一些网络词汇,例如神马、蒜你狠、坑爹、上墙、拼爹、你妹等等进行主动学习和收录,在不同的语境下做具体的语意分析,保证舆情监控不留死角,与时具进。

除此之外,舆情监控系统通常都会集成一些专门为舆情工作者量身定制的贴心小功能,例如手机短信、邮件通知,可以让舆情工作者在非工作时间也能时间掌握网络舆情动态。自动生成舆情简报,免去了人工制作的烦琐等等。

总结:

在中国网民即将突破4亿的今天,互联网已经成为政府与人民沟通的重要通道。在这种时代背景下,普通群众将互联网视为了表达自身利益诉求的工具,近年来我国互联网日益频繁上演各种门事件,更加促使各级政府部门、大型企事业单位加大了对网络舆情监控的重视。

俗话说工欲善其事,必先利其器,所以选择正确的舆情监测工具,关乎舆情监测工作的成败全局,在做舆情监测这项工作上,为舆情监测工作量身定做的系统,无论从哪个方面考虑,肯定都要优于传统搜索引擎。

热门频道
栏目分类