设计特点
系统部署方案
操作系统:Win2003/2008/2012
数据库为:MSSQL/Mysql/Oracle
带宽要求:10M共享以上
硬件数量:1台采集分析服务器、1台应用
和数据库服务器。
系统设计特点
实现标题、正文、发表时
间自动识别抽取,采集无
需配置标签模板;
自动正
负评价情感分析组件,能对文
章进行正负评价;
支持新闻、博客、论坛、贴吧、网页的采集监控;
支持新浪、腾讯、凤凰网微博监测采集;
支持基
于元搜索引擎的关键词搜索监测;
支持javascript动态网页采集;
支持网
页快照本地存储;
基于内
容相似性去重识别;
支持短信、邮件等舆情预警提醒;
拥有手机WAP舆情客户端;
支持一键报表功能,可自动生成,包含正负面分析图、传播媒体的类型图、信息地域分布图等:
支持分布式部署;支持mysql\server sql\oracle等数据库.
系统性能指标
稳定性强:在机器
不断电的情况下,采集系
统能不间断持续运行,不出现死机、无故重启、资源耗尽等问题;无需人工监控。
性能优越:在普通
网络带宽情况下,PC服务器
的采集能力达到20页面/秒,网络带
宽高的情况下可达到30-60页面/秒。
效率优良:采集器
所耗费的带宽的利用率超过80%。
抽取精确:正文的抽取准确率98%,误抽率不到1%。
CPU和内存
的占有率不超过50%