项目预算:待商议
开发周期:30天
发布时间:2016/11/8
要求地区:任意
开发需求 用于网络舆情信息采集与分析的软件(接口级)
功能描述
1. 信息采集类型:新闻、政务网站、论坛、博客、微信、微博、视频、境外中文媒体,约3万站点
2. 网页解析字段项:标题、时间、作者、正文、正文摘要、URL、评论数、转载数等
3. 数据分析类型:舆情常规的语义分析、热点分析
4. 全文检索功能
技术要求
1) 部署\OS:云服务器\centos
2) 网络爬虫:Nutch1.6 \ Nutch1.7
3) 离线计算\实时计算:hadoop2.x \ storm
4) 数据采集\消息队列:flume \ Kafka
5) DB:hbase \ mongodb
6) 检索:solr
7) 其他:开源、无限制
其他要求
1) 24小时运行
2) 开发文档完整
3) 除首次外,完成单次信息采集解析 < 4小时
注:需要北京地区接包方。