JAVA爬虫WebCollector

网络爬虫
编辑评级:
分享:

项目基本信息

开发协议 GPL
操作系统 Windows  Linux  OS X 
开发语言 Java
项目所有者 CrawlScript
收录时间 2014-07-20

项目介绍

爬虫简介:

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。

爬虫内核:

WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。2.x版本中集成了selenium,可以处理javascript生成的数据。

内核构架图:



网页正文提取:

网页正文提取项目ContentExtractor已并入WebCollector维护。
WebCollector的正文抽取API都被封装为ContentExtractor类的静态方法。 可以抽取结构化新闻,也可以只抽取网页的正文(或正文所在Element)。
正文抽取效果指标 :

标题抽取和日期抽取使用简单启发式算法,并没有像正文抽取算法一样在标准数据集上测试,算法仍在更新中。


2.x:

WebCollector 2.x版本特性:

WebCollector-Hadoop:

WebCollector-Hadoop是WebCollector的分布式版本,目前为beta版本

Lazy:

Lazy是基于WebCollector的一个懒人版爬虫,可以通过配置采集网页持久化到mongodb中。
Lazy目前版本为beta版,教程可参考 Lazy爬虫配置教程。

WebCollector 2.x官网和镜像:


WebCollector 2.x教程:


通过捐款支持WebCollector

维护WebCollector及教程需要花费较大的时间和精力,如果你喜欢WebCollector的话,欢迎通过捐款的方式,支持开发者的工作,非常感谢!

你可以使用支付宝钱包扫描下方的二维码进行捐款, 或者通过向支付宝帐号hujunxianligong@126.com转帐进行捐款。


同类项目推荐

CrawlScript的其他项目

相关教程