urlwatch 是一个用来监控指定的URL地址的 Python 脚本,一旦指定的 URL 内容有变化时候将通过邮件方式通知到。 基本功能 配置简单,通过文本文件来指定URL,一行一个URL地址...<
Methabot 是一个经过速度优化的高可配置的 WEB、FTP、本地文件系统的爬虫软件。<
NZBGet是一个新闻采集器,其中从新闻组下载的资料格式为nzb文件。它可用于单机和服务器/客户端模式。在独立模式中通过nzb文件作为参数的命令行来下载文件。服务器和客户端都只有一个可执行文件”...<
Combine 是一个用Perl语言开发的开放的可扩展的互联网资源爬虫程序。<
OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。<
Snoopy 是一个强大的网站内容采集器(爬虫)。提供获取网页内容,提交表单等功能。<
Spidr 是一个Ruby 的网页爬虫库,可以将整个网站、多个网站、某个链接完全抓取到本地。 安装方法:sudo gem install spidr 代码示例: Spidr.start_at(...<
ItSucks 是一个 java web spider(web 机器人,爬虫)开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swing GUI操作界面。<
Web-Harvest 是用 Java 编写的开源 Web 数据提取工具。它提供了一种收集所需网页并从中提取有用数据的方法。为了做到这一点,它利用了成熟的文本/xml操作技术,如XSLT、XQu...<
JoBo 是一个用于下载整个 Web 站点的简单工具。它本质是一个 Web Spider。与其它下载工具相比较它的主要优势是能够自动填充 form(如:自动登录)和使用cookies来处理ses...<