列表页

全部分类 >> 应用工具 >> >网络爬虫

urlwatch URL监控脚本

urlwatch 是一个用来监控指定的URL地址的 Python 脚本，一旦指定的 URL 内容有变化时候将通过邮件方式通知到。基本功能配置简单，通过文本文件来指定URL，一行一个URL地址...<
Methabot

Methabot 是一个经过速度优化的高可配置的 WEB、FTP、本地文件系统的爬虫软件。<
NZBGet 新闻采集器

NZBGet是一个新闻采集器，其中从新闻组下载的资料格式为nzb文件。它可用于单机和服务器/客户端模式。在独立模式中通过nzb文件作为参数的命令行来下载文件。服务器和客户端都只有一个可执行文件”...<
Combine Perl爬虫程序

Combine 是一个用Perl语言开发的开放的可扩展的互联网资源爬虫程序。<
OpenWebSpider

OpenWebSpider是一个开源多线程Web Spider（robot：机器人，crawler：爬虫)和包含许多有趣功能的搜索引擎。<
Snoopy 网站内容采集器

Snoopy 是一个强大的网站内容采集器（爬虫）。提供获取网页内容，提交表单等功能。<
Spidr

Spidr 是一个Ruby 的网页爬虫库，可以将整个网站、多个网站、某个链接完全抓取到本地。安装方法：sudo gem install spidr 代码示例： Spidr.start_at(...<
ItSucks 网络爬虫

ItSucks 是一个 java web spider（web 机器人，爬虫）开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swing GUI操作界面。<
Web-Harvest Web 数据提取工具

Web-Harvest 是用 Java 编写的开源 Web 数据提取工具。它提供了一种收集所需网页并从中提取有用数据的方法。为了做到这一点，它利用了成熟的文本/xml操作技术，如XSLT、XQu...<
JoBo 下载整个 Web 站点

JoBo 是一个用于下载整个 Web 站点的简单工具。它本质是一个 Web Spider。与其它下载工具相比较它的主要优势是能够自动填充 form(如：自动登录)和使用cookies来处理ses...<

本周排行本月排行