Creeper 是一个基于简单脚本( Creeper Script ,扩展名 .crs )的下一代开源爬虫框架。 需要配合一门正经的编程语言(只开发了 Go 版本)来使用,先在 Creeper ...<
Gather Platform 数据抓取平台是一套基于 Webmagic 内核的,具有 Web 任务配置和任务管理界面的数据采集平台,一个轻量级的搜索引擎系统。具有以下功能 根据配置的模板进行数...<
ghost-login 此处所说的模拟登录不是指利用网站本身提供的认证API接口进行登录,主要是通过分析前端代码,摸清登录认证原理、核心加密代码,然后程序模拟,来实现自动登录网站的过程; 专门用...<
V5 数据采集器是一款面向个人及专业用户提供的一款专业的数据采集软件,即适用于简单化配置操作,也适应针对复杂数据采集的能力,所见即可采。 V5数据采集器独有的代理轮询采集机制,可有效的解决网站屏...<
百度云分享爬虫项目 github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过w...<
php爬虫系统 * 程序只支持CLI # 安装程序 ### 1.dbconfig.php 添加正确的数据库配置 ### 2. 安装程序 ```PHP php run install ``` # ...<
包含百度云网盘爬虫、网站前后端、搜索,整套服务。 技术栈 网站: PHP Codeigniter 爬虫:Python 搜索引擎:Xunsearch 数据库:MySql 演示站点 爱百应搜索<
Jedi-Crawler 是一款轻量级 Node/PhantomJS爬虫,可以动态的抓取网页内容。 安装: npm install jedi-crawler 示例代码: var jedi = r...<
HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗。...<
WebPasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。 1.包含强大的页面解析引擎,提供jsoup、xpath、...<