Heritrix web爬虫

授权协议:Apache操作系统:跨平台 开发语言:Java
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之...