scrape.py 是一个 Python 模块用来从网页上提取内容的工具,可用它轻松实现页面抓取、链接点击、表单提交等操作,自动支持 Cookie、重定向和 SSL。 scrape.py 并不解...<
Goutte 是一个抓取网站数据的 PHP 库。它提供了一个优雅的 API,这使得从远程页面上选择特定元素变得简单。 示例代码: require_once /path/to/goutte....<
NSoup是JSoup的Net移植版本。使用方法基本一致。 特性: jQuery 风格的 CSS 选择器 对不信任的源的 HTML 进行清理 操作 HTML 文档. 示例代码: NSoup.No...<
woody 是一款基于 Java 的 HTML 解析/提取器,用法非常类似 webmagic,是对其抽取模块的完全重写。 功能: 多种结果数据类型(String, char, byte, sho...<
Xsoup是基于Jsoup开发的HTML抽取器,提供了XPath支持。 相比另一个常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有较大的性能优势,解析时间和抽取时间都只有...<
OCGumbo是一个Objective-C写的HTML5解析引擎,基于Google gumbo开源项目。 OCGumbo除了基础的解析功能外,最大的特色是对增加了类似JQuery的查询功能。 示...<
Gumbo 是 Google 的一款用C语言实现的HTML5解析库,无需任何外部依赖。 目标及特征: 遵循 HTML5 规范 功能强大,可处理一些不规范的 HTML 标签 简单的 API 支持源...<
php html解析工具,类似PHP Simple HTML DOM Parser。 由于基于php模块tidy,所以在解析html时的效率比 PHP Simple HTML DOM Parse...<
PHTX (Peters HTML Table eXtractor) 是一个小的 Unix 命令工具用来从 HTML 文件中抽取表格数据并存放到 CSV 格式文件。<
.NET平台下,一个高效的从Html中提取正文的工具。 正文提取采用了基于文本密度的提取算法,支持从压缩的Html文档中提取正文,每个页面平均提取时间为30ms,正确率到95%以上。 Html2...<