列表页

全部分类 >> 网站开发 >> >html解析器

scrape.py HTML信息提取工具

scrape.py 是一个 Python 模块用来从网页上提取内容的工具，可用它轻松实现页面抓取、链接点击、表单提交等操作，自动支持 Cookie、重定向和 SSL。 scrape.py 并不解...<
Goutte PHP 爬虫库

Goutte 是一个抓取网站数据的 PHP 库。它提供了一个优雅的 API，这使得从远程页面上选择特定元素变得简单。示例代码： require_once /path/to/goutte....<
NSoup JSoup的Net移植版本

NSoup是JSoup的Net移植版本。使用方法基本一致。特性： jQuery 风格的 CSS 选择器对不信任的源的 HTML 进行清理操作 HTML 文档. 示例代码： NSoup.No...<
woody HTML 解析/提取器

woody 是一款基于 Java 的 HTML 解析/提取器，用法非常类似 webmagic，是对其抽取模块的完全重写。功能：多种结果数据类型（String, char, byte, sho...<
Xsoup HTML抽取器

Xsoup是基于Jsoup开发的HTML抽取器，提供了XPath支持。相比另一个常用的基于XPath的HTML抽取器HtmlCleaner，Xsoup有较大的性能优势，解析时间和抽取时间都只有...<
OCGumbo HTML5解析引擎

OCGumbo是一个Objective-C写的HTML5解析引擎，基于Google gumbo开源项目。 OCGumbo除了基础的解析功能外，最大的特色是对增加了类似JQuery的查询功能。示...<
Gumbo 纯C语言实现的HTML5解析库

Gumbo 是 Google 的一款用C语言实现的HTML5解析库，无需任何外部依赖。目标及特征：遵循 HTML5 规范功能强大，可处理一些不规范的 HTML 标签简单的 API 支持源...<
html-parser PHP 的 HTML 解析工具

php html解析工具，类似PHP Simple HTML DOM Parser。由于基于php模块tidy，所以在解析html时的效率比 PHP Simple HTML DOM Parse...<
PHTX HTML表格提取工具

PHTX (Peters HTML Table eXtractor) 是一个小的 Unix 命令工具用来从 HTML 文件中抽取表格数据并存放到 CSV 格式文件。<
Html2Article Html网页正文提取

.NET平台下，一个高效的从Html中提取正文的工具。正文提取采用了基于文本密度的提取算法，支持从压缩的Html文档中提取正文，每个页面平均提取时间为30ms，正确率到95%以上。 Html2...<

本周排行本月排行