PyQuery 让你使用 jQuery 的风格来遍历 XML 文档,它使用了 lxml 来处理 XML 乃至 HTML 文档。 你可以直接从字符串、URL或者文件中加载文档: >>> from ...<
goquery是一个使用go语言写成的HTML解析库,可以让你像jQuery那样的方式来操作DOM文档。下面是示例: func ExampleScrape_MetalReview() { ...<
go-html-transform是使用Go语言实现的一个HTML解析器,并且有HTML5的支持,使用这个解析器可以让我们使用CSS选择器来操作DOM节点。 示例代码: doc := NewDo...<
Objective-C-HMTL-Parser 是一个用 ObjectiveC 编写的简易 HTML 解析器。 示例代码: NSError *error = nil; NSString *...<
Krabber是kVitrail的网页抽取工具。 Krabber的设计目标是提供一个可以为Java应用调用的、可以执行网页上的JavaScript代码、并返回JavaScript代码执行后的网页...<
cl-who 是common lisp 生成html的库 安装方式可以通过quicklisp安装 (ql:quickload :cl-who)<
chtml-matcher 是一个 Lisp 的库用来从 HTML 文档中抽取信息,它使用 closure-html 库将 HTML 解析成 lhtml (HTML的列表形式)。<
基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关 对于Web信息检索来说,网页正文抽取是后续处理的关键。 虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对...<
Jerry 是 Jodd 工具包中的一个HTML解析工具。它有点像是用Java实现的jQuery。Jerry是一个高效简洁的Java库,用来简化HTML的解析,遍历和操作。 Jerry的API在...<
Painty 提供了将 HTML 代码转成图片的 PHP 解决方案,支持以下的 HTML 标签: H1 STRONG, B IMG tags HR BR, P<