这是一个 PHP5 的 HTML 文档解析器,示例代码: // Create DOM from URL or file $html = file_get_html(http://www.goo...<
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM、CSS 以及类似于 JQuery 的操作方法...<
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省...<
当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时,您需要使用 mechanize 库 示例代码: import re from mechanize import Browser br...<
phpQuery是一个服务器端jQuery开源项目。它可以让PHP开发人员采用与jQuery相同的语法来处理网页元素。 示例代码: <?php require(phpQuery/phpQ...<
CyberNeko 是一个HTML解析器,它可以将HTML文件解析成w3c的Document对象。也就是 NekoHTML<
VietSpider HTMLParser 是一个纯 Java 的 HTML DOM 解析器,支持 HTML 4.0.1 。具有语法检查、自动关闭元素,可以处理一些匹配错误的元素,执行效率高。<
Loofah 是一个 HTML 代码清理库,它可以修复被中断的HTML标签。 示例代码: doc = Loofah.fragment(unsafe_html) # returns a No...<
jScraper 提供了简单的接口用来解析HTML文本,它将HTML文本转成Java的对象。 查看 jScraper 的 JavaDoc 文档: http://sharkysoft.com/so...<
Streaming HTML parser 是一个 C 语言的 HTML 解析器。 示例代码 #include <stdio.h> #include <streamhtmlparser/html...<