HtmlExtractor 网页信息抽取组件

授权协议:GPLv3操作系统:跨平台 开发语言:Java
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtracto...