cx-extractor 通用网页正文抽取

授权协议:未知操作系统:跨平台 开发语言:Java C/C++ PHP Perl
基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关 对于Web信息检索来说,网页正文抽取是后续处理的关键。 虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对...