GNE-JS 新闻网页正文通用抽取器

授权协议:MIT操作系统:跨平台 开发语言:TypeScript 查看源码 »
GNE-JS 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。 在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。 该项目启发...