您好,欢迎来到838软件园!

当前位置:首页 > 软件下载 > 网络工具

GeneralNewsExtractor(新闻网页正文通用抽取器)v0.2.6官方版

GeneralNewsExtractor是基于论文《基于文本和符号密度的网页文本提取方法》用Python实现的文本提取器。它可用于提取HTML 文本的内容、作者和标题。 GeneralNewsExtractor(通用新闻网页文本通用提取器)是基于论文《基于...

  • 版本:v1.0.0
  • 平台:WinAll
  • 类型:网络工具
  • 发布:2025-02-08
  • 大小:15KB
  • 星级:

GeneralNewsExtractor是基于论文《基于文本和符号密度的网页文本提取方法》用Python实现的文本提取器。它可用于提取HTML 文本的内容、作者和标题。

GeneralNewsExtractor(通用新闻网页文本通用提取器)是基于论文《基于文本和符号密度的网页文本提取方法》用Python实现的文本提取器。它可用于提取HTML 文本的内容、作者和标题。

7ef60868256b5f7b_600_0.jpeg

发展介绍

项目起源

这个项目的开发源于我在CNKI上发现一篇关于新闻网站文本自动提取的算法论文——《基于文本和符号密度的网页文本提取方法》)

本文描述的算法看起来简洁、清晰、逻辑性强。但由于论文只讲了算法原理,没有具体的语言实现,所以我根据论文使用Python来实现这个提取器。分别使用今日头条、网易新闻、友民星空、观察者网、凤凰网、腾讯新闻、阅达网、新浪新闻进行测试,发现提取效果非常好,准确率几乎达到100%。

项目状况

在论文中描述的文本提取的基础上,我添加了标题、发表时间和文章作者的自动检测和提取功能。

目前这个项目是一个非常非常早期的demo。发布出来是希望尽快得到大家的反馈,以便更好、更有针对性的开发。

本项目命名为extractor而不是crawler,以避免不必要的风险。因此,这个项目的输入是HTML,输出是字典。请使用适当的方法获取目标网站的HTML。

该项目现在不会也不会提供主动请求网站HTML 的功能。

下载地址

GeneralNewsExtractor(新闻网页正文通用抽取器)v0.2.6官方版

温馨提示:此游戏文件大小(15KB),下载时请耐心等待~

官方下载通道

迅雷高速下载

迅雷高速下载

迅雷高速下载

迅雷高速下载

迅雷高速下载

迅雷高速下载

本地下载通道

普通下载

普通下载

普通下载

普通下载

普通下载

普通下载

下载排行

更多

本类最新

更多

关于我们 | 下载排行榜 | 专题合集 | 手机游戏 | 手机软件
Copyright 2024-2025 838软件园
联系方式: 123456@qq.com