Skip to main content

News Title Extraction Algorithm Based on Density and Text Features

Project description

TEDT
========
TEDT:基于密度及文本特征的新闻标题抽取算法


特点
========
* 自适应模式:可以自动适应松散或者紧密的网页结构;
* 日志信息:可以自己设置日志等级,监测算法内部细节和计算流程;
* 配置信息:可以自己配置正文文本行的范围,标题长度范围。
* MIT 授权协议


安装说明
=======

代码仅对 Python3 兼容

* 全自动安装:`easy_install TEDT` 或者 `pip install TEDT` / `pip3 install TEDT`
* 半自动安装:先下载 http://pypi.python.org/pypi/TEDT/ ,解压后运行 `python setup.py install`
* 手动安装:将 TEDT 目录放置于当前目录或者 site-packages 目录
* 通过 `import TEDT` 来引用

算法
========
* 为从大量的复杂非规范网页结构中自动抽取出新闻标题,本文提出一种基于密度和文本特征的新闻标题抽取算法。
* 主要通过融合网页文本密度分布和语言特征的语料判定模型,将网页划分为语料区和标题候选区,选取语料后通过TextRank算法计算对应的key-value权重集合,最后采用改进的相似度计算方法从标题候选区抽取新闻标题。
* 该算法能有效划分语料和标题区域,降低网页噪声干扰,准确抽取出新闻标题。

主要功能
=======
1. 抽取标题、正文、发布时间
--------
* `TEDT`实例化需要至少接受一个参数:url
* `TEDT`实例化接受一个参数即url时的默认配置为

- CENTER_DISTANCE_MIN = 0 #最小文本行间距
- CENTER_DISTANCE_MAX = 10 # 最大文本行间距
- TITLE_MIN_LENGTH = 5 # 最小标题长度
- TITLE_MAX_LENGTH = 50 # 最大标题长度
- LOG_ENABLE = True # 是否开启日志
- LOG_LEVEL = 'WARNING' #默认日志等级
- ADAPTIVE = True #是否自适应网页密度结构

2. 代码示例
--------

>>> from TEDT import TEDT
>>> url = 'http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=1712291126498126051'
>>> t = TEDT(url, LOG_LEVEL='INFO',)
>>> t.ie()
>>> print(t.corpus)
日前,日本驻华大使馆经济部一等秘书上田智一、日本科学技术振兴机构(jst)北京事务所所长茶山秀一、日本理化学研究所(riken)。。。
>>> print(t.title)
日本科技代表团来校访问交流(图)
>>> print(t.time)
2017-12-29

3. 实例测试
--------
- from TEDT import TEDT

- urls = [
'http://www.cankaoxiaoxi.com/china/20170630/2158196.shtml', # 参考消息
'http://news.ifeng.com/a/20180121/55332303_0.shtml', # 凤凰资讯
'http://china.huanqiu.com/article/2018-01/11541273.html', # 环球网
'http://news.china.com/socialgd/10000169/20180122/31990621.html', # 中华网
'http://www.thepaper.cn/newsDetail_forward_1962275', # 澎湃新闻
# 'http://news.szu.edu.cn/info/1003/4989.htm', # 深圳大学新闻网
'http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=1712291126498126051', # 郑州大学新闻网
'http://news.ruc.edu.cn/archives/194824', # 人民大学新闻网
'http://xinwen.ouc.edu.cn/Article/Class3/xwlb/2018/01/22/82384.html', # 中国海洋大学新闻网
'http://news.sjtu.edu.cn/info/1002/1645201.htm', # 上海交通大学新闻网
]
- for url in urls:
- t = TEDT(url, LOG_LEVEL='INFO',)
- t.ie()

- INFO:------------------------------TEDT------------------------------
- INFO:标题:【港媒称人工智能改变内地人生活:神奇老师深受小学生喜爱】
- INFO:时间:【2017-06-30】
- INFO:正文:【核心提示:家豪的故事表明,ai正在改变现代社会,这项技术正在慢慢从发明新奇的产品,向发明改变日常生活的应用程序转变.。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【各地干部群众热议十九届二中全会公报】
- INFO:时间:【2018-01-21】
- INFO:正文:【原标题:为新时代中国特色社会主义提供有力宪法保障——各地干部群众热议党的十九届二中全会公报新华社北京1月21日电(新华社记者)“。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【各地干部群众热议党的十九届二中全会公报】
- INFO:时间:【2018-01-21】
- INFO:正文:【新华社北京1月21日电题:为新时代中国特色社会主义提供有力宪法保障——各地干部群众热议党的十九届二中全会公报新华社记者“。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【北京干渴90天终迎初雪雪后气温骤跌将遇冰冻周】
- INFO:时间:【2018-01-22】
- INFO:正文:【中国天气网讯期盼已久的北京初雪终于来了!昨晚(21日)随着降雪范围逐渐扩大,北京迎来了今冬初雪。受降雪影响,。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【又有45所高校要改名,你的母校还是你的母校吗】
- INFO:时间:【2018-01-22】
- INFO:正文:【超大大标准小高校改名近些年来方兴未艾,2018年又有45所高校可能变更校名。1月20日,教育部发展规划司正式公布了2017年。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【日本科技代表团来校访问交流(图)】
- INFO:时间:【2017-12-29】
- INFO:正文:【日前,日本驻华大使馆经济部一等秘书上田智一、日本科学技术振兴机构(jst)北京事务所所长茶山秀一、日本理化学研究所(riken)。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【中国人民大学召开年度校级领导班子民主生活会】
- INFO:时间:【2018-01-22】
- INFO:正文:【按照中央统一部署和要求,1月17日,中国人民大学召开2017年度校级领导班子民主生活会。中央组织部副部长周祖翼全程参加并指导民主生活会,。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【中国海洋大学第十九届“天泰优秀人才奖”、“天泰奖学金”颁奖仪式举行】
- INFO:时间:【2018-01-22】
- INFO:正文:【本站讯1月19日下午,中国海洋大学第十九届“天泰优秀人才奖”、“天泰奖学金”颁奖仪式在崂山校区举行。天泰公益基金会秘书长张织云。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【高校思想政治理论课实地教学观摩在上海交大举行[图]】
- INFO:时间:【2018-01-18】
- INFO:正文:【为深入学习贯彻落实党的十九大精神,深入推动习近平新时代中国特色社会主义思想进教材进课堂进头脑,不断提高思政课建设的质量和水平。。。
- INFO:*****************************************************************

Project details


Release history Release notifications

This version
History Node

0.5

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Filename, size & hash SHA256 hash help File type Python version Upload date
TEDT-0.5.tar.gz (75.5 kB) Copy SHA256 hash SHA256 Source None Feb 7, 2018

Supported by

Elastic Elastic Search Pingdom Pingdom Monitoring Google Google BigQuery Sentry Sentry Error logging AWS AWS Cloud computing DataDog DataDog Monitoring Fastly Fastly CDN SignalFx SignalFx Supporter DigiCert DigiCert EV certificate StatusPage StatusPage Status page