News Title Extraction Algorithm Based on Density and Text Features
Project description
TEDT
========
TEDT:基于密度及文本特征的新闻标题抽取算法
特点
========
* 自适应模式:可以自动适应松散或者紧密的网页结构;
* 日志信息:可以自己设置日志等级,监测算法内部细节和计算流程;
* 配置信息:可以自己配置正文文本行的范围,标题长度范围。
* MIT 授权协议
安装说明
=======
代码仅对 Python3 兼容
* 全自动安装:`easy_install TEDT` 或者 `pip install TEDT` / `pip3 install TEDT`
* 半自动安装:先下载 http://pypi.python.org/pypi/TEDT/ ,解压后运行 `python setup.py install`
* 手动安装:将 TEDT 目录放置于当前目录或者 site-packages 目录
* 通过 `import TEDT` 来引用
算法
========
* 为从大量的复杂非规范网页结构中自动抽取出新闻标题,本文提出一种基于密度和文本特征的新闻标题抽取算法。
* 主要通过融合网页文本密度分布和语言特征的语料判定模型,将网页划分为语料区和标题候选区,选取语料后通过TextRank算法计算对应的key-value权重集合,最后采用改进的相似度计算方法从标题候选区抽取新闻标题。
* 该算法能有效划分语料和标题区域,降低网页噪声干扰,准确抽取出新闻标题。
主要功能
=======
1. 抽取标题、正文、发布时间
--------
* `TEDT`实例化需要至少接受一个参数:url
* `TEDT`实例化接受一个参数即url时的默认配置为
- CENTER_DISTANCE_MIN = 0 #最小文本行间距
- CENTER_DISTANCE_MAX = 10 # 最大文本行间距
- TITLE_MIN_LENGTH = 5 # 最小标题长度
- TITLE_MAX_LENGTH = 50 # 最大标题长度
- LOG_ENABLE = True # 是否开启日志
- LOG_LEVEL = 'WARNING' #默认日志等级
- ADAPTIVE = True #是否自适应网页密度结构
2. 代码示例
--------
>>> from TEDT import TEDT
>>> url = 'http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=1712291126498126051'
>>> t = TEDT(url, LOG_LEVEL='INFO',)
>>> t.ie()
>>> print(t.corpus)
日前,日本驻华大使馆经济部一等秘书上田智一、日本科学技术振兴机构(jst)北京事务所所长茶山秀一、日本理化学研究所(riken)。。。
>>> print(t.title)
日本科技代表团来校访问交流(图)
>>> print(t.time)
2017-12-29
3. 实例测试
--------
- from TEDT import TEDT
- urls = [
'http://www.cankaoxiaoxi.com/china/20170630/2158196.shtml', # 参考消息
'http://news.ifeng.com/a/20180121/55332303_0.shtml', # 凤凰资讯
'http://china.huanqiu.com/article/2018-01/11541273.html', # 环球网
'http://news.china.com/socialgd/10000169/20180122/31990621.html', # 中华网
'http://www.thepaper.cn/newsDetail_forward_1962275', # 澎湃新闻
# 'http://news.szu.edu.cn/info/1003/4989.htm', # 深圳大学新闻网
'http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=1712291126498126051', # 郑州大学新闻网
'http://news.ruc.edu.cn/archives/194824', # 人民大学新闻网
'http://xinwen.ouc.edu.cn/Article/Class3/xwlb/2018/01/22/82384.html', # 中国海洋大学新闻网
'http://news.sjtu.edu.cn/info/1002/1645201.htm', # 上海交通大学新闻网
]
- for url in urls:
- t = TEDT(url, LOG_LEVEL='INFO',)
- t.ie()
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【港媒称人工智能改变内地人生活:神奇老师深受小学生喜爱】
- INFO:时间:【2017-06-30】
- INFO:正文:【核心提示:家豪的故事表明,ai正在改变现代社会,这项技术正在慢慢从发明新奇的产品,向发明改变日常生活的应用程序转变.。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【各地干部群众热议十九届二中全会公报】
- INFO:时间:【2018-01-21】
- INFO:正文:【原标题:为新时代中国特色社会主义提供有力宪法保障——各地干部群众热议党的十九届二中全会公报新华社北京1月21日电(新华社记者)“。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【各地干部群众热议党的十九届二中全会公报】
- INFO:时间:【2018-01-21】
- INFO:正文:【新华社北京1月21日电题:为新时代中国特色社会主义提供有力宪法保障——各地干部群众热议党的十九届二中全会公报新华社记者“。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【北京干渴90天终迎初雪雪后气温骤跌将遇冰冻周】
- INFO:时间:【2018-01-22】
- INFO:正文:【中国天气网讯期盼已久的北京初雪终于来了!昨晚(21日)随着降雪范围逐渐扩大,北京迎来了今冬初雪。受降雪影响,。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【又有45所高校要改名,你的母校还是你的母校吗】
- INFO:时间:【2018-01-22】
- INFO:正文:【超大大标准小高校改名近些年来方兴未艾,2018年又有45所高校可能变更校名。1月20日,教育部发展规划司正式公布了2017年。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【日本科技代表团来校访问交流(图)】
- INFO:时间:【2017-12-29】
- INFO:正文:【日前,日本驻华大使馆经济部一等秘书上田智一、日本科学技术振兴机构(jst)北京事务所所长茶山秀一、日本理化学研究所(riken)。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【中国人民大学召开年度校级领导班子民主生活会】
- INFO:时间:【2018-01-22】
- INFO:正文:【按照中央统一部署和要求,1月17日,中国人民大学召开2017年度校级领导班子民主生活会。中央组织部副部长周祖翼全程参加并指导民主生活会,。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【中国海洋大学第十九届“天泰优秀人才奖”、“天泰奖学金”颁奖仪式举行】
- INFO:时间:【2018-01-22】
- INFO:正文:【本站讯1月19日下午,中国海洋大学第十九届“天泰优秀人才奖”、“天泰奖学金”颁奖仪式在崂山校区举行。天泰公益基金会秘书长张织云。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【高校思想政治理论课实地教学观摩在上海交大举行[图]】
- INFO:时间:【2018-01-18】
- INFO:正文:【为深入学习贯彻落实党的十九大精神,深入推动习近平新时代中国特色社会主义思想进教材进课堂进头脑,不断提高思政课建设的质量和水平。。。
- INFO:*****************************************************************
========
TEDT:基于密度及文本特征的新闻标题抽取算法
特点
========
* 自适应模式:可以自动适应松散或者紧密的网页结构;
* 日志信息:可以自己设置日志等级,监测算法内部细节和计算流程;
* 配置信息:可以自己配置正文文本行的范围,标题长度范围。
* MIT 授权协议
安装说明
=======
代码仅对 Python3 兼容
* 全自动安装:`easy_install TEDT` 或者 `pip install TEDT` / `pip3 install TEDT`
* 半自动安装:先下载 http://pypi.python.org/pypi/TEDT/ ,解压后运行 `python setup.py install`
* 手动安装:将 TEDT 目录放置于当前目录或者 site-packages 目录
* 通过 `import TEDT` 来引用
算法
========
* 为从大量的复杂非规范网页结构中自动抽取出新闻标题,本文提出一种基于密度和文本特征的新闻标题抽取算法。
* 主要通过融合网页文本密度分布和语言特征的语料判定模型,将网页划分为语料区和标题候选区,选取语料后通过TextRank算法计算对应的key-value权重集合,最后采用改进的相似度计算方法从标题候选区抽取新闻标题。
* 该算法能有效划分语料和标题区域,降低网页噪声干扰,准确抽取出新闻标题。
主要功能
=======
1. 抽取标题、正文、发布时间
--------
* `TEDT`实例化需要至少接受一个参数:url
* `TEDT`实例化接受一个参数即url时的默认配置为
- CENTER_DISTANCE_MIN = 0 #最小文本行间距
- CENTER_DISTANCE_MAX = 10 # 最大文本行间距
- TITLE_MIN_LENGTH = 5 # 最小标题长度
- TITLE_MAX_LENGTH = 50 # 最大标题长度
- LOG_ENABLE = True # 是否开启日志
- LOG_LEVEL = 'WARNING' #默认日志等级
- ADAPTIVE = True #是否自适应网页密度结构
2. 代码示例
--------
>>> from TEDT import TEDT
>>> url = 'http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=1712291126498126051'
>>> t = TEDT(url, LOG_LEVEL='INFO',)
>>> t.ie()
>>> print(t.corpus)
日前,日本驻华大使馆经济部一等秘书上田智一、日本科学技术振兴机构(jst)北京事务所所长茶山秀一、日本理化学研究所(riken)。。。
>>> print(t.title)
日本科技代表团来校访问交流(图)
>>> print(t.time)
2017-12-29
3. 实例测试
--------
- from TEDT import TEDT
- urls = [
'http://www.cankaoxiaoxi.com/china/20170630/2158196.shtml', # 参考消息
'http://news.ifeng.com/a/20180121/55332303_0.shtml', # 凤凰资讯
'http://china.huanqiu.com/article/2018-01/11541273.html', # 环球网
'http://news.china.com/socialgd/10000169/20180122/31990621.html', # 中华网
'http://www.thepaper.cn/newsDetail_forward_1962275', # 澎湃新闻
# 'http://news.szu.edu.cn/info/1003/4989.htm', # 深圳大学新闻网
'http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=1712291126498126051', # 郑州大学新闻网
'http://news.ruc.edu.cn/archives/194824', # 人民大学新闻网
'http://xinwen.ouc.edu.cn/Article/Class3/xwlb/2018/01/22/82384.html', # 中国海洋大学新闻网
'http://news.sjtu.edu.cn/info/1002/1645201.htm', # 上海交通大学新闻网
]
- for url in urls:
- t = TEDT(url, LOG_LEVEL='INFO',)
- t.ie()
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【港媒称人工智能改变内地人生活:神奇老师深受小学生喜爱】
- INFO:时间:【2017-06-30】
- INFO:正文:【核心提示:家豪的故事表明,ai正在改变现代社会,这项技术正在慢慢从发明新奇的产品,向发明改变日常生活的应用程序转变.。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【各地干部群众热议十九届二中全会公报】
- INFO:时间:【2018-01-21】
- INFO:正文:【原标题:为新时代中国特色社会主义提供有力宪法保障——各地干部群众热议党的十九届二中全会公报新华社北京1月21日电(新华社记者)“。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【各地干部群众热议党的十九届二中全会公报】
- INFO:时间:【2018-01-21】
- INFO:正文:【新华社北京1月21日电题:为新时代中国特色社会主义提供有力宪法保障——各地干部群众热议党的十九届二中全会公报新华社记者“。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【北京干渴90天终迎初雪雪后气温骤跌将遇冰冻周】
- INFO:时间:【2018-01-22】
- INFO:正文:【中国天气网讯期盼已久的北京初雪终于来了!昨晚(21日)随着降雪范围逐渐扩大,北京迎来了今冬初雪。受降雪影响,。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【又有45所高校要改名,你的母校还是你的母校吗】
- INFO:时间:【2018-01-22】
- INFO:正文:【超大大标准小高校改名近些年来方兴未艾,2018年又有45所高校可能变更校名。1月20日,教育部发展规划司正式公布了2017年。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【日本科技代表团来校访问交流(图)】
- INFO:时间:【2017-12-29】
- INFO:正文:【日前,日本驻华大使馆经济部一等秘书上田智一、日本科学技术振兴机构(jst)北京事务所所长茶山秀一、日本理化学研究所(riken)。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【中国人民大学召开年度校级领导班子民主生活会】
- INFO:时间:【2018-01-22】
- INFO:正文:【按照中央统一部署和要求,1月17日,中国人民大学召开2017年度校级领导班子民主生活会。中央组织部副部长周祖翼全程参加并指导民主生活会,。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【中国海洋大学第十九届“天泰优秀人才奖”、“天泰奖学金”颁奖仪式举行】
- INFO:时间:【2018-01-22】
- INFO:正文:【本站讯1月19日下午,中国海洋大学第十九届“天泰优秀人才奖”、“天泰奖学金”颁奖仪式在崂山校区举行。天泰公益基金会秘书长张织云。。。
- INFO:*****************************************************************
- INFO:------------------------------TEDT------------------------------
- INFO:标题:【高校思想政治理论课实地教学观摩在上海交大举行[图]】
- INFO:时间:【2018-01-18】
- INFO:正文:【为深入学习贯彻落实党的十九大精神,深入推动习近平新时代中国特色社会主义思想进教材进课堂进头脑,不断提高思政课建设的质量和水平。。。
- INFO:*****************************************************************
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
TEDT-0.5.tar.gz
(75.5 kB
view details)
File details
Details for the file TEDT-0.5.tar.gz
.
File metadata
- Download URL: TEDT-0.5.tar.gz
- Upload date:
- Size: 75.5 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 0893b0e743a133a7901ffa7252590610dc1114d82db68f73a86200d91b4cdc6e |
|
MD5 | 1d5c3d9f1da9d15fdb4280333cfbb739 |
|
BLAKE2b-256 | 8c14a8992a3a811b3d9f47f01a951d94e54fd809403fdfc4a85aa748a0e9dd4e |