lightsmile's text library
Project description
lightText
文本处理相关库,目前包括新词发现等功能。
功能
- 新词发现
安装
pip install lightText
建议使用国内源来安装,如使用以下命令:
pip install -i https://pypi.douban.com/simple/ lightText
使用
1.新词发现
使用示例
from pprint import pprint
from lighttext import NewWordDetector
detector = NewWordDetector()
detector.load_file('new_word/test_new_word3.txt')
pprint(detector.get_top_k(10))
其中,文本内容如下:
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。
具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。迄今为止,其实际应用在发达国家已经逐步拓展并取得了较好的效果,但它在我国仍属研究的起步阶段。
执行结果如下所示:
[('知识_图谱', 0.4920544676085099),
('可视化_技术', 0.4818782843526798),
('计量学_引文', 0.4262552853165825),
('知识_领域', 0.3902233812935824),
('共现_分析', 0.389030837989985),
('信息_可视化', 0.33426621501923115),
('利用_可视化', 0.3324330079992808),
('图谱_形象', 0.3301218104431901),
('引文_分析', 0.3267139032681375),
('知识_架构', 0.30243479556626457)]
参考
NLP
- 基于互信息和左右信息熵的短语提取识别-码农场
- 互联网时代的社会语言学:基于SNS的文本数据挖掘 | Matrix67: The Aha Moments
- python3实现互信息和左右熵的新词发现 - 简书
源码
- xylander23/New-Word-Detection: 新词发现算法(NewWordDetection)
- zhanzecheng/Chinese_segment_augment: python3实现互信息和左右熵的新词发现
Python
- Can't pickle local object 'DataLoader.init..' - vision - PyTorch Forums
- python3.X中pickle类的用法(cPickle模块移除了)_python,pickle_lanqiu5ge的专栏-CSDN博客
- python - copy.deepcopy vs pickle - Stack Overflow
- Python中collections.defaultdict()使用 - 简书
数据结构
打赏
如果该项目对您有所帮助,欢迎打赏~
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
lightText-0.0.2.tar.gz
(8.5 kB
view hashes)
Built Distribution
lightText-0.0.2-py3-none-any.whl
(14.1 kB
view hashes)
Close
Hashes for lightText-0.0.2-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 68715247aae7753ccec204d6327b4529f671e2639ada9d35a68a4371e3b9368f |
|
MD5 | 9b26dee4387aa8f745178fa480902499 |
|
BLAKE2b-256 | a93522517d9697e7f681dec4467dee6f5c933e0acf8007c35fd2aa72b7b52b51 |