A Python interface for histcite
Project description
HistCite工具的Python实现
由于原引文分析工具 HistCite 已停止维护,目前国内普遍使用的为中科大某位同学在原程序基础上进行修复的版本 HistCite Pro,仅能在 Windows
平台上运行,存在诸多限制。借助 pandas 2.0 和可视化工具 Graphviz,本工具复刻了原 HistCite
的大部分功能,同时拓展了对其他数据源的支持,可以跨平台使用。
最近更新:
v0.5.0
生成单篇文献的引文网络图;v0.4.0
实现对参考文献信息元的完整解析;v0.3.0
增加了对Scopus
数据库题录数据的支持;v0.2.0
增加了对CSSCI
数据库题录数据的支持;
核心功能:
- 生成引文网络图;
- 生成统计数据,包括文献、作者、机构、文献来源、作者关键词等分析对象;
- 发现不在本地文献集中、但被本地文献集引用较多的文献,即本次文献获取过程忽略的重要文献;
工具对比:
对比项 | histcite-python | histcite pro |
---|---|---|
是否开源 | 是 | 否 |
是否跨平台 | 是 | 否,仅限 Windows |
是否支持其他数据源 | 是 | 否,仅限 Web of Science |
是否提供前端界面 | 否 | 是 |
引文网络图 | 矢量图,比较清晰 | 位图,比较模糊 |
快速开始
pip install histcite-python
数据准备
数据来源 | 下载说明 |
---|---|
Web of Science |
核心合集 ,格式选择 Tab delimited file/制表符分隔文件 ,导出内容选择 Full Record and Cited References/全记录与引用的参考文献 或者是 Custom selection/自定义选择项 ,全选字段。 |
CSSCI |
从 CSSCI数据库 正常导出即可。 |
Scopus |
格式选择 CSV 文件,导出字段需要额外勾选 Author keywords 和 Include references ,或者直接全选字段。 |
[!WARNING]
在 Web of Science 和 Scopus 平台检索时须将检索结果语言限定为英文;
文件下载之后不要重命名(会根据文件名识别有效的题录数据文件),下载完成后放在一个单独的文件夹内。
使用方法
- 使用命令行工具
$ histcite -h
usage: histcite [-h] (--top TOP | --threshold THRESHOLD | --node NODE) [--disable_timeline] folder_path {wos,cssci,scopus}
A Python interface for histcite.
positional arguments:
folder_path Folder path of downloaded data.
{wos,cssci,scopus} Source type of data source.
options:
-h, --help show this help message and exit
--top Top N nodes with the highest LCS.
--threshold Nodes with LCS greater than threshold.
--disable_timeline Whether to disable timeline.
$ histcite /Users/.../Downloads/dataset wos --top 100 --disable_timeline
[!NOTE]
生成的结果保存在folder_path
下的result
文件夹内,包含
① 描述统计表 descriptive_statistics.xlsx
② 引文网络图节点信息表 graph_node_info.xlsx
③ 引文网络图的数据文件 graph.dot
文件③可以使用 Graphviz在线编辑器 或下载到本地的 Graphviz工具 生成引文网络图。
引文网络图示例:
对应的节点信息如下(以CSSCI数据源为例,不同文献数据库的节点信息字段存在差异):
AU | TI | PY | SO | LCS | |
---|---|---|---|---|---|
55 | 张坤; 查先进 | 我国智慧图书馆的发展沿革及构建策略研究 | 2021 | 国家图书馆学刊 | 6 |
60 | 石婷婷; 徐建华; 张雨浓 | 数字孪生技术驱动下的智慧图书馆应用场景与体系架构设计 | 2021 | 情报理论与实践 | 7 |
63 | 卢小宾; 宋姬芳; 蒋玲; 洪先锋; 刘静; 张薷 | 智慧图书馆建设标准探析 | 2021 | 中国图书馆学报 | 9 |
81 | 程焕文; 钟远薪 | 智慧图书馆的三维解析 | 2021 | 图书馆论坛 | 10 |
86 | 段美珍; 初景利; 张冬荣; 解贺嘉 | 智慧图书馆的内涵特点及其认知模型研究 | 2021 | 图书情报工作 | 7 |
... |
-
使用Jupyter,比命令行更加灵活,可以自定义更多参数,查看 demo.ipynb
字段说明
Field Name | Description |
---|---|
GCS |
Global Citation Score, 表示一篇文献在文献数据库中的总被引次数 |
LCS |
Local Citation Score, 表示一篇文献在本地论文集中的被引次数 |
GCR |
Global Cited References, 表示一篇文献的参考文献数量 |
LCR |
Local Cited References, 表示一篇文献的参考文献在本地文献集中的数量 |
T* |
Total score, e.g. TLCS = Total Local Citation Scores. |
Recs |
Count of Records |
AU |
Author |
TI |
Title |
SO |
Publication Name |
DT |
Document Type |
FU |
Funding Agency |
CR |
Cited References |
DE |
Author Keywords |
C3 |
Affiliation |
NR |
Cited Reference Count |
TC |
Times Cited Count |
J9 |
29-Character Source Abbreviation |
PY |
Publication Year |
VL |
Volume |
IS |
Issue |
BP |
Beginning Page |
EP |
Ending Page |
DI |
DOI |
... | Please refer to Web of Science fields. |
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
histcite-python-0.5.2.tar.gz
(388.5 kB
view hashes)
Built Distribution
Close
Hashes for histcite_python-0.5.2-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | c50a28242ee22b63072834bad867179901632cc6c803fa17b6a7e99ac338c7e8 |
|
MD5 | ba3d4e9522ce1257a6afec5c6bf28535 |
|
BLAKE2b-256 | b9820e7712afbf94e0a840c832970373dee924b3a13250079f7a4dc6e43f6496 |