Skip to main content

A Python interface for histcite

Project description

HistCite 工具的 Python 实现

PyPI Supported Versions Codecov License

由于原引文分析工具 HistCite 已停止维护,目前国内使用较多的为中科大某同学 (知乎昵称 Tsing) 在源程序基础上修复的版本 HistCite Pro,仅适用于 Windows 平台,存在较大限制。借助 pandas 2.0 和可视化工具 Graphviz,本工具实现了 HistCite 的核心功能,可以跨平台使用,同时拓展了对 其他数据源 的支持。

核心功能:

  • 生成引文网络图;
  • 生成统计数据,包括文献、作者、机构、文献来源、作者关键词等分析对象;

工具对比:

对比项 histcite-python histcite pro
是否开源
是否跨平台 否,仅限 Windows
是否支持其他数据源 否,仅限 Web of Science
是否提供前端界面 是,可交互
引文网络图 矢量图,比较清晰 位图,比较模糊

快速开始

$ pip install histcite-python

数据准备

数据来源 下载说明 原始文件名
Web of Science 核心合集,格式选择 Tab delimited filePlain text file,导出内容选择 Full Record and Cited References 或者是 Custom selection,全选字段。 savedrecs*.txt
CSSCI CSSCI数据库 正常导出即可。 LY_*.txt
Scopus 网站语言切换到英文,格式选择 CSV 文件,导出字段需要额外勾选 Author keywordsInclude references,或者直接全选字段。 scopus*.csv

[!WARNING] 文件下载后不要重命名(会根据文件名识别有效的数据文件),把下载的所有文件放在一个单独的文件夹内。

使用方法

  1. 使用命令行工具
$ histcite -h
usage: histcite [-h] (--top TOP | --threshold THRESHOLD | --node NODE) [--disable_timeline] folder_path {wos,cssci,scopus}

A Python interface for histcite.

positional arguments:
  folder_path           Folder path of downloaded data.
  {wos,cssci,scopus}    Data source.

options:
  -h, --help            show this help message and exit
  --top                 Top N nodes with the highest LCS.
  --threshold           Nodes with LCS greater than threshold.
  --disable_timeline    Whether to disable timeline.
$ histcite /Users/.../Downloads/dataset wos --top 50

[!NOTE] 生成的结果保存在 folder_path 下的 result 文件夹内,包含

  • 引文网络图节点信息表 graph_node_info.xlsx
  • 引文网络图的数据文件 graph.dot

引文网络图示例:

对应的节点信息如下(以 CSSCI 数据源为例):

AU TI PY SO LCS
55 张坤; 查先进 我国智慧图书馆的发展沿革及构建策略研究 2021 国家图书馆学刊 6
60 石婷婷; 徐建华; 张雨浓 数字孪生技术驱动下的智慧图书馆应用场景与体系架构设计 2021 情报理论与实践 7
63 卢小宾; 宋姬芳; 蒋玲; 洪先锋; 刘静; 张薷 智慧图书馆建设标准探析 2021 中国图书馆学报 9
81 程焕文; 钟远薪 智慧图书馆的三维解析 2021 图书馆论坛 10
86 段美珍; 初景利; 张冬荣; 解贺嘉 智慧图书馆的内涵特点及其认知模型研究 2021 图书情报工作 7
...
  1. 使用 Jupyter Notebook,可以自定义更多参数,导出描述性统计数据,请查看 demo.ipynb

字段说明

Field Name Description
GCS Global Citation Score, 表示一篇文献在文献数据库中的总被引次数
LCS Local Citation Score, 表示一篇文献在本地文献集中的被引次数
GCR Global Cited References, 表示一篇文献的参考文献数量
LCR Local Cited References, 表示一篇文献的参考文献在本地文献集中的数量
T* Total score, e.g. TLCS = Total Local Citation Scores.
Recs Count of Records
FAU First Author
CAU Corresponding Authors
AU Authors
CO Country of Authors
C1 Addresses
C3 Author Affiliations
RP Reprint Address
I2 Institution with Subdivision
TI Article Title
SO Source Title
DT Document Type
DE Author Keywords
CR Cited References
NR Cited Reference Count
TC Times Cited Count
PY Publication Year
VL Volume
IS Issue
BP Start Page
EP End Page
DI DOI
... Please refer to Web of Science fields.

FAQ

  1. 为什么生成的引文网络图时间线会错乱?
  • 节点位置由 Graphviz 自动调整,节点数量较少时容易出现这一问题。可以通过设置参数隐藏时间线。
  1. 是否存在其他类似的工具?

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

histcite_python-2.1.0.tar.gz (19.1 kB view hashes)

Uploaded Source

Built Distribution

histcite_python-2.1.0-py3-none-any.whl (16.6 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page