Skip to main content

A Python interface for histcite

Project description

HistCite工具的Python实现

PyPI Supported Versions License

由于原引文分析工具 HistCite 已停止维护,目前国内使用较多的为中科大某同学 (知乎昵称Tsing) 在源程序基础上修复的版本 HistCite Pro,仅适用于 Windows 平台,存在较大限制。借助 pandas 2.0 和可视化工具 Graphviz,本工具实现了 HistCite 的核心功能,可以跨平台使用,同时拓展了对其他数据源的支持。

核心功能:

  • 生成引文网络图;
  • 生成统计数据,包括文献、作者、机构、文献来源、作者关键词等分析对象;
  • 发现不在本地文献集中、但被本地文献集引用较多的文献,即本次文献获取过程忽略的重要文献;

工具对比:

对比项 histcite-python histcite pro
是否开源
是否跨平台 否,仅限 Windows
是否支持其他数据源 否,仅限 Web of Science
是否提供前端界面
引文网络图 矢量图,比较清晰 位图,比较模糊

快速开始

pip install histcite-python

数据准备

数据来源 下载说明
Web of Science 核心合集,格式选择 Tab delimited file/制表符分隔文件,导出内容选择 Full Record and Cited References/全记录与引用的参考文献 或者是 Custom selection/自定义选择项,全选字段。
CSSCI CSSCI数据库 正常导出即可。
Scopus 格式选择 CSV 文件,导出字段需要额外勾选 Author keywordsInclude references,或者直接全选字段。

[!WARNING]
在 Web of Science 和 Scopus 平台检索时须将检索结果语言限定为英文;
文件下载之后不要重命名(会根据文件名识别有效的题录数据文件),下载完成后放在一个单独的文件夹内。

使用方法

  1. 使用命令行工具
$ histcite -h
usage: histcite [-h] (--top TOP | --threshold THRESHOLD | --node NODE) [--disable_timeline] folder_path {wos,cssci,scopus}

A Python interface for histcite.

positional arguments:
  folder_path           Folder path of downloaded data.
  {wos,cssci,scopus}    Source type of data source.

options:
  -h, --help            show this help message and exit
  --top                 Top N nodes with the highest LCS.
  --threshold           Nodes with LCS greater than threshold.
  --disable_timeline    Whether to disable timeline.
$ histcite /Users/.../Downloads/dataset wos --top 100 --disable_timeline

[!NOTE]
生成的结果保存在 folder_path 下的 result 文件夹内,包含
① 描述统计表 descriptive_statistics.xlsx
② 引文网络图节点信息表 graph_node_info.xlsx
③ 引文网络图的数据文件 graph.dot
文件③可以使用 Graphviz在线编辑器 或下载到本地的 Graphviz工具 生成引文网络图。

引文网络图示例:

对应的节点信息如下(以CSSCI数据源为例,不同文献数据库的节点信息字段存在差异):

AU TI PY SO LCS
55 张坤; 查先进 我国智慧图书馆的发展沿革及构建策略研究 2021 国家图书馆学刊 6
60 石婷婷; 徐建华; 张雨浓 数字孪生技术驱动下的智慧图书馆应用场景与体系架构设计 2021 情报理论与实践 7
63 卢小宾; 宋姬芳; 蒋玲; 洪先锋; 刘静; 张薷 智慧图书馆建设标准探析 2021 中国图书馆学报 9
81 程焕文; 钟远薪 智慧图书馆的三维解析 2021 图书馆论坛 10
86 段美珍; 初景利; 张冬荣; 解贺嘉 智慧图书馆的内涵特点及其认知模型研究 2021 图书情报工作 7
...
  1. 使用Jupyter,比命令行更加灵活,可以自定义更多参数,查看 demo.ipynb

  2. API文档

字段说明

Field Name Description
GCS Global Citation Score, 表示一篇文献在文献数据库中的总被引次数
LCS Local Citation Score, 表示一篇文献在本地文献集中的被引次数
GCR Global Cited References, 表示一篇文献的参考文献数量
LCR Local Cited References, 表示一篇文献的参考文献在本地文献集中的数量
T* Total score, e.g. TLCS = Total Local Citation Scores.
Recs Count of Records
FAU First Author
AU Author
TI Title
SO Publication Name
DT Document Type
FU Funding Agency
CR Cited References
DE Author Keywords
C3 Affiliation
NR Cited Reference Count
TC Times Cited Count
J9 29-Character Source Abbreviation
PY Publication Year
VL Volume
IS Issue
BP Beginning Page
EP Ending Page
DI DOI
... Please refer to Web of Science fields.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

histcite-python-0.5.3.tar.gz (23.5 kB view hashes)

Uploaded Source

Built Distribution

histcite_python-0.5.3-py3-none-any.whl (21.8 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page