A Python interface for histcite
Project description
HistCite工具的Python实现
由于原引文分析工具 HistCite 已停止维护,目前国内普遍使用的为中科大某位同学在原程序基础上进行修复的版本 HistCite Pro,仅能在 Windows
平台上运行,存在诸多限制。借助 pandas 2.0 和可视化工具 Graphviz,本工具复刻了原 HistCite
的大部分功能,同时拓展了对其他数据源的支持,可以跨平台使用。
最近更新:
v0.4.0
实现对参考文献信息元的完整解析;v0.3.0
增加了对Scopus
数据库题录数据的支持;v0.2.0
增加了对CSSCI
数据库题录数据的支持;
核心功能:
- 生成引文网络图;
- 生成统计数据,包括文献、作者、机构、文献来源、作者关键词等分析对象;
- 发现不在本地文献集中、但被本地文献集引用较多的文献,即本次文献获取过程忽略的重要文献;
术语说明:
GCS
,Global Citation Score, 表示一篇文献在文献数据库中的总被引次数;LCS
,Local Citation Score,表示一篇文献在本地论文集中的被引次数;GCR
,Global Cited References,表示一篇文献所有参考文献的数量;LCR
,Local Cited References,表示一篇文献所有本地参考文献的数量;T*
,Total,表示给定作者、机构、期刊等相应分数之和。例如TLCS
= 总本地引文数;Recs
,记录数;Web of Science
题录数据 字段说明;- 其他来源的题录数据会沿用
Web of Science
的字段命名格式;
工具对比:
对比项 | histcite-python | histcite pro |
---|---|---|
是否开源 | 是 | 否 |
是否跨平台 | 是 | 否,仅限 Windows |
是否支持其他数据源 | 是 | 否,仅限 Web of Science |
是否提供前端界面 | 否 | 是 |
引文网络图 | 矢量图,比较清晰 | 位图,比较模糊 |
快速开始
# 需要 Python3.8 或以上版本
pip install histcite-python
数据准备
数据来源 | 下载说明 |
---|---|
Web of Science |
核心合集 ,格式选择 Tab delimited file/制表符分隔文件 ,导出内容选择 Full Record and Cited References/全记录与引用的参考文献 或者是 Custome selection/自定义选择项 ,全选字段。 |
CSSCI |
从 CSSCI数据库 正常导出即可。 |
Scopus |
格式选择 CSV 文件,导出字段需要额外勾选 Author keywords 和 Include references ,或者直接全选字段。 |
⚠️ 在 Web of Science 和 Scopus 平台检索时须将检索结果语言限定为英文;
⚠️ 文件下载之后不要重命名(会根据文件名识别有效的题录数据文件),下载完成后放在一个单独的文件夹内。
使用方法
1、使用命令行工具,可用参数如下:
参数 | 说明 | |
---|---|---|
-f | --folder_path | 下载的题录数据存放的文件夹路径,必须指定 |
-t | --source_type | 题录数据来源,可选 wos 、cssci 、scopus ,必须指定 |
-n | --node_num | LCS 最高的N个文献节点,默认为 50 ,参看QA1 |
$ 假设文件夹路径为/Users/.../Downloads/dataset,来源为web of science, 节点数量设置为100
$ histcite -f /Users/.../Downloads/dataset -t wos -n 100
$ 或者是
$ histcite --folder_path /Users/.../Downloads/dataset --source_type wos --node_num 100
注:生成的结果保存在 folder_path
下的 result
文件夹内,包含 ①描述统计表descriptive_statistics.xlsx, ②引文网络图节点信息表graph_node_info.xlsx, ③引文网络图的数据文件graph.dot 三个文件,③可以使用 Graphviz在线编辑器 或下载到本地的 Graphviz工具 生成引文网络图。
引文网络图示例:
对应的节点信息如下:
AU | TI | PY | SO | LCS | |
---|---|---|---|---|---|
55 | 张坤; 查先进 | 我国智慧图书馆的发展沿革及构建策略研究 | 2021 | 国家图书馆学刊 | 6 |
60 | 石婷婷; 徐建华; 张雨浓 | 数字孪生技术驱动下的智慧图书馆应用场景与体系架构设计 | 2021 | 情报理论与实践 | 7 |
63 | 卢小宾; 宋姬芳; 蒋玲; 洪先锋; 刘静; 张薷 | 智慧图书馆建设标准探析 | 2021 | 中国图书馆学报 | 9 |
81 | 程焕文; 钟远薪 | 智慧图书馆的三维解析 | 2021 | 图书馆论坛 | 10 |
86 | 段美珍; 初景利; 张冬荣; 解贺嘉 | 智慧图书馆的内涵特点及其认知模型研究 | 2021 | 图书情报工作 | 7 |
... |
2、函数调用,相比命令行工具会更加灵活,可以自定义更多参数,查看 demo.ipynb
3、其他API接口(待更新)
实现细节
Web of Science | CSSCI | Scopus | |
---|---|---|---|
如何识别引文关系 | 如果存在 DOI ,则优先使用 DOI 进行匹配;否则通过 一作 、发表年份 、文献来源 、开始页 进行判断 |
通过 一作 和 题名 进行判断 |
通过 一作 和 题名 进行判断 |
如何去重 | 根据 UT 入藏号进行去重 |
根据 一作 和 题名 字段进行去重 |
根据 EID 字段进行去重 |
Q&A
1、为什么选取 LSC
最高的100篇文献,但是引文网络图及图节点文件中的节点数量少于100?
答:考虑到实用性和美观性,程序会自动忽略没有边的节点。即这些选中的文献没有引用其他选中的文献,或被这些文献引用。
2、每次必须指定一种数据库来源吗?
答:是的。不同来源数据库的参考文献字段包含的内容不同,解析方式不同,引文识别方式也不同,需要单独处理。
3、为什么不支持 CNKI
、PubMed
等数据库的题录数据?
答:无法导出参考文献或引文字段信息,也就无法识别引文关系。如果需要支持其他数据库,欢迎提交issue。
TODO
- 支持
CSSCI
题录数据 - 支持
Scopus
题录数据
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for histcite_python-0.4.0-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | f3ebfc9698c7e8ebc58a6bf999df3af22f47f214b9d3dfcb5643afcb738bb8fd |
|
MD5 | 9fc8b6498dbf7a5822eb23898752b379 |
|
BLAKE2b-256 | 157a46e82da347c1ff7efd27a6a162b16da152270526472a142de85d1a5444ef |