从维基百科抽取中文语料
Project description
txtcn_wiki
安装方法如下,请用 python3
pip install txtcn_wiki
使用有问题请到 github.com/txtcn/wiki 发帖。
从维基百科抽取中文语料
维基百科语料下载地址 : dumps.wikimedia.org/zhwiki
有很多链接,下载比如 https://dumps.wikimedia.org/zhwiki/20200701/zhwiki-20200701-pages-articles.xml.bz2
下载后运行类似如下的命令来抽取中文语料
txtcn_wiki /share/wiki/zhwiki-20200701-pages-articles.xml.bz2
小技巧:维基百科打包打包很大,但是不需要完全下载也可以运行以上命令(会报错,但能部分输出,方便开发)
会在bz2的同目录输出两个文件
- 条目正文:zhwiki-20200701-pages-articles.title.txt.zd
- 条目标题:zhwiki-20200701-pages-articles.txt.zd
这两个文件是Zstandard
压缩后的纯文本文件 ( 参见 Zstandard:一种新的无损压缩算法 )
使用本软件包附带的 zdcat
命令可以查看, 比如:
zdcat /share/wiki/zhwiki-20200701-pages-articles.title.txt.zd
在条目正文中,条目的标题以 "➜ " 开头。
在程序中读取zd
文件,可用如下方法(zd可以单独安装,比如pip install zd
,源码见gitee.com/znlp/zd)
import zd
with zd.open(
"/share/wiki/zhwiki-20200701-pages-articles.txt.zd"
) as f:
for i in f:
print(i)
特别感谢
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
txtcn_wiki-0.0.1.tar.gz
(2.9 kB
view hashes)
Built Distribution
Close
Hashes for txtcn_wiki-0.0.1-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 495074d96c5647af3f43f437e403ec156b00531b306b45b5b64c8bdb7b219881 |
|
MD5 | f16cee7b22ff1aae8441003ebfe09192 |
|
BLAKE2b-256 | 1e402c77231291453ffe44f91095d5e8d0304416e7646acc3afeb5aa91b114eb |