No project description provided
Project description
# 中文文本字符集分析过滤工具
概要说明
UTF-8字符集分析过滤工具 CharsetFilter 版本: V 1.0.2 更新:xmxoxo 2020/3/12 GitHub地址: https://github.com/xmxoxo/CharsetFilter
工具说明:本工具把UTF8字符集分成了39个子集,可对文本文件中的字符集进行分析, 统计各类字符的总数以及出现的种类数。同时还可以方便地过滤或者保留的字符, 特别适合NLP等领域中对不可见字符的过滤分析等处理。
注: 被分析的文本文件需要是UTF8格式
使用案例说明:
分析文本字符集,输出简要信息
CharsetFilter --file ./111.txt
分析文本字符集,输出详细信息,详细信息会保存到 xxx_report.txt 文件中
CharsetFilter --file ./111.txt --detail 1
分析文本字符集,按默认值过滤(过滤 "尚未识别 0", "控制字符 3"),并保存过滤结果(自动命名)
CharsetFilter --file ./111.txt --filter 1
分析文本字符集,仅保留 1,2,36,39,并保存过滤结果(自动命名为 xxx_out.txt)
CharsetFilter --file ./111.txt --filter 1 --remain_charset 1 2 36 39
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
CharsetFilter-1.0.2.tar.gz
(6.6 kB
view hashes)
Built Distribution
Close
Hashes for CharsetFilter-1.0.2-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | ad8dd21086b6d94be02b968f00252f265320582fe5503057330fdaade7af8eeb |
|
MD5 | a7f02f88cce2ceea2f1ba481f50c9eaa |
|
BLAKE2b-256 | 861a9e4d60197c9a0523514be56a91af68eb1b38758afb35a53ffc891e821ed8 |