Skip to main content

phoneme toolkit

Project description

phkit

phkit

phoneme toolkit: 拼音相关的文本处理工具箱,中文和英文的语音合成前端文本解决方案。

安装

pip install -U phkit

版本

v0.2.10

pinyinkit

文本转拼音的模块,依赖python-pinyin,jieba,phrase-pinyin-data模块。

chinese

适用于中文、英文和中英混合的音素,其中汉字拼音采用清华大学的音素,英文字符分字母和英文。

  • 中文音素简介:
声母:
aa b c ch d ee f g h ii j k l m n oo p q r s sh t uu vv x z zh

韵母:
a ai an ang ao e ei en eng er i ia ian iang iao ie in ing iong iu ix iy iz o ong ou u ua uai uan uang ueng ui un uo v van ve vn ng uong

声调:
1 2 3 4 5

字母:
Aa Bb Cc Dd Ee Ff Gg Hh Ii Jj Kk Ll Mm Nn Oo Pp Qq Rr Ss Tt Uu Vv Ww Xx Yy Zz

英文:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

标点:
! ? . , ; : " # ( )
注:!=!!|?=??|.=.。|,=,,、|;=;;|:=::|"=""“”''‘’|#=#  	|(=(([[{{【<《|)=))]]}}】>》

预留:
w y 0 6 7 8 9
注:w=%|y=$|0=0|6=6|7=7|8=8|9=9

其他:
_ ~  - *

symbol

音素标记。 中文音素,简单英文音素,简单中文音素。

sequence

转为序列的方法,文本转为音素列表,文本转为ID列表。

拼音变调,拼音转音素。

pinyin

转为拼音的方法,汉字转拼音,分离声调。

拼音为字母+数字形式,例如pin1。

phoneme

音素映射表。

不带声调拼音转为音素,声调转音素,英文字母转音素,标点转音素。

number

数字读法。

按数值大小读,一个一个数字读。

convert

文本转换。

全角半角转换,简体繁体转换。

style

拼音格式转换。

国标样式的拼音和字母数字的样式的拼音相互转换。

english

from https://github.com/keithito/tacotron " Cleaners are transformations that run over the input text at both training and eval time.

Cleaners can be selected by passing a comma-delimited list of cleaner names as the "cleaners" hyperparameter. Some cleaners are English-specific. You'll typically want to use:

  1. "english_cleaners" for English text
  2. "transliteration_cleaners" for non-English text that can be transliterated to ASCII using the Unidecode library (https://pypi.python.org/pypi/Unidecode)
  3. "basic_cleaners" if you do not want to transliterate (in this case, you should also update the symbols in symbols.py to match your data).

历史版本

v0.2.10

  • 增加由音素逆变换回拼音的方法。
  • 规范为一个字符对应于音素的一个连接符,每个字符转的音素后添加一个连接符。

v0.2.9

  • text_to_sequence的pinyin模式不变调。
  • 增加文本正则化的数字转为中文。
  • english的增加常见单词的CMU词典。
  • pinyinkit文字转拼音默认轻声用5表示,例如pin5。

v0.2.8

  • 文本转拼音轻声用5表示音调。
  • 文本转拼音确保文本和拼音一一对应,文本长度和拼音列表长度相同。
  • 增加拼音格式转换,国标格式和字母数字格式相互转换。

v0.2.7

  • 所有中文音素都能被映射到。

v0.2.5

  • 修正拼音转音素的潜在bug。

v0.2.4

  • 修正几个默认拼音。

v0.2.3

  • 汉字转拼音轻量化。
  • 词语拼音词典去除全都是默认拼音的词语。

v0.2.2

  • 修正安装依赖报错问题。

v0.2.1

  • 增加中文的text_to_sequence方法,可替换英文版本应对中文环境。
  • 兼容v0.1.0(含)之前版本需要在python3.7(含)版本以上,否则请改为从phkit.chinese导入模块。

v0.2.0

  • 增加文本转拼音的模块,依赖python-pinyin,jieba,phrase-pinyin-data模块。
  • 中文的音素方案移动到chinese模块。

v0.1.0

  • 增加英文版本的音素方案,包括英文字母和英文音素。
  • 增加简单的数字转中文的方法。

todo

文本正则化处理
数字读法
字符读法
常见规则读法

文本转拼音
pypinyin
国标和alnum转换

anything转音素
字符
英文
汉字
OOV

进阶:
分词
命名实体识别
依存句法分析

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Files for phkit, version 0.2.10
Filename, size File type Python version Upload date Hashes
Filename, size phkit-0.2.10-py3-none-any.whl (800.8 kB) File type Wheel Python version py3 Upload date Hashes View

Supported by

AWS AWS Cloud computing Datadog Datadog Monitoring DigiCert DigiCert EV certificate Facebook / Instagram Facebook / Instagram PSF Sponsor Fastly Fastly CDN Google Google Object Storage and Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Salesforce Salesforce PSF Sponsor Sentry Sentry Error logging StatusPage StatusPage Status page