匯入臺灣語料
Project description
Huē-ji̍p
匯入語料專案,目前語料都放在Taiwanese-Corpus Github,各專案詳細內容請洽各專案README。
會當參考服務的文件
台語
臺灣閩南語常用詞辭典-詞條
- 形式:全漢、全羅
- 句數:28830(2018/07/18)
- 語料:Github
python manage.py 教典詞條
臺灣閩南語常用詞辭典-例句
- 形式:全漢、全羅
- 句數:13835(2018/07/05)
- 語料:Github
python manage.py 教典例句
TGB通訊
- 形式:漢羅、華語平行語料
- 句數:35017(2018/07/05)
- 語料:Github
python manage.py TGB通訊
iCorpus台華平行新聞語料庫
- 形式:全羅、華語平行語料
- 句數:83544(2018/07/05)
- 語料:Github
python manage.py icorpus臺華平行新聞語料庫
教育部詞彙分級計劃
- 形式:全漢、全羅
- 句數:61354句(2018/07/05)
- 語料:API
python manage.py 詞彙分級
台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計
- 形式:漢羅抑是全羅
- 段數:193071段, 其中漢羅128505段、全羅64566段(2018/07/24)
- 語料:Github
python manage.py 台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計
台語文數位典藏資料庫
- 形式:漢羅、全羅
- 段數:67005段,其中62246段對會齊,4759段無法度對齊就用羅馬字(2018/07/30)
- 語料:Github
python manage.py 台語文數位典藏資料庫
教育部臺灣閩南語字詞頻調查工作
- 形式:漢羅、全羅
- 段數:59300段,其中53593段對會齊,5707段無法度對齊就用羅馬字(2018/07/24)
- 語料:Github
python manage.py 教育部臺灣閩南語字詞頻調查工作
白話字文獻館
- 形式:漢羅、全羅
- 段數:43493段,其中31195段對會齊,12298段無法度對齊就用羅馬字(2018/07/31)
- 語料:Github
python manage.py 白話字文獻館
台灣植物名彙
- 形式:羅馬字、華語漢字
- 句數:354詞(2018/07/24)
- 語料:Github
python manage.py 台灣植物名彙
台灣白話基礎語句
- 形式:羅馬字、華語漢字
- 句數:61354詞翻譯對照(2018/07/24)
- 語料:Github
python manage.py 台灣白話基礎語句
服務文件
族語
族語辭典
python manage.py 族語辭典0下載 Pangcah # 完整匯入。較慢,愛五六工
# python manage.py 族語辭典0下載 Pangcah --下載幾筆 10 # 匯入10筆就好,試驗用
python manage.py 族語辭典1轉檔 Pangcah
python manage.py 族語辭典2匯入 Pangcah
台語
教典詞條音檔
- 形式:全漢、全羅
- 詞數:
- 語者:王秀容
python manage.py 教典音檔0下載 dropbox # 20160926掠的版本
# python manage.py 教典音檔0下載 官網沓沓掠 # 較慢,愛一工
python manage.py 教典音檔1轉檔 # 轉全部mp3音檔做16000Hz的wav
# python manage.py 教典音檔1轉檔 --匯入幾筆 100 # 轉100筆就好,試驗用
python manage.py 教典音檔2匯入 # 完整匯入
# python manage.py 教典音檔2匯入 --匯入幾筆 100 # 匯入100筆就好,試驗用
新北市900例句
- 形式:全漢、全羅
- 句數:150句
- 語者:王秀容
python manage.py 新北市900例句 --頻率 16000 # 原始音檔頻率44100Hz
準做欲用秀容老師的聲,請配合教典做伙用,無訓練會產生錯誤
台文/華文線頂辭典
形式:台華英辭典 詞數:
python manage.py 台華辭典
臺灣閩南語卡拉OK正字字表
- pdf→純文字→臺灣言語資料庫yaml
- 臺語→臺語
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moe_minkalaok/閩南語卡拉OK正字字表.yaml
iCorpus台華平行新聞語料庫漢字臺羅版
- 純文字→臺灣言語資料庫yaml
- 白話字→全漢全羅
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/icorpus_ka1_han3-ji7/臺華平行新聞語料庫.yaml
咱的字你敢捌-台語漢字
- html→臺灣言語資料庫yaml
- 臺語→臺語
- 988筆文本資料
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/Linya-Huang_2014_taiwanesecharacters/咱的字你敢捌.yaml
臺語國校仔課本
- 允言整理過的doc→json→臺灣言語資料庫yaml
- 全漢全羅
0*
https://taiwanese-corpus.github.io/kok4hau7-kho3pun2/臺語國校仔課本.yaml
新約聖經語料
- 允言整理過的doc→json→臺灣言語資料庫yaml
- 全漢全羅
https://Taiwanese-Corpus.github.io/Pakhelke-1916_KoTan-1975_hiantaiekpun-2008_taiwanese-bible/新約聖經語料.yaml
猶未整理
遮的語料攏猶未提供臺灣言語資料庫yaml格式,毋過大部份攏好處理。語料專案照處理方法排:%8F%E8%B3%87%E6%96%99%E5%BA%AB.yaml`
- 荷華文語類參
- xls
- 厦荷詞典
- xls
- 駱嘉鵬老師華語臺語客語文件-字典、對應表
- xls
- Embree台英辭典
- xls
- 廈英大辭典
- doc→csv
- 台日大辭典台語譯本
- sql→csv
- 吳守禮《國臺對照活用辭典》電子化
- 專案內,有parser會當轉做jade格式
- 華台語文對譯
- html+xls+pdf
- (華語→)臺語
- 猶未整理的語料
- csv、xls…
- 網路語料
客家話
教育部臺灣客家語常用詞辭典
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moedict-data-hakka/臺灣客家語常用詞辭典網路版語料.yaml
客語能力認證資料檔
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/hakka_elearning/臺灣客話詞彙資料庫語料.yaml
猶未整理
族語
族語E樂園
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/klokah_data_extract/族語E樂園.yaml
阿美語方敏英字典Virginia Fey's Amis Dictionary
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/amis-data/dict-amis.yaml
猶未整理
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
hue7jip8-0.1.2.zip
(351.9 kB
view details)
File details
Details for the file hue7jip8-0.1.2.zip
.
File metadata
- Download URL: hue7jip8-0.1.2.zip
- Upload date:
- Size: 351.9 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/1.13.0 pkginfo/1.5.0.1 requests/2.21.0 setuptools/41.0.1 requests-toolbelt/0.9.1 tqdm/4.32.1 CPython/3.7.1
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 34c07c1886d0989cee52011b137069866484e6e6c8b997ba0e370f421b3f7a82 |
|
MD5 | e6157847fb243113bd8a19449d1a7ce2 |
|
BLAKE2b-256 | f56454deb49795501f5821d2d2d97aee24d789633e6a9803bc86fae6620b37ca |