Skip to main content

臺灣語言服務

Project description

# Huē-ji̍p
[![PyPI version](https://badge.fury.io/py/hue7jip8.svg)](https://badge.fury.io/py/hue7jip8)
[![Build Status](https://travis-ci.org/Taiwanese-Corpus/hue7jip8.svg?branch=master)](https://travis-ci.org/Taiwanese-Corpus/hue7jip8)
[![Coverage Status](https://coveralls.io/repos/github/Taiwanese-Corpus/hue7jip8/badge.svg?branch=master)](https://coveralls.io/github/Taiwanese-Corpus/hue7jip8?branch=master)

匯入語料專案,目前語料都放在[Taiwanese-Corpus Github](https://github.com/Taiwanese-Corpus),各專案詳細內容請洽各專案README。

會當參考服務的[文件](https://github.com/sih4sing5hong5/tai5-uan5_gian5-gi2_hok8-bu7/wiki/%E5%BF%AB%E9%80%9F%E8%AA%AA%E6%98%8E#%E8%A8%93%E7%B7%B4%E8%AA%9E%E9%9F%B3%E5%90%88%E6%88%90%E6%A8%A1%E5%9E%8B)

## 台語

### [臺灣閩南語常用詞辭典-詞條](http://twblg.dict.edu.tw/holodict_new/index.htm)
- 形式:全漢、全羅
- 句數:28830(2018/07/18)
- 語料:[Github](https://github.com/g0v/moedict-data-twblg/tree/master/uni)
```
python manage.py 教典詞條
```

### [臺灣閩南語常用詞辭典-例句](http://twblg.dict.edu.tw/holodict_new/index.htm)
- 形式:全漢、全羅
- 句數:13835(2018/07/05)
- 語料:[Github](https://github.com/g0v/moedict-data-twblg/tree/master/uni)
```
python manage.py 教典例句
```

### [TGB通訊](http://taioanchouhap.pixnet.net/blog)
- 形式:漢羅、華語平行語料
- 句數:35017(2018/07/05)
- 語料:[Github](https://github.com/sih4sing5hong5/huan1-ik8_gian2-kiu3#%E6%8F%90%E8%91%97tgb%E5%B9%B3%E8%A1%8C%E8%AA%9E%E6%96%99)
```
python manage.py TGB通訊
```

### [iCorpus台華平行新聞語料庫](http://icorpus.iis.sinica.edu.tw/)
- 形式:全羅、華語平行語料
- 句數:83544(2018/07/05)
- 語料:[Github](https://github.com/sih4sing5hong5/icorpus)
```bash
python manage.py icorpus臺華平行新聞語料庫
```

### [教育部詞彙分級計劃](https://詞彙分級.意傳.台灣/)
- 形式:全漢、全羅
- 句數:61354句(2018/07/05)
- 語料:[API](https://詞彙分級資料庫.意傳.台灣/匯出資料庫)
```
python manage.py 詞彙分級
```

### [台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計](http://ip194097.ntcu.edu.tw/giankiu/keoe/KKH/guliau-supin/guliau-supin.asp)
- 形式:漢羅抑是全羅
- 段數:193071段, 其中漢羅128505段、全羅64566段(2018/07/24)
- 語料:[Github](https://github.com/Taiwanese-Corpus/Ungian_2005_guliau-supin)
```
python manage.py 台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計
```

### [台語文數位典藏資料庫](https://github.com/Taiwanese-Corpus/nmtl_2006_dadwt)
- 形式:漢羅、全羅
- 段數:67005段,其中62246段對會齊,4759段無法度對齊就用羅馬字(2018/07/30)
- 語料:[Github](https://github.com/Taiwanese-Corpus/nmtl_2006_dadwt)
```
python manage.py 台語文數位典藏資料庫
```

### [教育部臺灣閩南語字詞頻調查工作](http://ip194097.ntcu.edu.tw/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp)
- 形式:漢羅、全羅
- 段數:59300段,其中53593段對會齊,5707段無法度對齊就用羅馬字(2018/07/24)
- 語料:[Github](https://github.com/Taiwanese-Corpus/Ungian_2009_KIPsupin)
```
python manage.py 教育部臺灣閩南語字詞頻調查工作
```

### [白話字文獻館](http://pojbh.lib.ntnu.edu.tw)
- 形式:漢羅、全羅
- 段數:43493段,其中31195段對會齊,12298段無法度對齊就用羅馬字(2018/07/31)
- 語料:[Github](https://github.com/Taiwanese-Corpus/Khin-hoan_2010_pojbh)
```
python manage.py 白話字文獻館
```

### [台灣植物名彙](http://ip194097.ntcu.edu.tw/memory/TGB/thak.asp?id=59&page=4)
- 形式:羅馬字、華語漢字
- 句數:354詞(2018/07/24)
- 語料:[Github](https://github.com/Taiwanese-Corpus/Syuniti-Sasaki_1928_List-of-Plants-of-Formosa)
```
python manage.py 台灣植物名彙
```


### [台灣白話基礎語句](http://ip194097.ntcu.edu.tw/memory/TGB/thak.asp?id=862)
- 形式:羅馬字、華語漢字
- 句數:61354詞翻譯對照(2018/07/24)
- 語料:[Github](https://github.com/Taiwanese-Corpus/Ko-Chek-hoan-Tan-Pang-tin_1956_Basic-Vocabulary-for-Colloquial-Taiwanese)
```
python manage.py 台灣白話基礎語句
```


### 服務文件
## 族語
### [族語辭典](https://github.com/thewayiam/ami_dict_crawler)
```
python manage.py 族語辭典0下載 Pangcah # 完整匯入。較慢,愛五六工
# python manage.py 族語辭典0下載 Pangcah --下載幾筆 10 # 匯入10筆就好,試驗用
python manage.py 族語辭典1轉檔 Pangcah
python manage.py 族語辭典2匯入 Pangcah
```
語言代碼請[參考程式](https://github.com/sih4sing5hong5/hue7jip8/blob/master/%E5%8C%AF%E5%85%A5%E5%88%B0%E8%87%BA%E7%81%A3%E8%A8%80%E8%AA%9E%E8%B3%87%E6%96%99%E5%BA%AB/%E6%97%8F%E8%AA%9E%E8%BE%AD%E5%85%B8.py#L1)。下載好的[音檔](https://www.dropbox.com/s/68ot9f8lhjoa9pb/%E6%97%8F%E8%AA%9E%E8%BE%AD%E5%85%B8.tar?dl=0)在這。

## 台語
### 教典詞條音檔
- 形式:全漢、全羅
- 詞數:
- 語者:王秀容
```
python manage.py 教典音檔0下載 dropbox # 20160926掠的版本
# python manage.py 教典音檔0下載 官網沓沓掠 # 較慢,愛一工
python manage.py 教典音檔1轉檔 # 轉全部mp3音檔做16000Hz的wav
# python manage.py 教典音檔1轉檔 --匯入幾筆 100 # 轉100筆就好,試驗用
python manage.py 教典音檔2匯入 # 完整匯入
# python manage.py 教典音檔2匯入 --匯入幾筆 100 # 匯入100筆就好,試驗用
```

### [新北市900例句](https://github.com/Taiwanese-Corpus/Sin1pak8tshi7_2015_900-le7ku3)
- 形式:全漢、全羅
- 句數:150句
- 語者:王秀容
```
python manage.py 新北市900例句 --頻率 16000 # 原始音檔頻率44100Hz
```
準做欲用秀容老師的聲,請配合教典做伙用,無訓練會[產生錯誤](https://github.com/sih4sing5hong5/hue7jip8/pull/7#issuecomment-298552263)


### [台文/華文線頂辭典](https://github.com/Taiwanese-Corpus/Tinn-liong-ui_2000_taihoa-dictionary)
形式:台華英辭典
詞數:
```
python manage.py 台華辭典
```

### [臺灣閩南語卡拉OK正字字表](https://github.com/Taiwanese-Corpus/moe_minkalaok)
* pdf→純文字→臺灣言語資料庫yaml
* 臺語→臺語
```bash
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moe_minkalaok/閩南語卡拉OK正字字表.yaml
```

### [iCorpus台華平行新聞語料庫漢字臺羅版](https://github.com/Taiwanese-Corpus/icorpus_ka1_han3-ji7)
* 純文字→臺灣言語資料庫yaml
* 白話字→全漢全羅
```bash
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/icorpus_ka1_han3-ji7/臺華平行新聞語料庫.yaml
```

### [咱的字你敢捌-台語漢字](https://github.com/Taiwanese-Corpus/Linya-Huang_2014_taiwanesecharacters)
* html→臺灣言語資料庫yaml
* 臺語→臺語
* 988筆文本資料
```bash
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/Linya-Huang_2014_taiwanesecharacters/咱的字你敢捌.yaml
```


### [臺語國校仔課本](https://github.com/Taiwanese-Corpus/kok4hau7-kho3pun2)
* 允言整理過的doc→json→臺灣言語資料庫yaml
* 全漢全羅
0* `https://taiwanese-corpus.github.io/kok4hau7-kho3pun2/臺語國校仔課本.yaml`

### [新約聖經語料](https://github.com/Taiwanese-Corpus/Pakhelke-1916_KoTan-1975_hiantaiekpun-2008_taiwanese-bible)
* 允言整理過的doc→json→臺灣言語資料庫yaml
* 全漢全羅
* `https://Taiwanese-Corpus.github.io/Pakhelke-1916_KoTan-1975_hiantaiekpun-2008_taiwanese-bible/新約聖經語料.yaml`

### 猶未整理
遮的語料攏猶未提供臺灣言語資料庫yaml格式,毋過大部份攏好處理。語料專案照處理方法排:%8F%E8%B3%87%E6%96%99%E5%BA%AB.yaml`
* [荷華文語類參](https://github.com/Taiwanese-Corpus/Schlegel-Gustave_1886_Nederlandsch-Chineesch-Woordenboek)
* xls
* [厦荷詞典](https://github.com/Taiwanese-Corpus/J.-J.-C.-Francken_C.-F.-M.-de-Grijs_1882_Chineesch-Hollandsch_woordenboek-van-het-Emoi-dialekt)
* xls
* [駱嘉鵬老師華語臺語客語文件-字典、對應表](https://github.com/Taiwanese-Corpus/Loh_2004_hanyu-document)
* xls
* [Embree台英辭典](https://github.com/Taiwanese-Corpus/Bernard-L.M.-Embree_1973_A-Dictionary-of-Southern-Min)
* xls
* [廈英大辭典](https://github.com/Taiwanese-Corpus/Carstairs-Douglas_1873_chinese-english-dictionary)
* doc→csv
* [台日大辭典台語譯本](https://github.com/Taiwanese-Corpus/Ogawa-Naoyoshi_1931-1932)
* sql→csv
* [吳守禮《國臺對照活用辭典》電子化](https://github.com/Taiwanese-Corpus/koktai)
* 專案內,有parser會當轉做jade格式
* [華台語文對譯](https://github.com/Taiwanese-Corpus/Ungian_hoatai-courses)
* html+xls+pdf
* (華語→)臺語
* [猶未整理的語料](https://github.com/Taiwanese-Corpus/unclassified_corpus)
* csv、xls…
* [網路語料](https://github.com/Taiwanese-Corpus/internet_corpus)

## 客家話
### [教育部臺灣客家語常用詞辭典](https://github.com/Taiwanese-Corpus/moedict-data-hakka/tree/%E8%BD%89%E5%88%B0%E8%87%BA%E7%81%A3%E8%A8%80%E8%AA%9E%E8%B3%87%E6%96%99%E5%BA%AB/%E8%BD%89%E5%88%B0%E8%87%BA%E7%81%A3%E8%A8%80%E8%AA%9E%E8%B3%87%E6%96%99%E5%BA%AB)
```bash
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moedict-data-hakka/臺灣客家語常用詞辭典網路版語料.yaml
```

### [客語能力認證資料檔](https://github.com/Taiwanese-Corpus/hakka_elearning)
```bash
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/hakka_elearning/臺灣客話詞彙資料庫語料.yaml
```

### 猶未整理
* [天光客語辭典](https://github.com/Taiwanese-Corpus/moedict-data-tiengong)

## 族語
### [族語E樂園](https://github.com/Taiwanese-Corpus/moedict-data-twblg/tree/gh-pages/%E8%BD%89%E5%88%B0%E8%87%BA%E7%81%A3%E8%A8%80%E8%AA%9E%E8%B3%87%E6%96%99%E5%BA%AB)
```bash
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/klokah_data_extract/族語E樂園.yaml
```

### [阿美語方敏英字典Virginia Fey's Amis Dictionary](https://github.com/Taiwanese-Corpus/amis-data)
```bash
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/amis-data/dict-amis.yaml
```

### 猶未整理
* [原住民族語言線上詞典](http://e-dictionary.apc.gov.tw/Index.htm)
* [Dictionnaire Amis-Français](https://github.com/Taiwanese-Corpus/amis-francais)
* [蔡中涵委員阿美語字典](https://github.com/Taiwanese-Corpus/amis-safolu)
* [噶哈巫語分類辭典](https://github.com/Taiwanese-Corpus/kaxabu-muwalak-misa-a-ahan-bizu)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Filename, size & hash SHA256 hash help File type Python version Upload date
hue7jip8-0.1.1.zip (345.7 kB) Copy SHA256 hash SHA256 Source None

Supported by

Elastic Elastic Search Pingdom Pingdom Monitoring Google Google BigQuery Sentry Sentry Error logging AWS AWS Cloud computing DataDog DataDog Monitoring Fastly Fastly CDN SignalFx SignalFx Supporter DigiCert DigiCert EV certificate StatusPage StatusPage Status page