Korean Text Processor
Project description
pyko
pyko[파이코]는 한국어 텍스트 처리를 위한 파이썬 라이브러리입니다. 자연어 처리에서 한국어가 갖는 독자적인 특징을 반영해 처리합니다.
설치
PyPI에 등록된 패키지를 다음과 같이 설치할 수 있습니다.
pip install pyko
세종말뭉치
세종말뭉치를 NLTK CorpusReader를 활용하는 것과 유사하게 활용할 수 있습니다. 세종말뭉치는 국립국어원 언어정보나눔터에서 획득할 수 있습니다.
사용예시:
from pyko.reader import SejongCorpusReader
세종말뭉치 = SejongCorpusReader(root, fileids)
파일목록 = 세종말뭉치.fileids()
형태분석목록 = 세종말뭉치.words(tagged=True)
print(형태분석목록)
"""
[('뭐', (('뭐', 'NP'),)), ('타고', (('타', 'VV'), ('고', 'EC'))), ('가?', (('가', 'VV'), ('ㅏ', 'EF'), ('?', 'SF'))), ('지하철.', (('지하철', 'NNG'), ('.', 'SF'))), ('기차?', (('기차', 'NNG'), ('?', 'SF'))), ('아침에', (('아침', 'NNG'), ('에', 'JKB'))), ...]
"""
형태분석문장목록 = 세종말뭉치.sents(tagged=True)
print(형태분석문장목록[0])
"""
[('뭐', (('뭐', 'NP'),)),
('타고', (('타', 'VV'), ('고', 'EC'))),
('가?', (('가', 'VV'), ('ㅏ', 'EF'), ('?', 'SF')))]
"""
형태소 분리 및 품사 예측
v0.4.0+
형태소 분석기는 딥러닝 기반의 카카오 형태소 분석기, kakao/khaiii를 내부적으로 활용합니다. 해당 패키지가 시스템에 설치된 것을 가정합니다.
모든 환경이 미리 설정된 도커(docker) 이미지를 활용하면 편리합니다.
pyko 도커 이미지: codebasic/pyko
도커 이미지 사용 예시
$ docker run -it codebasic/pyko
사용예시:
from pyko import tokenizer as 형태소_분석기
예문 = '한국어를 잘 처리하는지 궁금합니다.'
형태소목록 = 형태소_분석기.tokenize(예문)
print(형태소목록)
"""
['한국어', '를', '잘', '처리', '하', '는지', '궁금', '하', 'ㅂ니다', '.']
"""
형태분석결과 = 형태소_분석기.tokenize(예문, tagged=True)
print(형태분석결과)
"""
[('한국어', 'NNP'),
('를', 'JKO'),
('잘', 'MAG'),
('처리', 'NNG'),
('하', 'XSV'),
('는지', 'EC'),
('궁금', 'XR'),
('하', 'XSA'),
('ㅂ니다', 'EF'),
('.', 'SF')]
"""
NLTK 연동
말뭉치 관리를 위해 NLTK CourpusReader와 연동해서 사용할 수 있습니다.
사용예시:
from pyko import tokenizer as 형태소_분석기
from nltk.corpus import PlaintextCorpusReader
reader = PlaintextCorpusReader(root, fileids, word_tokenizer=형태소_분석기)
형태분석결과 = reader.words()
print(형태분석결과)
"""
['세종', '(', '世宗', ',', '1397', '년', '5', '월', '7', '일', '(', '음력', '4', '월', ...]
"""
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
pyko-0.4.2.tar.gz
(4.3 kB
view details)
Built Distribution
pyko-0.4.2-py3-none-any.whl
(4.7 kB
view details)
File details
Details for the file pyko-0.4.2.tar.gz
.
File metadata
- Download URL: pyko-0.4.2.tar.gz
- Upload date:
- Size: 4.3 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.22.0 setuptools/41.4.0 requests-toolbelt/0.9.1 tqdm/4.36.1 CPython/3.7.4
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | c37994e81ca19e92cf3512fe11fc43567fb6e4c9432d120f5191f8472d0c123d |
|
MD5 | 502e960da4281b07bb860dafeb2eedee |
|
BLAKE2b-256 | d73b6f478656d908035286a788d267fc11c70d3e06de0f073e1db2b54e94fcf8 |
File details
Details for the file pyko-0.4.2-py3-none-any.whl
.
File metadata
- Download URL: pyko-0.4.2-py3-none-any.whl
- Upload date:
- Size: 4.7 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.22.0 setuptools/41.4.0 requests-toolbelt/0.9.1 tqdm/4.36.1 CPython/3.7.4
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | df0b03b3cb1e1dd0b49556f259833dc0ccb8f91e30b1f025f5f28320f311b318 |
|
MD5 | 37c834983cc75de188bc33ac1f3444cb |
|
BLAKE2b-256 | 51d2a6bc1469aec7138be138bf5f48af0a5288761dfb1d2318c24b8550234253 |