Skip to main content

Korean Text Processor

Project description

pyko

pyko[파이코]는 한국어 텍스트 처리를 위한 파이썬 라이브러리입니다. 자연어 처리에서 한국어가 갖는 독자적인 특징을 반영해 처리합니다.

설치

PyPI에 등록된 패키지를 다음과 같이 설치할 수 있습니다.

pip install pyko

세종말뭉치

세종말뭉치를 NLTK CorpusReader를 활용하는 것과 유사하게 활용할 수 있습니다. 세종말뭉치는 국립국어원 언어정보나눔터에서 획득할 수 있습니다.

사용예시:

from pyko.reader import SejongCorpusReader

세종말뭉치 = SejongCorpusReader(root, fileids)
파일목록 = 세종말뭉치.fileids()

형태분석목록 = 세종말뭉치.words(tagged=True)
print(형태분석목록)
"""
[('뭐', (('뭐', 'NP'),)), ('타고', (('타', 'VV'), ('고', 'EC'))), ('가?', (('가', 'VV'), ('ㅏ', 'EF'), ('?', 'SF'))), ('지하철.', (('지하철', 'NNG'), ('.', 'SF'))), ('기차?', (('기차', 'NNG'), ('?', 'SF'))), ('아침에', (('아침', 'NNG'), ('에', 'JKB'))), ...]
"""

형태분석문장목록 = 세종말뭉치.sents(tagged=True)
print(형태분석문장목록[0])
"""
[('뭐', (('뭐', 'NP'),)),
 ('타고', (('타', 'VV'), ('고', 'EC'))),
 ('가?', (('가', 'VV'), ('ㅏ', 'EF'), ('?', 'SF')))]
"""

형태소 분리 및 품사 예측

v0.4.0+

형태소 분석기는 딥러닝 기반의 카카오 형태소 분석기, kakao/khaiii를 내부적으로 활용합니다. 해당 패키지가 시스템에 설치된 것을 가정합니다.

모든 환경이 미리 설정된 도커(docker) 이미지를 활용하면 편리합니다.

pyko 도커 이미지: codebasic/pyko

도커 이미지 사용 예시

$ docker run -it codebasic/pyko

사용예시:

from pyko import tokenizer as 형태소_분석기

예문 = '한국어를 잘 처리하는지 궁금합니다.'

형태소목록 = 형태소_분석기.tokenize(예문)
print(형태소목록)
"""
['한국어', '를', '잘', '처리', '하', '는지', '궁금', '하', 'ㅂ니다', '.']
"""

형태분석결과 = 형태소_분석기.tokenize(예문, tagged=True)
print(형태분석결과)
"""
[('한국어', 'NNP'),
 ('를', 'JKO'),
 ('잘', 'MAG'),
 ('처리', 'NNG'),
 ('하', 'XSV'),
 ('는지', 'EC'),
 ('궁금', 'XR'),
 ('하', 'XSA'),
 ('ㅂ니다', 'EF'),
 ('.', 'SF')]
"""

NLTK 연동

말뭉치 관리를 위해 NLTK CourpusReader와 연동해서 사용할 수 있습니다.

사용예시:

from pyko import tokenizer as 형태소_분석기
from nltk.corpus import PlaintextCorpusReader

reader = PlaintextCorpusReader(root, fileids, word_tokenizer=형태소_분석기)
형태분석결과 = reader.words()
print(형태분석결과)
"""
['세종', '(', '世宗', ',', '1397', '년', '5', '월', '7', '일', '(', '음력', '4', '월', ...]
"""

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

pyko-0.4.2.tar.gz (4.3 kB view details)

Uploaded Source

Built Distribution

pyko-0.4.2-py3-none-any.whl (4.7 kB view details)

Uploaded Python 3

File details

Details for the file pyko-0.4.2.tar.gz.

File metadata

  • Download URL: pyko-0.4.2.tar.gz
  • Upload date:
  • Size: 4.3 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.22.0 setuptools/41.4.0 requests-toolbelt/0.9.1 tqdm/4.36.1 CPython/3.7.4

File hashes

Hashes for pyko-0.4.2.tar.gz
Algorithm Hash digest
SHA256 c37994e81ca19e92cf3512fe11fc43567fb6e4c9432d120f5191f8472d0c123d
MD5 502e960da4281b07bb860dafeb2eedee
BLAKE2b-256 d73b6f478656d908035286a788d267fc11c70d3e06de0f073e1db2b54e94fcf8

See more details on using hashes here.

File details

Details for the file pyko-0.4.2-py3-none-any.whl.

File metadata

  • Download URL: pyko-0.4.2-py3-none-any.whl
  • Upload date:
  • Size: 4.7 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.22.0 setuptools/41.4.0 requests-toolbelt/0.9.1 tqdm/4.36.1 CPython/3.7.4

File hashes

Hashes for pyko-0.4.2-py3-none-any.whl
Algorithm Hash digest
SHA256 df0b03b3cb1e1dd0b49556f259833dc0ccb8f91e30b1f025f5f28320f311b318
MD5 37c834983cc75de188bc33ac1f3444cb
BLAKE2b-256 51d2a6bc1469aec7138be138bf5f48af0a5288761dfb1d2318c24b8550234253

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page