Python wrapper for KoalaNLP
Project description
KoalaNLP (Python3 Support)
소개
한국어 형태소 및 구문 분석기의 모음인, KoalaNLP의 Python 판본입니다.
이 프로젝트는 서로 다른 형태의 형태소 분석기를 모아, 동일한 인터페이스 아래에서 사용할 수 있도록 하는 것이 목적입니다.
KAIST의 한나눔 형태소 분석기와 NLP_HUB 구문분석기
서울대의 꼬꼬마 형태소/구문 분석기 v2.1
Shineware의 코모란 v3.3.4
OpenKoreanText의 오픈 소스 한국어 처리기 v2.2.0 (구 Twitter 한국어 분석기)
은전한닢 프로젝트의 SEunjeon(S은전) (Mecab-ko의 Scala/Java 판본)
이수명님의 Arirang Morpheme Analyzer (주1-1)
최석재님의 RHINO v2.5.4
김상준님의 Daon 분석기
ETRI의 공공 인공지능 Open API
주1-1 Arirang 분석기의 출력을 형태소분석에 적합하게 조금 다듬었으므로, 원본과 약간 다른 결과를 낼 수도 있습니다.
KoalaNLP의 Contributor가 되고 싶으시다면, 언제든지 Issue에 등록해주십시오. 또한, 추가하고자 하는 새로운 프로젝트가 있으시면, Issue에 등록해주십시오.
사용방법
특징
KoalaNLP는 다음과 같은 특징을 가지고 있습니다.
복잡한 설정이 필요없는 텍스트 분석:
모델은 자동으로 Maven으로 배포되기 때문에, 각 모델을 별도로 설치할 필요가 없습니다.
코드 2~3 줄로 수행하는 텍스트 처리:
모델마다 다른 복잡한 설정 과정, 초기화 과정은 필요하지 않습니다. Dependency에 추가하고, 객체를 생성하고, 분석 메소드를 호출하는 3줄이면 끝납니다.
모델에 상관 없는 동일한 코드, 동일한 결과:
모델마다 실행 방법, 실행 결과를 표현하는 형태가 다릅니다. KoalaNLP는 이를 정부 및 관계기관의 표준안에 따라 표준화합니다. 따라서 모델에 독립적으로 응용 프로그램 개발이 가능합니다.
KoalaNLP는 여러 프로그래밍 언어에서 사용할 수 있습니다. 어디서 개발을 하더라도 크게 코드가 다르지 않습니다.
License 조항
이 프로젝트 자체(KoalaNLP-core)와 인터페이스 통합을 위한 코드는 소스코드에 저작권 귀속에 대한 별도 지시사항이 없는 한 v1.8.0부터 *MIT License*을 따르며, 원본 분석기의 License와 저작권은 각 저작권자가 지정한 바를 따릅니다.
단, GPL의 저작권 조항에 따라, GPL 하에서 이용이 허가되는 패키지들의 저작권은 해당 저작권 규정을 따릅니다.
Hannanum 및 NLP_HUB: GPL v3
KKMA: GPL v2 (GPL v2를 따르지 않더라도, 상업적 이용시 별도 협의 가능)
KOMORAN 3.x: Apache License 2.0
Open Korean Text: Apache License 2.0
SEunjeon: Apache License 2.0
아리랑: Apache License 2.0
RHINO: GPL v3 (참고: 다운로드 위치별로 조항 상이함)
Daon: 지정된 조항 없음
ETRI: 별도 API 키 발급 동의 필요
사용법
Dependency 추가
우선 Java JDK 8 이상을 설치하고, JDK의 설치 위치를 JAVA_HOME으로 하여 환경변수에 등록해주십시오. 그런 다음, 아래와 같이 설치하십시오. (현재 python-koalanlp 버전은 입니다.)
$ pip install Cython # Cython은 별도 설치가 필요합니다.
$ pip install koalanlp
[참고] Windows 환경의 경우, 설치 전 다음을 확인하세요: \* Windows
환경의 Java 12는 충분히 테스트되지 않았습니다. \* Windows 환경의
경우 VisualStudio C++ Toolkit v14.x와 Windows SDK가 필요합니다. 이
`StackOverflow <https://stackoverflow.com/a/49986365>`__ 답을
참조하셔서 설치하시면 됩니다. \* Windows 환경에서 사용시 PATH에
``%JAVA_HOME%\jre\bin``\ 과 ``%JAVA_HOME%\jre\bin\server``\ 를
넣어주세요.
Packages
각 형태소 분석기는 별도의 패키지로 나뉘어 있습니다.
패키지명 |
설명 |
사용 가능 버전 |
License (원본) |
---|---|---|---|
API.KMR |
코모란 Wrapper, 분석범위: 형태소 |
Apache 2.0 |
|
API.EUNJEON |
은전한닢 Wrapper, 분석범위: 형태소 |
Apache 2.0 |
|
API.ARIRANG |
아리랑 Wrapper, 분석범위: 형태소 |
Apache 2.0 |
|
API.RHINO |
RHINO Wrapper, 분석범위: 형태소 |
GPL v3 |
|
API.DAON |
Daon Wrapper, 분석범위: 형태소 |
MIT(별도 지정 없음) |
|
API.OKT |
Open Korean Text Wrapper, 분석범위: 문장분리, 형태소 |
Apache 2.0 |
|
API.KKMA |
꼬꼬마 Wrapper, 분석범위: 형태소, 의존구문 |
GPL v2 |
|
API.HNN |
한나눔 Wrapper, 분석범위: 문장분리, 형태소, 구문분석, 의존구문 |
GPL v3 |
|
API.ETRI |
ETRI Open API Wrapper, 분석범위: 형태소, 구문분석, 의존구문, 개체명, 의미역 |
MIT2-2 |
주2-2 ETRI의 경우 Open API를 접근하기 위한 코드 부분은 KoalaNLP의 License 정책에 귀속되지만, Open API 접근 이후의 사용권에 관한 조항은 ETRI에서 별도로 정한 바를 따릅니다. 따라서, ETRI의 사용권 조항에 동의하시고 키를 발급하셔야 하며, 다음 위치에서 발급을 신청할 수 있습니다: 키 발급 신청
초기화
초기화 과정에서 KoalaNLP는 필요한 Java Library를 자동으로 다운로드하여 설치합니다. 설치에는 시간이 다소 소요됩니다. 때문에, 프로그램 실행시 최초 1회에 한하여 초기화 작업이 필요합니다.
from koalanlp.Util import initialize
# 꼬꼬마와 은전한닢 분석기의 2.0.0 버전을 참조합니다.
initialize(java_options="-Xmx4g", KKMA="2.0.2", ETRI="2.0.2")
java_options 인자는 JVM을 실행하기 위한 option string입니다.
이후 인자들은 keyword argument들로, 상단 표를 참고하여 지정하실 수 있습니다.
키워드가 지정되지 않으면 다음 코드와 같은 효과를 나타냅니다: KMR="LATEST"
나머지 문서는 초기화 과정이 모두 완료되었다고 보고 진행합니다.
API 참고: initialize
간단한 예시
다음과 같이 사용합니다.
from koalanlp.Util import initialize
from koalanlp.proc import *
from koalanlp import API
# 초기화 합니다.
initialize(java_options="-Xmx4g -Dfile.encoding=utf-8", KKMA="2.0.2", EUNJEON="2.0.2", ETRI="2.0.2")
# 품사분석기 이용법
tagger = Tagger(API.EUNJEON)
tagged = tagger.tag("안녕하세요. 눈이 오는 설날 아침입니다.")
print(tagged)
# 의존구문분석기 이용법
parser = Parser(API.KKMA)
parsed = parser.analyze("안녕하세요. 눈이 오는 설날 아침입니다.")
print(parsed)
# ETRI API 이용법
ETRI_API_KEY = "......" # ETRI에서 발급받은 키를 입력하세요.
rolelabeler = RoleLabeler(API.ETRI, ETRI_API_KEY)
paragraph = rolelabeler.analyze("첫 분석을 시도해봅시다!")
print(paragraph)
print(paragraph[0].getRoles())
# Data classes
sentence = parsed[1] # 두번째 문장인, "눈이 오는 설날 아침입니다."를 선택합니다.
wordAt0 = sentence[0] # 첫번째 어절을 선택해봅니다.
print(wordAt0.exists(lambda m: m.isPredicate())) # 첫번째 어절에, 용언(동사/형용사)을 포함한 형태소가 있는지 확인합니다.
print(sentence.exists(lambda w: w.exists(lambda m: m.isNoun()))) # 문장 전체에 체언(명사 등)을 포함한 어절이 있는지 확인합니다.
print(sentence.getNouns()) # 문장에서 체언만 추출합니다.
print(sentence.getVerbs()) # 문장에서 용언만 추출합니다.
결과 비교
Sample:결과비교를 참조해주세요.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distributions
Built Distribution
File details
Details for the file koalanlp-2.0.7-py3-none-any.whl
.
File metadata
- Download URL: koalanlp-2.0.7-py3-none-any.whl
- Upload date:
- Size: 32.7 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/1.13.0 pkginfo/1.5.0.1 requests/2.18.1 setuptools/38.5.2 requests-toolbelt/0.8.0 tqdm/4.19.9 CPython/3.6.7
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 5f71e70e9a4163740ccae20ad66a24186ed8d1a7d7da243a56a4701600abe931 |
|
MD5 | dbfd410b8b0b5675254673dd4b2ef765 |
|
BLAKE2b-256 | a9677567fae73fae301bb09f383c1470ad6a6b328020b465a9a6d1339d6a152a |