Preprocess NIKL(National Institute of Korean Language) Corpus files
Project description
NIKL
국립국어원(National Institute of Korean Language) 언어정보나눔터: 말뭉치 파일 전처리 코드
Installation
- Pypi: 배포 여부 확인 후 가능하다면 pypi에 올려서 패키지화 예정
pip install nikl
- Terminal
git clone https://github.com/study-artificial-intelligence/nikl.git cd nikl python setup.py install
Requirements
- beautifulsoup4 (
pip install beautifulspul4
로 설치)
Getting Started
- 변환을 원하는 국립국어원 언어정보나눈센터의 말뭉치 사전을
./data
폴더에 넣어주세요. - 아래의 명령어에서 대괄호[, ]에 원하는
파일명.txt
을 넣어서 사용하세요.
코드가 정상적으로 작동 시,./data/
폴더에파일이름_info.txt
,파일이름_content.txt
가 생성됩니다.
python main.py --filename [파일명.txt] --info --content --newline
# ex1) python main.py --filename test.txt --content --newline
# test.txt에서 단락 내용만 개행문자를 포함해서 data/test_content.txt 파일 생성
# ex2) python main.py --filename test2.txt test3.txt --info --content
# text2.txt와 text3.txt에서 파일의 정보와 단락 내용을 각각 저장 후 data/test2_info.txt, test2_content.txt
# data/test3_info.txt, test3_content.txt 파일 생성
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distributions
No source distribution files available for this release.See tutorial on generating distribution archives.
Built Distribution
nikl-1.0.0-py3.6.egg
(13.5 kB
view hashes)