Preprocess NIKL(National Institute of Korean Language) Corpus files
Project description
NIKL
국립국어원(National Institute of Korean Language) 언어정보나눔터: 말뭉치 파일 전처리 코드
Installation
- Pypi: 배포 여부 확인 후 가능하다면 pypi에 올려서 패키지화 예정
pip install nikl
- Terminal
git clone https://github.com/study-artificial-intelligence/nikl.git cd nikl python setup.py install
Requirements
- beautifulsoup4 (
pip install beautifulspul4
로 설치)
Getting Started
- 변환을 원하는 국립국어원 언어정보나눈센터의 말뭉치 사전을
./data
폴더에 넣어주세요. - 아래의 명령어에서 대괄호[, ]에 원하는
파일명.txt
을 넣어서 사용하세요.
코드가 정상적으로 작동 시,./data/
폴더에파일이름_info.txt
,파일이름_content.txt
가 생성됩니다.
python main.py --filename [파일명.txt] --info --content --newline
# ex1) python main.py --filename test.txt --content --newline
# test.txt에서 단락 내용만 개행문자를 포함해서 data/test_content.txt 파일 생성
# ex2) python main.py --filename test2.txt test3.txt --info --content
# text2.txt와 text3.txt에서 파일의 정보와 단락 내용을 각각 저장 후 data/test2_info.txt, test2_content.txt
# data/test3_info.txt, test3_content.txt 파일 생성
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
nikl-1.0.0.1.tar.gz
(5.0 kB
view hashes)
Built Distribution
nikl-1.0.0.1-py3-none-any.whl
(7.7 kB
view hashes)