Skip to main content

Preprocess NIKL(National Institute of Korean Language) Corpus files

Project description

NIKL

Python PyPI
국립국어원(National Institute of Korean Language) 언어정보나눔터: 말뭉치 파일 전처리 코드

Installation

  • Pypi
    pip install nikl
    
  • Source Code
    git clone https://github.com/study-artificial-intelligence/nikl.git
    cd nikl
    python setup.py install
    

Requirements

  • beautifulsoup4     (pip install beautifulspul4로 설치)

Getting Started

  1. 변환을 원하는 국립국어원 언어정보나눔센터의 말뭉치 사전을 ./data폴더에 넣어주세요.
  2. 아래의 명령어에서 대괄호[, ]로 묶여있는 것들 중 선택해서 사용하세요.
    단, --filename에는 반드시 한 개 이상의 파일명이 들어가야 합니다.
  3. 코드가 정상적으로 작동 시, ./data/폴더에 파일이름_info.txt, 파일이름_content.txt가 생성됩니다.
python main.py --filename [파일명.txt] [--info] [--content] [--newline]

# ex1) python preprocess.py --filename test.txt --content --newline
#      test.txt에서 단락 내용만 개행문자를 포함해서 data/test_content.txt 파일 생성
# ex2) python preprocess.py --filename test2.txt test3.txt --info --content
#      text2.txt와 text3.txt에서 파일의 정보와 단락 내용을 각각 저장 후 data/test2_info.txt, test2_content.txt 
#                                                                    data/test3_info.txt, test3_content.txt 파일 생성
  • filename: 1개 이상의 파일명.txt 형식으로 입력해주세요. 국립국어원 말뭉치 파일 특성 상 txt 파일만 지원하고 있습니다.
  • info: 해당 파일의 전반적인 정보를 출력할지에 대한 여부를 나타냅니다. 기본값은 False 입니다.
  • content: 해당 파일의 내용를 출력할지에 대한 여부를 나타냅니다. 기본값은 False 입니다.
  • newline: 본문 내용을 전처리 할 때, 개행문자('\n') 삽입 여부를 나타냅니다. 삽입 시 문단 별로 결과물이 출력됩니다. 기본값은 False 입니다.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

nikl-1.1.0.tar.gz (5.3 kB view hashes)

Uploaded Source

Built Distribution

nikl-1.1.0-py3-none-any.whl (8.3 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page