Skip to main content

Text preprocessing package

Project description

Install

pip install textbasic

개요

이 패키지는 텍스트 데이터에 대한 고품질화 전용 보편적 전처리 기능을 담은 함수들과 유사도 검증 기능을 제공하여 비정형 텍스트 데이터에 대한 빠른 정형화를 통해 효율적인 데이터 제어를 지원합니다.

Features

- basic

함수명 목적
word_replace confusion matrix 생성
blank_adjust 과한(2개 이상) 공백 제거
remove_line 특정 키워드가 포함된 줄 제거
remove_re 정규식 기반 텍스트 제거
remove_string 일치여부 기반 텍스트 제거
remove_emoji 이모티콘 제거
remove_enter 줄바꿈 제거
remove_kor 한글 제거
remove_eng 영어 제거
remove_num 숫자 제거
len_filter 길이 기준 데이터 배제
normal 오타수정, 공백제거, 특수 정규식 제거, 이모티콘 제거를 적용
morpheme 형태소 분석

- compare

함수명 목적
extract_sim 유사도 검증 및 그룹화
compare_sim 두 문장 간의 유사도 퍼센티지 계산

Version

2025-11-26 ver 0.2.0

  • README.md

    • 내용 docs화 진행
  • basic

    • morpheme 함수의 출력값을 (원본, 형태소 분석 결과) 2개 출력에서 (형태소 분석 결과) 단일 출력으로 변경
    • morpheme 함수 사용시 문장 형태소 구성이 하나 인 경우(예: 안녕하십니까) 정상적 분석이 되지 않는 현상 수정
  • compare

    • extract_sim
      • 내부 연산 알고리즘 전체 변경
      • compare_sim 활용
      • 유사도 그룹 결과의 출력 dataframe 에 기준문장과의 비교 유사도 값을 표시하는 컬럼 'sim_p' 추가

ver 0.1.7

  • 유사도 모듈에 두개의 입력 문장에 대한 유사도 퍼센티지 계산 함수인 compare_sim 추가

ver 0.1.6

  • 유사도 검증시 data 를 list 로 넣었을때 비유사도 데이터가 아예 없을 경우 string 컬럼이 없다고 에러가 뜨는 현상 수정
  • 완전히 동일한 경우, 문장 유사도 기준값을 100에 가깝게하면 오히려 유사하지 않게 계산되는 현상 수정
  • 유사도 결과 저장 컬럼을 group_{p} 로 변경

ver 0.1.5

  • 유사도 검증 extract_sim 함수 수정

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

textbasic-0.2.0.tar.gz (13.9 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

textbasic-0.2.0-py3-none-any.whl (11.9 kB view details)

Uploaded Python 3

File details

Details for the file textbasic-0.2.0.tar.gz.

File metadata

  • Download URL: textbasic-0.2.0.tar.gz
  • Upload date:
  • Size: 13.9 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.9

File hashes

Hashes for textbasic-0.2.0.tar.gz
Algorithm Hash digest
SHA256 49fe108230f72d50b1b92b6dc9977bc63966400c2b3393c434f8e9136eda6903
MD5 bc38437087a01b0ad48b2bf8a09022b2
BLAKE2b-256 674725a3455494d10bffae59e1139ba2c84e550d61ae183674e55f4157363f61

See more details on using hashes here.

File details

Details for the file textbasic-0.2.0-py3-none-any.whl.

File metadata

  • Download URL: textbasic-0.2.0-py3-none-any.whl
  • Upload date:
  • Size: 11.9 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.9

File hashes

Hashes for textbasic-0.2.0-py3-none-any.whl
Algorithm Hash digest
SHA256 f979627e675af69ba8ee21b204f6d36ade2ad58a6c4b8e17f6ff483d51c7187c
MD5 f9ef95e73a5b8f4a0e010aa6d750f850
BLAKE2b-256 d660795d758154a357094558bc87f7a00581609f481c0cb9fe57d30cba8f92be

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page