Text preprocessing package
Project description
Install
pip install textbasic
개요
이 패키지는 텍스트 데이터에 대한 고품질화 전용 보편적 전처리 기능을 담은 함수들과 유사도 검증 기능을 제공하여 비정형 텍스트 데이터에 대한 빠른 정형화를 통해 효율적인 데이터 제어를 지원합니다.
Features
- basic
| 함수명 | 목적 |
|---|---|
| word_replace | confusion matrix 생성 |
| blank_adjust | 과한(2개 이상) 공백 제거 |
| remove_line | 특정 키워드가 포함된 줄 제거 |
| remove_re | 정규식 기반 텍스트 제거 |
| remove_string | 일치여부 기반 텍스트 제거 |
| remove_emoji | 이모티콘 제거 |
| remove_enter | 줄바꿈 제거 |
| remove_kor | 한글 제거 |
| remove_eng | 영어 제거 |
| remove_num | 숫자 제거 |
| len_filter | 길이 기준 데이터 배제 |
| normal | 오타수정, 공백제거, 특수 정규식 제거, 이모티콘 제거를 적용 |
| morpheme | 형태소 분석 |
- compare
| 함수명 | 목적 |
|---|---|
| extract_sim | 유사도 검증 및 그룹화 |
| compare_sim | 두 문장 간의 유사도 퍼센티지 계산 |
Version
2025-11-26 ver 0.2.0
-
README.md
- 내용 docs화 진행
-
basic
- morpheme 함수의 출력값을 (원본, 형태소 분석 결과) 2개 출력에서 (형태소 분석 결과) 단일 출력으로 변경
- morpheme 함수 사용시 문장 형태소 구성이 하나 인 경우(예: 안녕하십니까) 정상적 분석이 되지 않는 현상 수정
-
compare
- extract_sim
- 내부 연산 알고리즘 전체 변경
- compare_sim 활용
- 유사도 그룹 결과의 출력 dataframe 에 기준문장과의 비교 유사도 값을 표시하는 컬럼 'sim_p' 추가
- extract_sim
ver 0.1.7
- 유사도 모듈에 두개의 입력 문장에 대한 유사도 퍼센티지 계산 함수인 compare_sim 추가
ver 0.1.6
- 유사도 검증시 data 를 list 로 넣었을때 비유사도 데이터가 아예 없을 경우 string 컬럼이 없다고 에러가 뜨는 현상 수정
- 완전히 동일한 경우, 문장 유사도 기준값을 100에 가깝게하면 오히려 유사하지 않게 계산되는 현상 수정
- 유사도 결과 저장 컬럼을 group_{p} 로 변경
ver 0.1.5
- 유사도 검증 extract_sim 함수 수정
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
textbasic-0.2.0.tar.gz
(13.9 kB
view details)
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
textbasic-0.2.0-py3-none-any.whl
(11.9 kB
view details)
File details
Details for the file textbasic-0.2.0.tar.gz.
File metadata
- Download URL: textbasic-0.2.0.tar.gz
- Upload date:
- Size: 13.9 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.12.9
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
49fe108230f72d50b1b92b6dc9977bc63966400c2b3393c434f8e9136eda6903
|
|
| MD5 |
bc38437087a01b0ad48b2bf8a09022b2
|
|
| BLAKE2b-256 |
674725a3455494d10bffae59e1139ba2c84e550d61ae183674e55f4157363f61
|
File details
Details for the file textbasic-0.2.0-py3-none-any.whl.
File metadata
- Download URL: textbasic-0.2.0-py3-none-any.whl
- Upload date:
- Size: 11.9 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.12.9
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
f979627e675af69ba8ee21b204f6d36ade2ad58a6c4b8e17f6ff483d51c7187c
|
|
| MD5 |
f9ef95e73a5b8f4a0e010aa6d750f850
|
|
| BLAKE2b-256 |
d660795d758154a357094558bc87f7a00581609f481c0cb9fe57d30cba8f92be
|