HWP to Markdown converter
Project description
hwp2md
Python용 HWP to Markdown 변환기.
한글(HWP) 5.0 파일을 LLM에 최적화된 깔끔한 Markdown으로 변환합니다.
주요 기능
- ✅ HWP 5.0 파일에서 텍스트 추출
- ✅ 표를 Markdown 형식으로 변환
- ✅ 문서 구조 보존
- ✅ 셀 병합 처리 (LLM 최적화를 위한 내용 반복)
- ✅ CLI 도구로 빠른 변환
설치
# pip 사용
pip install hwp2md
# uv 사용
uv add hwp2md
사용법
CLI
# Markdown으로 변환 (stdout 출력)
hwp2md document.hwp
# 파일로 저장
hwp2md document.hwp -o output.md
# uvx로 설치 없이 실행
uvx hwp2md document.hwp
Python API
from hwp2md import convert
# 파일 경로로 변환
markdown = convert("document.hwp")
print(markdown)
제한사항
- HWP 5.0 전용 - 이전 HWP 형식(HWP 3.0, HWP 97, HWP 2002 등)은 지원하지 않음
- 레거시 HWP 파일은 한컴오피스에서 HWP 5.0으로 변환 가능
- 레거시 형식 감지 시 오류 발생
- 텍스트 & 표 - 현재 텍스트와 표만 추출하며, 이미지 및 복잡한 개체는 건너뜀
- 한국어 중심 - 한국어 문서에 최적화 (UTF-16LE 인코딩)
- 기본 서식만 - 글꼴, 색상, 고급 스타일은 보존하지 않음
개발
# 의존성 설치
uv sync
# CLI 실행
uv run hwp2md document.hwp
# 테스트 실행
uv run pytest
라이선스
MIT
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
hwp2md-1.0.0.tar.gz
(22.0 kB
view details)
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
hwp2md-1.0.0-py3-none-any.whl
(17.8 kB
view details)
File details
Details for the file hwp2md-1.0.0.tar.gz.
File metadata
- Download URL: hwp2md-1.0.0.tar.gz
- Upload date:
- Size: 22.0 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: uv/0.7.13
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
43485328622530019e5dabadbb77bb90d29463041149aec142adc1151fbb1ae5
|
|
| MD5 |
813de5af7eb952c31189e09b2b3d576a
|
|
| BLAKE2b-256 |
3e89a908c914b37fa633328f9e2c8371b852e592ff2d990e96d7dad6fe3e30b3
|
File details
Details for the file hwp2md-1.0.0-py3-none-any.whl.
File metadata
- Download URL: hwp2md-1.0.0-py3-none-any.whl
- Upload date:
- Size: 17.8 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: uv/0.7.13
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
9fd1a474d9d0984788172bf271e95e493b69fb84f2114e544f8b36eb3fb78b74
|
|
| MD5 |
405c37b91a6afcff8d455f143de942a2
|
|
| BLAKE2b-256 |
3b7a73661061084025f61b93f877b705e8b853930bab4c559d14d324057bd4b6
|