Skip to main content

HWP to Markdown converter

Project description

hwp2md

Python용 HWP to Markdown 변환기.

한글(HWP) 5.0 파일을 LLM에 최적화된 깔끔한 Markdown으로 변환합니다.

주요 기능

  • ✅ HWP 5.0 파일에서 텍스트 추출
  • ✅ 표를 Markdown 형식으로 변환
  • ✅ 문서 구조 보존
  • ✅ 셀 병합 처리 (LLM 최적화를 위한 내용 반복)
  • ✅ CLI 도구로 빠른 변환

설치

# pip 사용
pip install hwp2md

# uv 사용
uv add hwp2md

사용법

CLI

# Markdown으로 변환 (stdout 출력)
hwp2md document.hwp

# 파일로 저장
hwp2md document.hwp -o output.md

# uvx로 설치 없이 실행
uvx hwp2md document.hwp

Python API

from hwp2md import convert

# 파일 경로로 변환
markdown = convert("document.hwp")
print(markdown)

제한사항

  • HWP 5.0 전용 - 이전 HWP 형식(HWP 3.0, HWP 97, HWP 2002 등)은 지원하지 않음
    • 레거시 HWP 파일은 한컴오피스에서 HWP 5.0으로 변환 가능
    • 레거시 형식 감지 시 오류 발생
  • 텍스트 & 표 - 현재 텍스트와 표만 추출하며, 이미지 및 복잡한 개체는 건너뜀
  • 한국어 중심 - 한국어 문서에 최적화 (UTF-16LE 인코딩)
  • 기본 서식만 - 글꼴, 색상, 고급 스타일은 보존하지 않음

개발

# 의존성 설치
uv sync

# CLI 실행
uv run hwp2md document.hwp

# 테스트 실행
uv run pytest

라이선스

MIT

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

hwp2md-1.0.0.tar.gz (22.0 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

hwp2md-1.0.0-py3-none-any.whl (17.8 kB view details)

Uploaded Python 3

File details

Details for the file hwp2md-1.0.0.tar.gz.

File metadata

  • Download URL: hwp2md-1.0.0.tar.gz
  • Upload date:
  • Size: 22.0 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: uv/0.7.13

File hashes

Hashes for hwp2md-1.0.0.tar.gz
Algorithm Hash digest
SHA256 43485328622530019e5dabadbb77bb90d29463041149aec142adc1151fbb1ae5
MD5 813de5af7eb952c31189e09b2b3d576a
BLAKE2b-256 3e89a908c914b37fa633328f9e2c8371b852e592ff2d990e96d7dad6fe3e30b3

See more details on using hashes here.

File details

Details for the file hwp2md-1.0.0-py3-none-any.whl.

File metadata

  • Download URL: hwp2md-1.0.0-py3-none-any.whl
  • Upload date:
  • Size: 17.8 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: uv/0.7.13

File hashes

Hashes for hwp2md-1.0.0-py3-none-any.whl
Algorithm Hash digest
SHA256 9fd1a474d9d0984788172bf271e95e493b69fb84f2114e544f8b36eb3fb78b74
MD5 405c37b91a6afcff8d455f143de942a2
BLAKE2b-256 3b7a73661061084025f61b93f877b705e8b853930bab4c559d14d324057bd4b6

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page