Skip to main content

PDFなどのドキュメントを翻訳するツール。

Project description

translatedoc

Code style: black Lint&Test PyPI version

PDFなどのドキュメントを翻訳するツール。

Unstructuredで読み込み、OpenAI APIに渡しているだけ。

インストール

1. Unstructured

インストール例:

sudo apt install poppler-utils poppler-data tesseract-ocr tesseract-ocr-jpn
pip install unstructured[all-docs] --extra-index-url https://download.pytorch.org/whl/cu118

cu118のところは環境に合わせて変更する。

詳細はUnstructuredのドキュメントを参照。

2. translatedoc

pip install translatedoc

使い方

基本

export OPENAI_API_KEY=<your_api_key>
translatedoc --language=Japanese <input_files_and_or_urls>

カレントディレクトリにファイル名.Source.txtファイル名.Japanese.txtが生成される。

詳細は translatedoc --help を参照。

応用その1

テキストの抽出と翻訳を別々に行うこともできる。

translatedoc-step1 <input_files_and_or_urls>
translatedoc-step2 --language=Japanese <input_text_files>

応用その2

Pythonライブラリとしても使用可能。

import os
import translatedoc

result_text: str = translatedoc.extract_text("path_or_url.pdf")

model = "gpt-3.5-turbo-1106"
openai_client = openai.OpenAI(base_url=os.environ.get("OPENAI_API_BASE"))

chunks: list[str] = translatedoc.partition(result_text, model)

translated = "\n\n".join(
    translatedoc.translate(chunk, model, "Japanese", openai_client) for chunk in chunks
)

環境変数

環境変数名 概要 デフォルト値
OPENAI_API_BASE OpenAI APIのベースURL https://api.openai.com/v1
OPENAI_API_KEY OpenAI APIのキー -
TRANSLATEDOC_MODEL 翻訳に使用するモデル gpt-3.5-turbo-1106
TRANSLATEDOC_STRATEGY ドキュメントのパーティション化に使用する戦略 hi_res

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

translatedoc-1.5.1.tar.gz (9.9 kB view details)

Uploaded Source

Built Distribution

translatedoc-1.5.1-py3-none-any.whl (12.4 kB view details)

Uploaded Python 3

File details

Details for the file translatedoc-1.5.1.tar.gz.

File metadata

  • Download URL: translatedoc-1.5.1.tar.gz
  • Upload date:
  • Size: 9.9 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.8.2 CPython/3.12.2 Linux/6.5.0-1016-azure

File hashes

Hashes for translatedoc-1.5.1.tar.gz
Algorithm Hash digest
SHA256 69e71999181a750eff0982f4e3d6cf4b9151056ae4dbe122cc71f229402dffaf
MD5 84b3cdf2cb9336998e0ea9673727dffa
BLAKE2b-256 02ce6364c4ceaf4c7f79bc46340fceec1d0a30f55efe4a73de30188a42e7e70f

See more details on using hashes here.

File details

Details for the file translatedoc-1.5.1-py3-none-any.whl.

File metadata

  • Download URL: translatedoc-1.5.1-py3-none-any.whl
  • Upload date:
  • Size: 12.4 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.8.2 CPython/3.12.2 Linux/6.5.0-1016-azure

File hashes

Hashes for translatedoc-1.5.1-py3-none-any.whl
Algorithm Hash digest
SHA256 7a226c6ad94433311aca34ca3716827a6f1c1196ffe558ba70ae3b4ed5b5fec8
MD5 79db4572b0d40044492705fd686b602e
BLAKE2b-256 7f46bcf70ba0078887ecb940ea0257cb1c95e45313ee45824590c0ccf49f6498

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page