文件翻译工具

Project description

简介

DocuTranslate

文件翻译工具，借助docling、minerU与大语言模型实现多种格式文件的翻译

QQ交流群：1047781902

翻译效果

整合包

对于只使用基本翻译功能的用户，可以在github releases 上下载最新的整合包，该整合包点击即用，您所需的只是获取某个ai平台的api-key，和minerU的token
名字为DocuTranslate的软件不支持docling，需要在minerU申请token以进行文档解析【推荐】
名字为DocuTranslate_full的软件包，自带docling模型，支持docling与minerU等所有解析文档引擎

安装

使用pip

pip install docutranslate
pip install docutranslate[docling]#如果需要使用docling进行文档解析

使用uv

uv init
uv add docutranslate
uv add docling#如果需要使用docling进行文档解析

使用git

git clone https://github.com/xunbu/docutranslate.git
uv sync
uv pip install -e .

支持的文件格式

输入格式	输出格式
PDF（非扫描版）	Markdown（推荐）
Markdown	HTML
HTML、XHTML	PDF(仅交互界面支持)
CSV
DOC、DOCX（部分支持）

如果想不使用交互界面获取pdf，可以先下载HTML文件，用浏览器打开并打印

前置条件

本翻译工具的翻译流程总体如下：

使用文本转换引擎将文档转换成markdown（有docling（本地）、minerU（联网）两种引擎）
使用大语言模型翻译markdown文本（需要申请api-key或本地部署）

使用minerU引擎注意事项（minerU Token获取方式）

使用minerU将文档转换为markdown时，需要在minerU平台申请token

打开minerU官网申请token
申请成功后，在API Token管理界面创建API Token

使用docling引擎注意事项

使用docling将文档转换为markdown时，需要下载模型到本地（也可以提前下载，见FAQ），因此可能会遇到一些网络问题

可以在github release中下载docling_artifact压缩包，将该压缩包解压放置在项目下可以解决模型下载的网络问题

huggingface换源

不能科学上网的友友注意了

无法访问的huggingface的电脑在以下操作时请换源点击测试

第一次读取非markdown文本
第一次使用公式识别或代码识别功能

方法1

设置电脑的环境变量(记得设置后重启IDE)
HF_ENDPOINT=https://hf-mirror.com

方法2

在代码开头设置环境变量

import os

os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

###其余代码写在下方

获取大模型平台的baseurl、key、model-id

由于需要使用大语言模型进行markdown调整与翻译，所以需要预先获取模型的baseurl、key、model-id
常见的大模型平台baseurl与api获取方式可见常用ai平台

比较推荐的模型有智谱的glm-4-air、glm-4-flash（免费），阿里云的qwen-plus等。
推理模型需要支持api请求响应中区分reasoning_content和content（详见平台开发手册，ollama、lmstudio需开启对应选项）

使用方式

注意事项（使用docling转换引擎必看，使用minerU或使用整合包时可跳过）

使用docling转换引擎时以下操作会自动从huggingface下载模型，windows需要使用管理员模式 打开IDE运行脚本，并按需换源换源指南

第一次使用该库读取、翻译非markdown文本
第一次使用该库的公式识别或代码识别功能

使用图形化界面

docutranslate -i

翻译文件

from docutranslate.translater import FileTranslater

translater = FileTranslater(base_url="<baseurl>",  # 大模型的baseurl
                            key="<api-key>",  # 大模型的api-key
                            model_id="<model-id>",  # 大模型的model-id
                            convert_engin="mineru",  # 使用mineru解析文档
                            mineru_token="<申请的mineru_token>"  # 使用mineru时必填
                            # convert_engin="docling"  # 使用docling解析文档
                            )

# 不开启公式、代码识别（默认输出为markdown文件）
translater.translate_file("<文件路径>", to_lang="中文")

# 开启公式、代码识别（需要下载更多模型）
translater.translate_file("<文件路径>", to_lang="中文", formula=True, code=True)

# 在先修复文本再翻译（适用于翻译pdf，但更耗时耗费）
translater.translate_file("<文件路径>", to_lang="中文", refine=True)

下载模型时请用管理员模式打开终端运行文件（windows），并按需换源输出文件默认放在./output中

使用不同的agent分别进行文本修正和翻译

from docutranslate import FileTranslater
from docutranslate.agents import MDRefineAgent, MDTranslateAgent

translater = FileTranslater()

refine_agent = MDRefineAgent(baseurl="<baseurl-1>", key="<key-1>", model_id="<model-id-1>")
translate_agent = MDTranslateAgent(baseurl="<baseurl-2>", key="<key-2>", model_id="<model-id-2>")

translater.translate_file("<文件路径>", to_lang="中文", refine_agent=refine_agent,
                          translate_agent=translate_agent)

文件转换(pdf/markdown/HTML/Doc等->markdown/html)

from docutranslate import FileTranslater

translater = FileTranslater(convert_engin="mineru",  # 使用mineru解析文档
                            mineru_token="<申请的mineru_token>"  # 使用mineru时必填
                            # convert_engin="docling"  # 使用docling解析文档
                            )
# 文件转html
translater.read_file("<文件路径>").save_as_html()#保存
translater.read_file("<文件路径>").export_to_html()#输出字符串
# 文件转markdown
translater.read_file("<文件路径>").save_as_markdown()#保存
translater.read_file("<文件路径>").export_to_markdown()#输出字符串

参数说明

创建FileTranslater

from docutranslate import FileTranslater

translater = FileTranslater(base_url="<baseurl>",  # 默认的模型baseurl
                            key="<api-key>",  # 默认的大语言模型平台api-key
                            model_id="<model-id>",  # 默认的模型id
                            chunksize=2000,  # markdown分块长度（单位byte），分块越大效果越好（也越慢），不建议超过8000
                            max_concurrent=20,  # 并发数，受到ai平台并发量限制，如果文章很长建议适当加大到20以上
                            timeout=2000,  # 调用api的超时时间
                            docling_artifact=None,  # 使用提前下载好的docling模型
                            convert_engin="mineru",  # 可选minerU或docling
                            mineru_token="<mineru-token>",  # minerU的token，使用minerU时必填
                            )

使用docling需要先pip install docling或uv add docling

翻译文件

translater.translate_file(r"<要翻译的文件路径>",
                          to_lang="中文",
                          formula=True,  # 是否启用公式识别
                          code=True,  # 是否启用代码识别
                          refine=False,  # 是否在翻译前先修正一遍markdown文本（较耗时）
                          output_format="markdown",  # "markdown"与"html"两种输出格式
                          output_dir="./output",  # 默认输出文件夹
                          refine_agent=None,  # 修正Agent
                          translate_agent=None  # 翻译Agent
                          )

常用ai平台

平台名称	获取APIkey	baseurl
ollama		http://127.0.0.1:11434/v1
lm studio		http://127.0.0.1:1234/v1
openrouter	点击获取	https://openrouter.ai/api/v1
openai	点击获取	https://api.openai.com/v1/
deepseek	点击获取	https://api.deepseek.com/v1
智谱ai	点击获取	https://open.bigmodel.cn/api/paas/v4
腾讯混元	点击获取	https://api.hunyuan.cloud.tencent.com/v1
阿里云百炼	点击获取	https://dashscope.aliyuncs.com/compatible-mode/v1
火山引擎	点击获取	https://ark.cn-beijing.volces.com/api/v3
硅基流动	点击获取	https://api.siliconflow.cn/v1
DMXAPI	点击获取	https://www.dmxapi.cn/v1

FAQ

是否支持扫描件

暂不支持

第一次使用很慢是怎么回事

第一次是使用时docling需要从huggingface下载转换输入文件为markdown的模型
通过设置环境变量换源或科学上网可能有助于提高下载速度

huggingface换源，请设置环境变量：HF_ENDPOINT=https://hf-mirror.com

如何内网使用（不联网）

可以，对于docling提供的解析pdf、html等功能，可以使用以下方式提前下载所需的模型

from docutranslate.utils.docling_utils import get_docling_artifacts

print(get_docling_artifacts())  # 会显示模型下载文件夹，通常在`C:\Users\<user>\.cache\docling\models`

将模型文件夹命名为docling_artifact放置在项目下或创建FileTranslater时docling_artifact参数设置为文件夹位置

from docutranslate import FileTranslater

translater = FileTranslater(base_url="<baseurl>",
                            key="<key>",
                            model_id="<model-id>",  # 使用的模型id
                            docling_artifact=r"C:\Users\<user>\.cache\docling\models"
                            )

对于llm功能，可以使用ollama或lm studio等方式本地部署。

Project details

Release history Release notifications | RSS feed

1.7.5

Apr 24, 2026

1.7.4

Apr 24, 2026

1.7.3

Apr 19, 2026

1.7.2

Apr 8, 2026

1.7.1.post1

Mar 8, 2026

1.7.1

Mar 7, 2026

1.7.0

Mar 2, 2026

1.7.0a2 pre-release

Feb 25, 2026

1.7.0a1 pre-release

Feb 25, 2026

1.6.3.post1

Jan 19, 2026

1.6.3 yanked

Jan 18, 2026

1.6.2

Jan 11, 2026

1.6.1 yanked

Jan 10, 2026

1.6.0

Dec 31, 2025

1.5.6

Dec 17, 2025

1.5.5

Dec 14, 2025

1.5.4

Dec 12, 2025

1.5.3

Dec 4, 2025

1.5.3a1 pre-release

Dec 2, 2025

1.5.2.post1 yanked

Nov 25, 2025

1.5.2 yanked

Nov 25, 2025

1.5.1

Nov 10, 2025

1.4.18

Nov 3, 2025

1.4.17

Oct 26, 2025

1.4.16.post1

Oct 20, 2025

1.4.16

Oct 20, 2025

1.4.15

Oct 19, 2025

1.4.14

Oct 19, 2025

1.4.13

Oct 18, 2025

1.4.12

Oct 15, 2025

1.4.11

Oct 14, 2025

1.4.10

Oct 13, 2025

1.4.9

Oct 10, 2025

1.4.8

Oct 4, 2025

1.4.7

Sep 29, 2025

1.4.6

Sep 24, 2025

1.4.5

Sep 24, 2025

1.4.5b2 pre-release

Sep 24, 2025

1.4.4

Sep 17, 2025

1.4.3

Sep 9, 2025

1.4.2.post2

Sep 7, 2025

1.4.2.post1

Sep 7, 2025

1.4.2

Sep 6, 2025

1.4.1.post1

Sep 5, 2025

1.4.1

Sep 5, 2025

1.4.0

Sep 4, 2025

1.3.3

Sep 3, 2025

1.3.2

Sep 2, 2025

1.3.2a1 pre-release

Aug 30, 2025

1.3.1

Aug 30, 2025

1.3.0b1 pre-release

Aug 29, 2025

1.2.5

Aug 24, 2025

1.2.4

Aug 23, 2025

1.2.3

Aug 22, 2025

1.2.2

Aug 20, 2025

1.2.1

Aug 20, 2025

1.2.0 yanked

Aug 20, 2025

1.1.6

Aug 18, 2025

1.1.5

Aug 18, 2025

1.1.3

Aug 14, 2025

1.1.1

Aug 9, 2025

1.0.0

Aug 5, 2025

0.3.3

Jul 16, 2025

0.3.2

Jul 16, 2025

0.2.41

Jul 7, 2025

0.2.40

Jul 7, 2025

0.2.39

Jul 3, 2025

0.2.38

Jun 19, 2025

0.2.37

Jun 10, 2025

This version

0.2.36

Jun 10, 2025

0.2.35

Jun 4, 2025

0.2.34

Jun 2, 2025

0.2.31

May 29, 2025

0.2.28

May 26, 2025

0.2.27

May 26, 2025

0.2.25 yanked

May 26, 2025

Reason this release was yanked:

mathjax渲染错误

0.2.23

May 22, 2025

0.2.21

May 20, 2025

0.2.20

May 20, 2025

0.2.19

May 19, 2025

0.2.18

May 19, 2025

0.2.17

May 19, 2025

0.2.16

May 18, 2025

0.2.15

May 18, 2025

0.2.14

May 17, 2025

0.2.13

May 17, 2025

0.2.12

May 17, 2025

0.2.11

May 17, 2025

0.2.10

May 17, 2025

0.2.9

May 16, 2025

0.2.8

May 16, 2025

0.2.7

May 16, 2025

0.2.6

May 14, 2025

0.2.4

May 13, 2025

0.2.3

May 13, 2025

0.2.2.post1

May 12, 2025

0.2.2

May 12, 2025

0.2.1.post1

May 12, 2025

0.2.1

May 12, 2025

0.2.0

May 12, 2025

0.1.8

May 11, 2025

0.1.7

May 11, 2025

0.1.6

May 10, 2025

0.1.5

May 10, 2025

0.1.4

May 10, 2025

0.1.3.post1

May 10, 2025

0.1.3

May 10, 2025

0.1.2

May 10, 2025

0.1.1

May 9, 2025

0.1.0

May 9, 2025

0.0.8

May 8, 2025

0.0.7

May 8, 2025

0.0.6

May 8, 2025

0.0.5

May 8, 2025

0.0.4

May 8, 2025

0.0.3

May 8, 2025

0.0.2

May 8, 2025

0.0.1

May 8, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

docutranslate-0.2.36.tar.gz (948.7 kB view details)

Uploaded Jun 10, 2025 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

docutranslate-0.2.36-py3-none-any.whl (954.4 kB view details)

Uploaded Jun 10, 2025 Python 3

File details

Details for the file docutranslate-0.2.36.tar.gz.

File metadata

Download URL: docutranslate-0.2.36.tar.gz
Upload date: Jun 10, 2025
Size: 948.7 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: uv/0.6.14

File hashes

Hashes for docutranslate-0.2.36.tar.gz
Algorithm	Hash digest
SHA256	`9b7beeb4989b655a08311cb1c6d4f108ceccea5e2560ff0cc72d56026d2bce77`
MD5	`75a794f5784408623942c9bffa9de6fb`
BLAKE2b-256	`03f743cdb19359ca0933a7e6d4cfe4dbc2c59f08182f17071dc85ec42241ab16`

See more details on using hashes here.

File details

Details for the file docutranslate-0.2.36-py3-none-any.whl.

File metadata

Download URL: docutranslate-0.2.36-py3-none-any.whl
Upload date: Jun 10, 2025
Size: 954.4 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: uv/0.6.14

File hashes

Hashes for docutranslate-0.2.36-py3-none-any.whl
Algorithm	Hash digest
SHA256	`69820454e7ae1954da33ea0e616c43dcda33dd14500c0d28a58ec558b1784d67`
MD5	`2333ee26b7959a66c98ea0522c03fbd9`
BLAKE2b-256	`f25ad4a6cf56e0376ee742ddec3b25d0ba298b6234a31b5c003f7dec664a7cee`

See more details on using hashes here.

docutranslate 0.2.36

Navigation

Verified details

Maintainers

Unverified details

Meta

Project description

简介

DocuTranslate

整合包

安装

支持的文件格式

前置条件

使用minerU引擎注意事项（minerU Token获取方式）

使用docling引擎注意事项

huggingface换源

方法1

方法2

获取大模型平台的baseurl、key、model-id

使用方式

注意事项（使用docling转换引擎必看，使用minerU或使用整合包时可跳过）

使用图形化界面

翻译文件

使用不同的agent分别进行文本修正和翻译

文件转换(pdf/markdown/HTML/Doc等->markdown/html)

参数说明

创建FileTranslater

翻译文件

常用ai平台

FAQ

Project details

Verified details

Maintainers

Unverified details

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes