Skip to main content

Txt-to-tmx file converter.

Project description

Пакет с несколькими скриптами для конвертации txt-файлов в tmx-файлы

Эти скрипты позволяют токенизировать текстовые файлы на предложения, а затем конвертировать получившиеся файлы в формат tmx (translation memory exchange, по сути -- xml-файлы), в том числе в формат, понимаемый программой SDL Trados Studio 2017.

Установка в Windows в терминале Git Bash

$ git clone https://github.com/AlexSkrn/to_tmx.git
$ python -m venv .venv
$ source .venv/Scripts/activate  # в терминале Anaconda Prompt: .venv\Scripts\activate.bat
$ cd to_tmx
$ python -m pip install --upgrade pip
$ pip install wheel
$ python setup.py sdist bdist_wheel
$ pip install .
$ python -m nltk.downloader punkt  # для токенизации на русском языке

Внешние зависимости

Пакет устанавливает NLTK. Кроме того, последняя строчка в разделе про установку скачивает модели для токенизации на предложения из NLTK Corpora. Эта команда может выдывать предупреждение при исполнении, но все равно работает.

Использование

Примеры исходных, промежуточных и финальных файлов лежат в папке data/.

Токенизация файлов на предложения

$ python -m to_tmx.sent_tok path/"file name.txt" lang  # английский по умолчанию

Например:

$ python -m to_tmx.sent_tok data/"Madrid System_eng.txt" english
$ python -m to_tmx.sent_tok data/"Madrid System_rus.txt" russian

На выходе получаем два токенизированных на предложения файла, Madrid System_eng.txt_sent_tok и Madrid System_rus.txt_sent_tok.

Их следует открыть в текстовом редакторе (Notepad++) и проверить, что все токенизировалось правильно. Обычно ошибок хватает. Нужно, чтобы количество строк в обоих файлов стало одинаковым.

Конвертация в tmx

$ python -m to_tmx.to_tmx path/"file name_eng.txt_sent_tok" path/"file name_rus.txt_sent_tok"

Например:

$ python -m to_tmx.to_tmx data/"Madrid System_eng.txt_sent_tok" data/"Madrid System_rus.txt_sent_tok"

Скрипт создаст файл data/"Madrid System_eng-Madrid System_rus.tmx".

Конвертация в tmx, понимаемый программой SDL Trados Studio 2017

$ python to_tmx.tmx_tradosizer path/"file name_eng-file name_rus.tmx path/file_name_trados_style.tmx"

Первый аргумент -- исходный tmx-файл (полученный на предыдущем этапе), второй аргумент -- путь и желаемое название выходящего файла. Например:

$ python to_tmx.tmx_tradosizer data/"Madrid System_eng-Madrid System_rus.tmx" data/madrid_system_trados_style.tmx

Конвертация многих файлов в tmx-файлы, понимаемые программой SDL Trados Studio 2017

Скрипт to_tmx.tmx_batch_tradosizer попросит выбрать папку с несколькими tmx-файлами, а результат сохранит в папку tmx-trados-style/

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

to_tmx-1.0.0.tar.gz (7.3 kB view hashes)

Uploaded Source

Built Distribution

to_tmx-1.0.0-py3-none-any.whl (8.8 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page