Модуль для предобработки текстов журнала «Цифровые гуманитарные исследования»
Project description
Модуль предобработки текстовых материалов для журнала «Цифровые гуманитарные исследования»
Подготовка текстов
В журнале статьи публикуются с использованием LaTeX. В tex из docx тексты можно перевести с помощью pandoc:
pandoc -s paper.docx -o paper.tex
Однако, текстам на русском языке требуется дополнительная обработка, связанная с правильными тире и пробелами по правилам отечественной типографики. Модуль производит все нужные преобразования автоматически.
Примеры преобразований:
с новым 1970-х гг. в XXI в.:→с~новым 1970"=х гг.~в~XXI в.:социально-экономические→социально"=экономическиеколлеги - на→коллеги — наВ.И. Ленина→В.\,И. Ленина1978-1984~гг.→1978--1984~гг.
Кроме того, все \emph заменяются на \textit, потому что в системе стилей журнала \emph означает не курсив, а подчеркивание.
Установка
pip3 install cgi_processor
Использование
from cgi_processor import process_file, process_directory
# Обработка одного файла
process_file('example.tex')
# Обработка всех .tex файлов в папке
process_directory('./texts')
В результате исполнения этого кода в исходной папке появляется файл с тем же именем, но суффиксом _processed, например:
volodin.tex → volodin_processed.tex
Другие ресурсы
Веб-сервис с альтернативным функционалом (не полностью совпадающим с текущим) можно найти здесь. Репозиторий проекта.
Цитирование
@software{orekhov_2025_16956677,
author = {Orekhov, Boris},
title = {Модуль предобработки текстовых материалов для
журнала «Цифровые гуманитарные исследования»
},
month = aug,
year = 2025,
publisher = {Zenodo},
version = {v0.1.4},
doi = {10.5281/zenodo.16956676},
url = {https://doi.org/10.5281/zenodo.16956676},
}
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file cgi_processor-0.1.4.tar.gz.
File metadata
- Download URL: cgi_processor-0.1.4.tar.gz
- Upload date:
- Size: 16.4 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.8.0 colorama/0.4.4 importlib-metadata/4.6.4 keyring/23.5.0 pkginfo/1.8.2 readme-renderer/34.0 requests-toolbelt/0.9.1 requests/2.32.3 rfc3986/1.5.0 tqdm/4.66.4 urllib3/1.26.5 CPython/3.10.12
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
422670a8fc7b022763acb9d529f0bb03cdb49bfe911114ef7a20463a10f166d7
|
|
| MD5 |
ca3c5237fcc36e9043185960c829c1ca
|
|
| BLAKE2b-256 |
d932d4a242e4827acf823bb809e616e5414186ba85ccc96c910f6ecb6006bf9d
|
File details
Details for the file cgi_processor-0.1.4-py3-none-any.whl.
File metadata
- Download URL: cgi_processor-0.1.4-py3-none-any.whl
- Upload date:
- Size: 16.5 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.8.0 colorama/0.4.4 importlib-metadata/4.6.4 keyring/23.5.0 pkginfo/1.8.2 readme-renderer/34.0 requests-toolbelt/0.9.1 requests/2.32.3 rfc3986/1.5.0 tqdm/4.66.4 urllib3/1.26.5 CPython/3.10.12
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
1b0acace4c4aaa6c4858faf06d9bed65de3c92d5881125076cef90db641f0001
|
|
| MD5 |
ad4554f1dafe698829615d85f3da723d
|
|
| BLAKE2b-256 |
ae072bddeef8fd06813b25b711f2fdacd26d049accb29313a463e485396d98e6
|