Skip to main content

CLI to download and sync subtitles for video files using semantic embeddings + DTW

Project description

subs_down_n_sync

CI PyPI version Python versions License

CLI Python para baixar e sincronizar legendas para arquivos de vídeo. Idioma padrão: pt-BR, configurável via flag --lang (qualquer tag BCP 47).

A sincronização usa embeddings semânticos multilíngues (sentence-transformers, modelo paraphrase-multilingual-MiniLM-L12-v2) combinados com DTW: baixa uma legenda EN de referência e alinha os cues da legenda alvo aos timestamps da referência por similaridade semântica. Legendas com match exato (hash ou release group) são usadas sem sincronização.

Instalação

pip install subs-down-n-sync

Instale também o ffmpeg:

sudo apt install ffmpeg    # Debian/Ubuntu
brew install ffmpeg        # macOS
winget install Gyan.FFmpeg # Windows

Configure as credenciais do OpenSubtitles:

export OPENSUBTITLES_USERNAME="seu_usuario"
export OPENSUBTITLES_PASSWORD="sua_senha"

Para desenvolvimento, veja Setup.

Setup

Linux/macOS:

python -m venv .venv
source .venv/bin/activate
pip install -e ".[dev]"

Windows (PowerShell):

python -m venv .venv
.\.venv\Scripts\Activate.ps1
pip install -e ".[dev]"

Windows (cmd.exe):

python -m venv .venv
.venv\Scripts\activate.bat
pip install -e ".[dev]"

Instale também o ffmpeg no sistema:

sudo apt install ffmpeg    # Debian/Ubuntu
brew install ffmpeg        # macOS
winget install Gyan.FFmpeg          # Windows (winget)
choco install ffmpeg                # Windows (Chocolatey)
scoop install ffmpeg                # Windows (Scoop)

Confirme que ffmpeg está no PATH rodando ffmpeg -version em novo terminal.

Configuração (uma única vez)

Linux/macOS:

export OPENSUBTITLES_USERNAME="seu_usuario"
export OPENSUBTITLES_PASSWORD="sua_senha"

Windows (PowerShell, sessão atual):

$env:OPENSUBTITLES_USERNAME = "seu_usuario"
$env:OPENSUBTITLES_PASSWORD = "sua_senha"

Windows (persistente, próximas sessões):

setx OPENSUBTITLES_USERNAME "seu_usuario"
setx OPENSUBTITLES_PASSWORD "sua_senha"

Uso

# Default: pt-BR
subs-down-n-sync /caminho/para/filme.mkv

# Outro idioma (BCP 47: 'en', 'pt-BR', 'en-US', 'es', 'ja', ...)
subs-down-n-sync /caminho/para/filme.mkv --lang en
subs-down-n-sync /caminho/para/filme.mkv -l es

# Processar diretório inteiro (busca vídeos recursivamente)
subs-down-n-sync /caminho/para/pasta/
subs-down-n-sync /caminho/para/pasta/ --lang en
subs-down-n-sync /caminho/para/pasta/ --overwrite   # sobrescreve legendas existentes
subs-down-n-sync /caminho/para/pasta/ --parallel    # processa até 2 vídeos simultâneos

# Ou via módulo Python
python -m subs_down_n_sync /caminho/para/filme.mkv

Ao passar um diretório, vídeos que já têm legenda (<video>.<lang>.srt) são pulados por padrão. Use --overwrite / -o para reprocessar. Use --parallel / -p para processar até 2 vídeos em paralelo.

Saída: /caminho/para/filme.<lang>.srt (ex.: filme.pt-BR.srt, filme.en.srt). Isso permite manter legendas do mesmo vídeo em idiomas diferentes sem sobrescrever.

Desenvolvimento

pip install -e ".[dev]"
pytest

Os testes unitários rodam com gate de cobertura de 90% (configurado em pyproject.toml). O CI falha se a cobertura cair abaixo disso.

Para rodar sem o gate (útil ao explorar com -k ou --collect-only):

pytest --no-cov

Lint e formatação

O projeto usa Ruff para formatação e lint.

ruff format .           # aplica formatação
ruff format --check .   # verifica sem escrever (usado no CI)
ruff check .            # roda lint
ruff check --fix .      # aplica fixes automáticos

O CI falha se ruff format --check ou ruff check encontrarem problemas.

Testes de integração

O projeto tem duas camadas de testes:

  • Testes unitários (padrão, pytest) — rápidos, mockam subliminal e sentence_transformers. Não precisam de rede nem de binários externos além do Python.
  • Testes de integração (pytest -m integration) — exercitam o pipeline real de alinhamento semântico (download do modelo sentence-transformers + DTW) sobre legendas reais. Requer acesso à internet no primeiro run para baixar o modelo (~120 MB), cacheado pelo Hugging Face em ~/.cache/huggingface/.

Como rodar cada camada:

pytest                    # só unit (rápido)
pytest -m integration     # só integração (baixa modelo de embeddings, roda DTW real)
pytest -m ""              # tudo (unit + integração)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

subs_down_n_sync-1.0.4.tar.gz (34.3 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

subs_down_n_sync-1.0.4-py3-none-any.whl (25.7 kB view details)

Uploaded Python 3

File details

Details for the file subs_down_n_sync-1.0.4.tar.gz.

File metadata

  • Download URL: subs_down_n_sync-1.0.4.tar.gz
  • Upload date:
  • Size: 34.3 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for subs_down_n_sync-1.0.4.tar.gz
Algorithm Hash digest
SHA256 3179ab0f9fe3544c195a281da210a0dc2c14d6ca3e41971742651190f07152af
MD5 e03372d292d5f819c47aa2b3a8a32e03
BLAKE2b-256 39cbdaa6839295798a372e42e045c8e10c4231246136f0d3389e967a6dc309f8

See more details on using hashes here.

Provenance

The following attestation bundles were made for subs_down_n_sync-1.0.4.tar.gz:

Publisher: release.yml on airton-soares/subs_down_n_sync

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

File details

Details for the file subs_down_n_sync-1.0.4-py3-none-any.whl.

File metadata

File hashes

Hashes for subs_down_n_sync-1.0.4-py3-none-any.whl
Algorithm Hash digest
SHA256 44de0b634932d36e63ac266f9d0b384e94048554a4fd27d3ab9ca66c02b8f1a3
MD5 2282f5de256dec80459c39a4468fa610
BLAKE2b-256 2cfd6099253cf64485ff4d53fb141c93d0588c627c89b29d2bcfa5d65a33a42e

See more details on using hashes here.

Provenance

The following attestation bundles were made for subs_down_n_sync-1.0.4-py3-none-any.whl:

Publisher: release.yml on airton-soares/subs_down_n_sync

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page