Skip to main content

CLI to download and sync subtitles for video files using semantic embeddings + DTW

Project description

subs_down_n_sync

CI PyPI version Python versions License

CLI Python para baixar e sincronizar legendas para arquivos de vídeo. Idioma padrão: pt-BR, configurável via flag --lang (qualquer tag BCP 47).

A sincronização usa embeddings semânticos multilíngues (sentence-transformers, modelo paraphrase-multilingual-MiniLM-L12-v2) combinados com DTW: baixa uma legenda EN de referência e alinha os cues da legenda alvo aos timestamps da referência por similaridade semântica. Legendas com match exato (hash ou release group) são usadas sem sincronização.

Instalação

pip install subs-down-n-sync

Instale também o ffmpeg:

sudo apt install ffmpeg    # Debian/Ubuntu
brew install ffmpeg        # macOS
winget install Gyan.FFmpeg # Windows

Configure as credenciais do OpenSubtitles:

export OPENSUBTITLES_USERNAME="seu_usuario"
export OPENSUBTITLES_PASSWORD="sua_senha"

Para desenvolvimento, veja Setup.

Setup

Linux/macOS:

python -m venv .venv
source .venv/bin/activate
pip install -e ".[dev]"

Windows (PowerShell):

python -m venv .venv
.\.venv\Scripts\Activate.ps1
pip install -e ".[dev]"

Windows (cmd.exe):

python -m venv .venv
.venv\Scripts\activate.bat
pip install -e ".[dev]"

Instale também o ffmpeg no sistema:

sudo apt install ffmpeg    # Debian/Ubuntu
brew install ffmpeg        # macOS
winget install Gyan.FFmpeg          # Windows (winget)
choco install ffmpeg                # Windows (Chocolatey)
scoop install ffmpeg                # Windows (Scoop)

Confirme que ffmpeg está no PATH rodando ffmpeg -version em novo terminal.

Configuração (uma única vez)

Linux/macOS:

export OPENSUBTITLES_USERNAME="seu_usuario"
export OPENSUBTITLES_PASSWORD="sua_senha"

Windows (PowerShell, sessão atual):

$env:OPENSUBTITLES_USERNAME = "seu_usuario"
$env:OPENSUBTITLES_PASSWORD = "sua_senha"

Windows (persistente, próximas sessões):

setx OPENSUBTITLES_USERNAME "seu_usuario"
setx OPENSUBTITLES_PASSWORD "sua_senha"

Uso

# Default: pt-BR
subs-down-n-sync /caminho/para/filme.mkv

# Outro idioma (BCP 47: 'en', 'pt-BR', 'en-US', 'es', 'ja', ...)
subs-down-n-sync /caminho/para/filme.mkv --lang en
subs-down-n-sync /caminho/para/filme.mkv -l es

# Processar diretório inteiro (busca vídeos recursivamente)
subs-down-n-sync /caminho/para/pasta/
subs-down-n-sync /caminho/para/pasta/ --lang en
subs-down-n-sync /caminho/para/pasta/ --overwrite   # sobrescreve legendas existentes
subs-down-n-sync /caminho/para/pasta/ --parallel    # processa até 2 vídeos simultâneos

# Ou via módulo Python
python -m subs_down_n_sync /caminho/para/filme.mkv

Ao passar um diretório, vídeos que já têm legenda (<video>.<lang>.srt) são pulados por padrão. Use --overwrite / -o para reprocessar. Use --parallel / -p para processar até 2 vídeos em paralelo.

Saída: /caminho/para/filme.<lang>.srt (ex.: filme.pt-BR.srt, filme.en.srt). Isso permite manter legendas do mesmo vídeo em idiomas diferentes sem sobrescrever.

Desenvolvimento

pip install -e ".[dev]"
pytest

Os testes unitários rodam com gate de cobertura de 90% (configurado em pyproject.toml). O CI falha se a cobertura cair abaixo disso.

Para rodar sem o gate (útil ao explorar com -k ou --collect-only):

pytest --no-cov

Lint e formatação

O projeto usa Ruff para formatação e lint.

ruff format .           # aplica formatação
ruff format --check .   # verifica sem escrever (usado no CI)
ruff check .            # roda lint
ruff check --fix .      # aplica fixes automáticos

O CI falha se ruff format --check ou ruff check encontrarem problemas.

Testes de integração

O projeto tem duas camadas de testes:

  • Testes unitários (padrão, pytest) — rápidos, mockam subliminal e sentence_transformers. Não precisam de rede nem de binários externos além do Python.
  • Testes de integração (pytest -m integration) — exercitam o pipeline real de alinhamento semântico (download do modelo sentence-transformers + DTW) sobre legendas reais. Requer acesso à internet no primeiro run para baixar o modelo (~120 MB), cacheado pelo Hugging Face em ~/.cache/huggingface/.

Como rodar cada camada:

pytest                    # só unit (rápido)
pytest -m integration     # só integração (baixa modelo de embeddings, roda DTW real)
pytest -m ""              # tudo (unit + integração)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

subs_down_n_sync-1.0.2.tar.gz (34.3 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

subs_down_n_sync-1.0.2-py3-none-any.whl (25.7 kB view details)

Uploaded Python 3

File details

Details for the file subs_down_n_sync-1.0.2.tar.gz.

File metadata

  • Download URL: subs_down_n_sync-1.0.2.tar.gz
  • Upload date:
  • Size: 34.3 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for subs_down_n_sync-1.0.2.tar.gz
Algorithm Hash digest
SHA256 7e08436ec7e6d24a1d1313c5bab4eddbcb9a3321f876aa26091504c7cc57f569
MD5 80624356c258198c6d6ac49d67744237
BLAKE2b-256 e44f16f62a9e692ffe35689d1b8eb18669d13af89346d95f93f6da1f5ce1b3e3

See more details on using hashes here.

Provenance

The following attestation bundles were made for subs_down_n_sync-1.0.2.tar.gz:

Publisher: release.yml on airton-soares/subs_down_n_sync

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

File details

Details for the file subs_down_n_sync-1.0.2-py3-none-any.whl.

File metadata

File hashes

Hashes for subs_down_n_sync-1.0.2-py3-none-any.whl
Algorithm Hash digest
SHA256 81d3f8ddd2e7b2403802023914eb62e8a7e73c74cbf802354116b671b73ffb43
MD5 4ac9243b2b3235963bcda3b14b07a49c
BLAKE2b-256 5c1cb77468f3c162b5f1a3164cbde0df7b82103c1d2393f0bc47756d35848e06

See more details on using hashes here.

Provenance

The following attestation bundles were made for subs_down_n_sync-1.0.2-py3-none-any.whl:

Publisher: release.yml on airton-soares/subs_down_n_sync

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page