Skip to main content

CLI to download and sync subtitles for video files using semantic embeddings + DTW

Project description

subs_down_n_sync

CI PyPI version Python versions License

CLI Python para baixar e sincronizar legendas para arquivos de vídeo. Idioma padrão: pt-BR, configurável via flag --lang (qualquer tag BCP 47).

A sincronização usa embeddings semânticos multilíngues (sentence-transformers, modelo paraphrase-multilingual-MiniLM-L12-v2) combinados com DTW: baixa uma legenda EN de referência e alinha os cues da legenda alvo aos timestamps da referência por similaridade semântica. Legendas com match exato (hash ou release group) são usadas sem sincronização.

Instalação

pip install subs-down-n-sync

Instale também o ffmpeg:

sudo apt install ffmpeg    # Debian/Ubuntu
brew install ffmpeg        # macOS
winget install Gyan.FFmpeg # Windows

Configure as credenciais do OpenSubtitles:

export OPENSUBTITLES_USERNAME="seu_usuario"
export OPENSUBTITLES_PASSWORD="sua_senha"

Para desenvolvimento, veja Setup.

Setup

Linux/macOS:

python -m venv .venv
source .venv/bin/activate
pip install -e ".[dev]"

Windows (PowerShell):

python -m venv .venv
.\.venv\Scripts\Activate.ps1
pip install -e ".[dev]"

Windows (cmd.exe):

python -m venv .venv
.venv\Scripts\activate.bat
pip install -e ".[dev]"

Instale também o ffmpeg no sistema:

sudo apt install ffmpeg    # Debian/Ubuntu
brew install ffmpeg        # macOS
winget install Gyan.FFmpeg          # Windows (winget)
choco install ffmpeg                # Windows (Chocolatey)
scoop install ffmpeg                # Windows (Scoop)

Confirme que ffmpeg está no PATH rodando ffmpeg -version em novo terminal.

Configuração (uma única vez)

Linux/macOS:

export OPENSUBTITLES_USERNAME="seu_usuario"
export OPENSUBTITLES_PASSWORD="sua_senha"

Windows (PowerShell, sessão atual):

$env:OPENSUBTITLES_USERNAME = "seu_usuario"
$env:OPENSUBTITLES_PASSWORD = "sua_senha"

Windows (persistente, próximas sessões):

setx OPENSUBTITLES_USERNAME "seu_usuario"
setx OPENSUBTITLES_PASSWORD "sua_senha"

Uso

# Default: pt-BR
subs-down-n-sync /caminho/para/filme.mkv

# Outro idioma (BCP 47: 'en', 'pt-BR', 'en-US', 'es', 'ja', ...)
subs-down-n-sync /caminho/para/filme.mkv --lang en
subs-down-n-sync /caminho/para/filme.mkv -l es

# Processar diretório inteiro (busca vídeos recursivamente)
subs-down-n-sync /caminho/para/pasta/
subs-down-n-sync /caminho/para/pasta/ --lang en
subs-down-n-sync /caminho/para/pasta/ --overwrite   # sobrescreve legendas existentes
subs-down-n-sync /caminho/para/pasta/ --parallel    # processa até 2 vídeos simultâneos

# Ou via módulo Python
python -m subs_down_n_sync /caminho/para/filme.mkv

Ao passar um diretório, vídeos que já têm legenda (<video>.<lang>.srt) são pulados por padrão. Use --overwrite / -o para reprocessar. Use --parallel / -p para processar até 2 vídeos em paralelo.

Saída: /caminho/para/filme.<lang>.srt (ex.: filme.pt-BR.srt, filme.en.srt). Isso permite manter legendas do mesmo vídeo em idiomas diferentes sem sobrescrever.

Desenvolvimento

pip install -e ".[dev]"
pytest

Os testes unitários rodam com gate de cobertura de 90% (configurado em pyproject.toml). O CI falha se a cobertura cair abaixo disso.

Para rodar sem o gate (útil ao explorar com -k ou --collect-only):

pytest --no-cov

Lint e formatação

O projeto usa Ruff para formatação e lint.

ruff format .           # aplica formatação
ruff format --check .   # verifica sem escrever (usado no CI)
ruff check .            # roda lint
ruff check --fix .      # aplica fixes automáticos

O CI falha se ruff format --check ou ruff check encontrarem problemas.

Testes de integração

O projeto tem duas camadas de testes:

  • Testes unitários (padrão, pytest) — rápidos, mockam subliminal e sentence_transformers. Não precisam de rede nem de binários externos além do Python.
  • Testes de integração (pytest -m integration) — exercitam o pipeline real de alinhamento semântico (download do modelo sentence-transformers + DTW) sobre legendas reais. Requer acesso à internet no primeiro run para baixar o modelo (~120 MB), cacheado pelo Hugging Face em ~/.cache/huggingface/.

Como rodar cada camada:

pytest                    # só unit (rápido)
pytest -m integration     # só integração (baixa modelo de embeddings, roda DTW real)
pytest -m ""              # tudo (unit + integração)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

subs_down_n_sync-1.1.0.tar.gz (35.0 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

subs_down_n_sync-1.1.0-py3-none-any.whl (26.0 kB view details)

Uploaded Python 3

File details

Details for the file subs_down_n_sync-1.1.0.tar.gz.

File metadata

  • Download URL: subs_down_n_sync-1.1.0.tar.gz
  • Upload date:
  • Size: 35.0 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for subs_down_n_sync-1.1.0.tar.gz
Algorithm Hash digest
SHA256 3c199259a4e47c22e7727443c2bd92f82d66a84c2c7d20e8d062542da9e5d95a
MD5 4298c6f3ae68479c5bbc5fb9de844b56
BLAKE2b-256 899d2768ccd757b0b352c84e28f4d78c463b11de46dbe1d7e5c3dc89bd3ba7d1

See more details on using hashes here.

Provenance

The following attestation bundles were made for subs_down_n_sync-1.1.0.tar.gz:

Publisher: release.yml on airton-soares/subs_down_n_sync

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

File details

Details for the file subs_down_n_sync-1.1.0-py3-none-any.whl.

File metadata

File hashes

Hashes for subs_down_n_sync-1.1.0-py3-none-any.whl
Algorithm Hash digest
SHA256 679ac65cb29196501ca36781e2ca2bdeb3bc2459e793523a07767b29b8c23530
MD5 c15a30756e49577f7c6e336d80b9e33e
BLAKE2b-256 ba2096feed232cd066088f56f5fd73ee94a0e263eba27536fd4d3cd461b7167b

See more details on using hashes here.

Provenance

The following attestation bundles were made for subs_down_n_sync-1.1.0-py3-none-any.whl:

Publisher: release.yml on airton-soares/subs_down_n_sync

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page