Một công cụ TTS sử dụng mô hình Bark/Suno để chuyển đổi văn bản thành giọng nói.

These details have not been verified by PyPI

Project description

Công Cụ Text-to-Speech Nâng Cao Sử Dụng Suno/Bark

Đây là một công cụ dòng lệnh (CLI) mạnh mẽ được xây dựng bằng Python, cho phép chuyển đổi văn bản thành giọng nói (Text-to-Speech) chất lượng cao bằng cách sử dụng mô hình AI suno/bark. Ứng dụng được thiết kế với giao diện tương tác, thân thiện với người dùng và cung cấp nhiều tính năng chuyên nghiệp để tạo và quản lý file âm thanh.

Công cụ này được phát triển bởi Justin Nguyen 🇻🇳.

✨ Tính Năng Nổi Bật

Box Voice Nghe Thử Giọng Nói: Một menu tương tác cho phép người dùng nghe thử và khám phá hàng trăm giọng nói khác nhau từ nhiều ngôn ngữ.
Xử Lý Hàng Loạt (Batch Processing): Tự động quét các file .txt trong thư mục Input, xử lý chúng theo thứ tự và lưu kết quả vào thư mục Output.
Hàng Đợi Thông Minh: Tự động phát hiện các file mới được thêm vào thư mục Input trong quá trình xử lý và thêm chúng vào cuối hàng đợi.
Kiểm Tra Phần Cứng: Tích hợp công cụ chẩn đoán, giúp người dùng kiểm tra thông số hệ thống (CPU, RAM, GPU, VRAM) và xác định xem máy tính có đủ điều kiện để chạy ứng dụng hiệu quả hay không.

🚀 Cài Đặt

Để chạy được công cụ này, máy tính của bạn cần đáp ứng các yêu cầu sau.

Yêu Cầu Hệ Thống

Python: Phiên bản 3.11 được khuyến nghị để đảm bảo tương thích với tất cả các thư viện.
Pip: Trình quản lý gói của Python.
FFmpeg: Một công cụ xử lý đa phương tiện cần thiết cho thư viện pydub.
- Trên macOS (dùng Homebrew): brew install ffmpeg
- Trên Windows: Tải về từ trang chủ FFmpeg và thêm vào biến môi trường PATH.

Các Bước Cài Đặt

Tạo và kích hoạt môi trường ảo: (Rất khuyến khích)

# Sử dụng đúng phiên bản python 3.11
python3.11 -m venv venv

Trên macOS/Linux:
```
source venv/bin/activate
```
Trên Windows:
```
.\venv\Scripts\activate
```

Cài đặt các thư viện cần thiết: Tất cả các gói phụ thuộc đã được liệt kê trong file requirements.txt. Chạy lệnh sau:
```
pip install -r requirements.txt
```
Lưu ý: Để tối ưu hóa cho GPU NVIDIA, hãy đảm bảo bạn đã cài đặt phiên bản PyTorch hỗ trợ CUDA theo hướng dẫn trên trang chủ PyTorch.

⚙️ Hướng Dẫn Sử Dụng

Sau khi cài đặt thành công, bạn có thể khởi chạy công cụ bằng một lệnh duy nhất.

Chạy ứng dụng:
```
python3 app.py
```
Chương trình sẽ khởi động, tải mô hình AI (có thể mất vài phút ở lần chạy đầu tiên) và hiển thị menu chính.
Các Chức Năng Chính:
- 1. Nghe thử các giọng nói (Box Voice):
  - Hiển thị menu chọn ngôn ngữ, sau đó là danh sách các giọng nói có sẵn.
  - Chọn một giọng để nghe thử. Âm thanh sẽ được tạo và lưu vào cache ở lần đầu, và phát ngay lập tức ở những lần sau.
- 2. Tạo âm thanh từ file (Text To Speech):
  - Đặt các file .txt của bạn (ví dụ: 1_Chapter1.txt, 2_Chapter2.txt) vào thư mục Input.
  - Chọn chức năng này, chương trình sẽ tự động tìm và xử lý tất cả các file theo thứ tự.
  - File âm thanh đầu ra sẽ được lưu trong thư mục Output.
- 3. Kiểm tra phần cứng:
  - Hiển thị một báo cáo chi tiết về phần cứng máy tính của bạn và đưa ra kết luận xem máy có đủ điều kiện để chạy mượt mà hay không.
- 4. Thông tin tác giả:
  - Hiển thị thông tin về người phát triển và các công nghệ đã được sử dụng.
- 5. Thoát chương trình.

📂 Cấu Trúc Dự Án

project_voice/
│
├── audio_cache/          # Lưu cache 
├── Input/                # Chứa các file .txt đầu vào
├── Output/               # Chứa các file .wav đầu ra
│
├── config.py             # Cấu hình giọng nói, văn bản mẫu, yêu cầu hệ thống
├── tts_utils.py          # Các hàm cốt lõi liên quan đến model TTS
├── box_voice.py          # Logic cho chức năng "Nghe thử"
├── file_tts.py           # Logic cho chức năng "Xử lý hàng loạt"
├── hardware_check.py     # Logic cho chức năng "Kiểm tra phần cứng"
├── ui.py                 # Quản lý giao diện người dùng (banner, menu)
├── about.py              # Logic cho màn hình "Thông tin tác giả"
├── app.py                # Điểm khởi đầu của ứng dụng
└── requirements.txt      # Danh sách các thư viện cần thiết

❤️ Ủng Hộ Tác Giả

Công cụ này được phát triển và duy trì hoàn toàn miễn phí. Nếu bạn thấy nó hữu ích và muốn hỗ trợ tác giả để có thêm động lực phát triển các dự án mã nguồn mở khác, bạn có thể ủng hộ qua các kênh dưới đây. Sự ủng hộ của bạn, dù nhỏ, cũng là một nguồn động viên to lớn.

Xin chân thành cảm ơn!

Kênh	Thông Tin
🏦 MB Bank	STK: `079 88888 88888` Tên: NGUYEN DUC HUY
📱 Momo	`0982 579 098`
🌐 PayPal	KZN2CVN5QM9EN

📬 Thông Tin Liên Lạc

Telegram: @Justin_Nguyen_SG

Project details

These details have not been verified by PyPI

Development Status
- 4 - Beta
Operating System
- OS Independent
Programming Language
- Python :: 3
Topic
- Multimedia :: Sound/Audio :: Speech

Release history Release notifications | RSS feed

This version

1.0.3

Sep 11, 2025

1.0.2

Sep 11, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

jntts_cli-1.0.3.tar.gz (24.8 kB view details)

Uploaded Sep 11, 2025 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

jntts_cli-1.0.3-py3-none-any.whl (25.0 kB view details)

Uploaded Sep 11, 2025 Python 3

File details

Details for the file jntts_cli-1.0.3.tar.gz.

File metadata

Download URL: jntts_cli-1.0.3.tar.gz
Upload date: Sep 11, 2025
Size: 24.8 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.11.9

File hashes

Hashes for jntts_cli-1.0.3.tar.gz
Algorithm	Hash digest
SHA256	`861c864f0f8dc5c1f92c839acffbced64b68f106dbd86231b23c5e2d2267d0d3`
MD5	`de9b596f0a2e0d8e9a9c229937b0ea90`
BLAKE2b-256	`0e3277adc26de5cec7edcc311e6f14e8d64673aad82cd49c3bc79e8bfde0a4f5`

See more details on using hashes here.

File details

Details for the file jntts_cli-1.0.3-py3-none-any.whl.

File metadata

Download URL: jntts_cli-1.0.3-py3-none-any.whl
Upload date: Sep 11, 2025
Size: 25.0 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.11.9

File hashes

Hashes for jntts_cli-1.0.3-py3-none-any.whl
Algorithm	Hash digest
SHA256	`71161c8324bd5430b7f5b15b26c64c2e281d9272f3d5540c5d66753f64229ba3`
MD5	`a7cd4316727f617fb0e6548e71d91739`
BLAKE2b-256	`b1baff419398ba3878b89af9fea6b733ad080f676542debf8a2dc2b58dfc9d99`

See more details on using hashes here.

jntts-cli 1.0.3

Navigation

Verified details

Maintainers

Unverified details

Meta

Classifiers

Project description

Công Cụ Text-to-Speech Nâng Cao Sử Dụng Suno/Bark

✨ Tính Năng Nổi Bật

🚀 Cài Đặt

Yêu Cầu Hệ Thống

Các Bước Cài Đặt

⚙️ Hướng Dẫn Sử Dụng

📂 Cấu Trúc Dự Án

❤️ Ủng Hộ Tác Giả

📬 Thông Tin Liên Lạc

Project details

Verified details

Maintainers

Unverified details

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes