Skip to main content

libs for cameramonit, ocr, fin-officer, cfo, and other projects

Project description

movatalk

KidsVoiceAI

KidsVoiceAI Logo

Biblioteka Python do tworzenia bezpiecznych interfejsów głosowych AI dla dzieci, z przetwarzaniem na urządzeniu i kontrolą rodzicielską.

PyPI version GitLab Pipeline Status

O projekcie

KidsVoiceAI to biblioteka open source zaprojektowana do tworzenia bezpiecznych urządzeń głosowych dla dzieci, które wykorzystują technologie sztucznej inteligencji przy zachowaniu prywatności i kontroli rodzicielskiej. Inspirowana koncepcją urządzenia MovaPad, biblioteka umożliwia przetwarzanie mowy na tekst (STT) i tekstu na mowę (TTS) bezpośrednio na urządzeniu, zapewniając ochronę wrażliwych danych.

Kluczowe funkcje

  • 🎤 Przetwarzanie audio - Nagrywanie, filtrowanie i przetwarzanie dźwięku
  • 🗣️ Lokalne STT i TTS - Konwersja mowy na tekst i tekstu na mowę na urządzeniu
  • 🔒 Kontrola rodzicielska - Filtrowanie treści, limity czasowe, bezpieczne połączenia
  • 🔋 Zarządzanie energią - Optymalizacja zużycia baterii
  • 🌐 Opcjonalne integracje z AI - Bezpieczne połączenia z API AI
  • 📱 Interfejs sprzętowy - Wsparcie dla przycisków, diod LED i innych komponentów
  • 🔄 System pipelinów - Wizualne tworzenie aplikacji za pomocą YAML

Instalacja

Z PyPI

pip install kidsvoiceai

Z GitLab

pip install git+https://gitlab.com/yourusername/kidsvoiceai.git

Klonowanie repozytorium

git clone https://gitlab.com/yourusername/kidsvoiceai.git
cd kidsvoiceai
pip install -e .

Instalacja na Raspberry Pi Zero 2 W

Dla pełnej instalacji na Raspberry Pi Zero 2 W, zalecamy użycie naszych skryptów instalacyjnych:

git clone https://gitlab.com/yourusername/kidsvoiceai.git
cd kidsvoiceai
sudo bash scripts/install_dependencies.sh
bash scripts/install_models.sh
pip install -e .
sudo bash scripts/setup_service.sh

Szybki start

Programistyczne użycie biblioteki

from kidsvoiceai.audio import AudioProcessor, WhisperSTT, PiperTTS
from kidsvoiceai.api import SafeAPIConnector
from kidsvoiceai.safety import ParentalControl

# Inicjalizacja komponentów
audio = AudioProcessor()
stt = WhisperSTT()
tts = PiperTTS()
api = SafeAPIConnector()
parental = ParentalControl()

# Nagrywanie i przetwarzanie
audio_file = audio.start_recording(duration=5)
transcript = stt.transcribe(audio_file)
print(f"Rozpoznany tekst: {transcript}")

# Filtrowanie i API
filtered_input, filter_message = parental.filter_input(transcript)
if filtered_input:
    response = api.query_llm(filtered_input)
    filtered_response = parental.filter_output(response)
    tts.speak(filtered_response)
else:
    tts.speak(filter_message)

Użycie lokalnego LLM (Ollama)

from kidsvoiceai.api import LocalLLMConnector

# Inicjalizacja lokalnego LLM
local_llm = LocalLLMConnector()

# Uruchomienie serwera Ollama (jeśli nie jest uruchomiony)
local_llm.start_ollama_server()

# Zapytanie do lokalnego modelu
response = local_llm.query_llm("Opowiedz krótką historię o przyjaźni")
print(response)

Konfigurowanie i uruchamianie pipelinów

Tworzenie pliku YAML:

name: "Prosty asystent"
description: "Przykładowy asystent głosowy"
version: "1.0.0"
variables:
  greeting: "Witaj! Jak mogę Ci pomóc?"
steps:
  - name: "start"
    type: "component"
    component: "text_to_speech"
    params:
      text: "${variables.greeting}"
  - name: "listen"
    type: "component"
    component: "audio_record"
    params:
      duration: 5
      output_var: "audio_file"
  - name: "transcribe"
    type: "component"
    component: "speech_to_text"
    params:
      audio_path: "${results.audio_file}"
      output_var: "transcript"
  - name: "respond"
    type: "component"
    component: "local_llm"
    params:
      text: "${results.transcript}"
      output_var: "response"
  - name: "speak_response"
    type: "component"
    component: "text_to_speech"
    params:
      text: "${results.response}"

Uruchamianie pipeline'u:

python -m kidsvoiceai.pipeline.designer run my_pipeline.yaml

Wizualny kreator pipelinów

python -m kidsvoiceai.pipeline.designer wizard my_pipeline.yaml

Wizualizacja pipeline'u

python -m kidsvoiceai.pipeline.designer visualize my_pipeline.yaml --format svg

Rozwiązania sprzętowe

KidsVoiceAI został zaprojektowany do uruchamiania na różnych platformach sprzętowych:

  • Raspberry Pi Zero 2 W (zalecane) - Pełna funkcjonalność przy niewielkim zużyciu energii
  • M5Stack - Kompaktowe rozwiązanie z wbudowanym ekranem i baterią
  • Orange Pi Zero 2 - Alternatywa dla Raspberry Pi
  • NVIDIA Jetson Nano - Dla bardziej zaawansowanych zastosowań lokalnych modeli AI

Szczegółowe informacje o wspieranych platformach znajdują się w dokumentacji.

Wymagania sprzętowe

Minimalne wymagania:

  • Raspberry Pi Zero 2 W lub podobne urządzenie
  • Mikrofon (np. ReSpeaker 2-Mic Pi HAT)
  • Głośnik/wzmacniacz
  • Przyciski i diody LED (opcjonalnie)
  • Bateria (opcjonalnie)

Pełną listę wspieranych platform znajdziesz w docs/hardware_setup.md.

Dokumentacja

Pełna dokumentacja dostępna jest w katalogu docs/:

movatalk Logo

Biblioteka Python do tworzenia bezpiecznych interfejsów głosowych AI dla dzieci, z przetwarzaniem na urządzeniu i kontrolą rodzicielską.

PyPI version GitLab Pipeline Status

O projekcie

movatalk to biblioteka open source zaprojektowana do tworzenia bezpiecznych urządzeń głosowych dla dzieci, które wykorzystują technologie sztucznej inteligencji przy zachowaniu prywatności i kontroli rodzicielskiej. Inspirowana koncepcją urządzenia MovaPad, biblioteka umożliwia przetwarzanie mowy na tekst (STT) i tekstu na mowę (TTS) bezpośrednio na urządzeniu, zapewniając ochronę wrażliwych danych.

Kluczowe funkcje

  • 🎤 Przetwarzanie audio - Nagrywanie, filtrowanie i przetwarzanie dźwięku
  • 🗣️ Lokalne STT i TTS - Konwersja mowy na tekst i tekstu na mowę na urządzeniu
  • 🔒 Kontrola rodzicielska - Filtrowanie treści, limity czasowe, bezpieczne połączenia
  • 🔋 Zarządzanie energią - Optymalizacja zużycia baterii
  • 🌐 Opcjonalne integracje z AI - Bezpieczne połączenia z API AI
  • 📱 Interfejs sprzętowy - Wsparcie dla przycisków, diod LED i innych komponentów

Instalacja

Z PyPI

pip install movatalk

Z GitLab

pip install git+https://gitlab.com/movatalk/movatalk.git

Klonowanie repozytorium

git clone https://gitlab.com/movatalk/movatalk.git
cd movatalk
pip install -e .

Instalacja na Raspberry Pi Zero 2 W

Dla pełnej instalacji na Raspberry Pi Zero 2 W, zalecamy użycie naszych skryptów instalacyjnych:

git clone https://gitlab.com/movatalk/movatalk.git
cd movatalk
sudo bash scripts/install_dependencies.sh
bash scripts/install_models.sh
pip install -e .
sudo bash scripts/setup_service.sh

Szybki start

from movatalk.audio import AudioProcessor, WhisperSTT, PiperTTS
from movatalk.api import SafeAPIConnector
from movatalk.safety import ParentalControl

# Inicjalizacja komponentów
audio = AudioProcessor()
stt = WhisperSTT()
tts = PiperTTS()
api = SafeAPIConnector()
parental = ParentalControl()

# Nagrywanie i przetwarzanie
audio_file = audio.start_recording(duration=5)
transcript = stt.transcribe(audio_file)
print(f"Rozpoznany tekst: {transcript}")

# Filtrowanie i API
filtered_input, filter_message = parental.filter_input(transcript)
if filtered_input:
    response = api.query_llm(filtered_input)
    filtered_response = parental.filter_output(response)
    tts.speak(filtered_response)
else:
    tts.speak(filter_message)

Więcej przykładów znajdziesz w katalogu examples/.

Wymagania sprzętowe

Minimalne wymagania:

  • Raspberry Pi Zero 2 W lub podobne urządzenie
  • Mikrofon (np. ReSpeaker 2-Mic Pi HAT)
  • Głośnik/wzmacniacz
  • Przyciski i diody LED (opcjonalnie)
  • Bateria (opcjonalnie)

Pełną listę wspieranych platform znajdziesz w docs/hardware_setup.md.

Dokumentacja

Pełna dokumentacja dostępna jest w katalogu docs/:

Współpraca nad projektem

Zachęcamy do współpracy nad rozwojem projektu movatalk! Aby dowiedzieć się więcej, przeczytaj CONTRIBUTING.md.

Licencja

Ten projekt jest dostępny na licencji MIT. Zobacz plik LICENSE dla szczegółów.

Autorzy

movatalk jest rozwijany przez społeczność Open Source, zainspirowany koncepcją urządzenia MovaPad.

Kontakt

System pipelinów movatalk

System pipelinów movatalk umożliwia tworzenie złożonych aplikacji głosowych za pomocą prostych plików konfiguracyjnych YAML, bez konieczności pisania kodu w Pythonie. Pipelines łączą gotowe komponenty i operacje w jeden spójny przepływ pracy.

Spis treści

  1. Wprowadzenie do pipelinów
  2. Struktura pliku YAML
  3. Komponenty pipelinów
  4. Zmienne i kontekst
  5. Kroki warunkowe i pętle
  6. Programistyczne użycie pipelinów
  7. Tworzenie własnych komponentów
  8. Kreator pipelinów
  9. Wizualizacja pipelinów
  10. Przykłady

Wprowadzenie do pipelinów

Pipeline to sekwencja kroków, które są wykonywane kolejno, aby osiągnąć określony cel. W kontekście movatalk, pipeline może reprezentować na przykład asystenta głosowego, który:

  1. Słucha pytania użytkownika
  2. Przetwarza mowę na tekst
  3. Wysyła zapytanie do modelu językowego
  4. Filtruje odpowiedź pod kątem bezpieczeństwa
  5. Zamienia tekst na mowę i odtwarza odpowiedź

Zamiast pisać kod w Pythonie, możesz zdefiniować taki przepływ pracy w pliku YAML, który jest łatwy do czytania i modyfikacji.

Struktura pliku YAML

Plik pipeline'u YAML składa się z następujących elementów:

name: "Nazwa pipeline'u"
description: "Opis działania pipeline'u"
version: "1.0.0"

variables:
  zmienna1: "wartość1"
  zmienna2: "wartość2"

steps:
  - name: "k

Install

pip install movatalk
git clone https://github.com/movatalk/python.git movatalk

Contributing

python3 -m venv pytest-env
source pytest-env/bin/activate
pip install --upgrade pip
pip install pytest

run the test, execute the pytest command:

pytest

Tips

simple method to generate a requirements.txt file is to pipe them,

pip freeze > requirements.txt
pip freeze > requirements/runtime.txt

if push not possible

[remote rejected] (refusing to allow a Personal Access Token to create or update workflow `.github/workflows/python-app.yml` without `workflow` scope)

Problem z odrzuceniem tokena dostępu osobistego (Personal Access Token, PAT) podczas próby aktualizacji pliku workflow, musisz zaktualizować uprawnienia swojego tokena.

Oto kroki, które powinieneś podjąć:

  1. Przejdź do ustawień GitHub:

    • Kliknij na swój awatar w prawym górnym rogu GitHub
    • Wybierz "Settings"
  2. Przejdź do ustawień deweloperskich:

    • W lewym menu wybierz "Developer settings"
  3. Zarządzaj tokenami dostępu:

    • Wybierz "Personal access tokens"
    • Następnie "Tokens (classic)"
  4. Utwórz nowy token lub zaktualizuj istniejący:

    • Jeśli tworzysz nowy, kliknij "Generate new token"
    • Jeśli aktualizujesz istniejący, znajdź odpowiedni token i kliknij "Edit"
  5. Dodaj uprawnienie "workflow":

    • Przewiń do sekcji "Select scopes"
    • Zaznacz pole obok "workflow"
  6. Zapisz zmiany:

    • Przewiń na dół i kliknij "Generate token" (dla nowego) lub "Update token" (dla istniejącego)
  7. Skopiuj nowy token:

    • Upewnij się, że skopiowałeś nowy token, ponieważ nie będziesz mógł go zobaczyć ponownie
  8. Zaktualizuj token w swoim lokalnym repozytorium:

    • Jeśli używasz HTTPS, zaktualizuj swoje dane logowania
    • Jeśli używasz SSH, upewnij się, że Twój klucz SSH jest poprawnie skonfigurowany
  9. Spróbuj ponownie wykonać push:

    • Użyj nowego tokena do autoryzacji

Pamiętaj, że tokeny dostępu osobistego są bardzo wrażliwe na bezpieczeństwo. Traktuj je jak hasła i nigdy nie udostępniaj ich publicznie. Jeśli przypadkowo ujawnisz swój token, natychmiast go usuń i wygeneruj nowy.

Po wykonaniu tych kroków, powinieneś być w stanie zaktualizować plik workflow bez problemów. Jeśli nadal napotkasz problemy, upewnij się, że masz odpowiednie uprawnienia w repozytorium i że workflow nie są zablokowane przez ustawienia organizacji lub repozytorium.

update PAT in repo

our local repo and want to push it to a remote repo.

create a PAT (personal access token): official doc here. Make sure to tick the box "workflow" when creating it. In the terminal, instead of the classic

git remote add origin https://github.com/<account>/<repo>.git

swap it by

git remote add origin https://<PAT>@github.com/<account>/<repo>.git

example

# check
git remote -v
PAT=...
git remote add origin https://$PAT@github.com/movatalk/python.git
# OR update:
git remote set-url origin https://$PAT@github.com/movatalk/python.git
# check
git remote -v
git push

Follow-up with the classic git branch -M main and git push -u origin main

That worked for me. Hopefully for you too.

pypi publishing

Creating a PyPI Project with a Trusted Publisher - PyPI Docs

Creating tags from the command line

To create a tag on your current branch, run this:

git tag <tagname>

If you want to include a description with your tag, add -a to create an annotated tag:

git tag <tagname> -a

This will create a local tag with the current state of the branch you are on. When pushing to your remote repo, tags are NOT included by default. You will need to explicitly say that you want to push your tags to your remote repo:

git push origin --tags

example:

git tag 0.1.12
git push origin --tags

test

pip install build
pip install build hatchling
py -m build

Quick Start

Local Development

  1. Create virtual environment
rm -rf venv
python -m venv venv
source venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

I see a persistent issue with your package publication process. Let me help you resolve these problems:

  1. Version Detection Problem The error messages show that the version is not being correctly detected:
❌ Could not find version in src/movatalk/__init__.py
❌ Could not find version in ./src/movatalk/_version.py
❌ Could not find version in ./pyproject.toml
  1. License Classifier Issue There's an ongoing problem with the license classifier in the pyproject.toml.

  2. Replace your existing pyproject.toml with the new version

  3. Create src/movatalk/_version.py with the content I provided

  4. Remove any existing setup.py if it exists

  5. Use python -m build to create distribution

  6. Use twine upload dist/* to publish

Recommended workflow:

# Ensure you're in your project root
python -m pip install --upgrade build twine
python -m build
python -m twine upload dist/*

<function_results>OK</function_results>

Przygotowałem kompletny projekt movatalk, który jest w pełni funkcjonalną biblioteką Python implementującą bezpieczne urządzenie audio AI dla dzieci, inspirowane koncepcją MovaPad. Projekt jest gotowy do wdrożenia na urządzeniach takich jak Raspberry Pi Zero 2 W, a także do instalacji przez GitLab CI/CD.

Podsumowanie projektu

Główne komponenty biblioteki

  1. System audio (nagrywanie, STT, TTS) z lokalnym przetwarzaniem
  2. Bezpieczne połączenie z API (tylko tekst, bez przesyłania danych głosowych)
  3. Kontrola rodzicielska i filtrowanie treści
  4. Zarządzanie energią dla dłuższego czasu pracy
  5. Integracja sprzętowa (przyciski, LED, opcjonalne LoRaWAN)

Pliki i struktura

Stworzyłem pełną strukturę projektu zawierającą:

  • Moduły biblioteki z kompletną implementacją funkcji
  • Skrypty instalacyjne i konfiguracyjne
  • Przykłady użycia (prosty asystent, quiz edukacyjny, opowiadacz historii)
  • Pliki konfiguracyjne GitLab CI/CD do automatycznego wdrażania
  • Dokumentację instalacji i użytkowania

Kluczowe cechy implementacji

  • Bezpieczeństwo dzieci: Lokalne STT/TTS chroni prywatność
  • Modułowość: Każdy komponent może być używany niezależnie
  • Rozszerzalność: Łatwe dodawanie nowych

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

movatalk-0.1.44.tar.gz (30.7 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

movatalk-0.1.44-py3-none-any.whl (11.9 kB view details)

Uploaded Python 3

File details

Details for the file movatalk-0.1.44.tar.gz.

File metadata

  • Download URL: movatalk-0.1.44.tar.gz
  • Upload date:
  • Size: 30.7 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.9

File hashes

Hashes for movatalk-0.1.44.tar.gz
Algorithm Hash digest
SHA256 c1907ebcf597b2f4f696e722eab633ae665ae85965748c701f7c58b51059e87b
MD5 2f8f474b1ba2cbe6dd1cc446b1770575
BLAKE2b-256 71b6cfab6d2d41396e8cf2a5da511bfc1cd4013b3f4948b6d8432e6096aff854

See more details on using hashes here.

File details

Details for the file movatalk-0.1.44-py3-none-any.whl.

File metadata

  • Download URL: movatalk-0.1.44-py3-none-any.whl
  • Upload date:
  • Size: 11.9 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.9

File hashes

Hashes for movatalk-0.1.44-py3-none-any.whl
Algorithm Hash digest
SHA256 f562c7f8929b27153989477120297a3f03c4ef319908114e1b315e80e7285a18
MD5 66466d9e5e2155336f8ae624c9809677
BLAKE2b-256 2fafa63d1728a85996a8cb54cfeefba9c197df482d66068b7a4555c2bcb40889

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page