speechlib

speechlib is a library that can do speaker diarization, transcription and speaker recognition on an audio file to create transcripts with actual speaker names. This library also contain audio preprocessor functions.

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

This library do speaker diarization, speaker recognition, transcription on a single wav file to provide a transcript with actual speaker names. This library will also return an array containing result information. This library also contain audio preprocessor functions.

Transcriptor takes 4 arguments. file to transcribe, log_folder, language used for transcribing, voices folder

voices_folder should contain subfolders named with speaker names and their voice samples. This will be used for speaker recognition to identify speaker.

if voice_folder is not provided then speaker tags will be arbitrary.

log_folder is to store final transcript as a text file.

Transcription example:

from speechlib import Transcriptor

file = "obama.wav"
voice_folder = "voices"
language = "english"
log_folder = "logs"

transcriptor = Transcriptor(file, log_folder, language, voice_folder)

res = transcriptor.transcribe()

print(res)

--> [["start", "end", "text", "speaker"], ["start", "end", "text", "speaker"]...]

start: starting time of speech
end: ending time of speech
text: transcribed text for speech during start and end
speaker: speaker of the text

supported languages:

['english', 'chinese', 'german', 'spanish', 'russian', 'korean', 'french', 'japanese', 'portuguese', 'turkish', 'polish', 'catalan', 'dutch', 'arabic', 'swedish', 'italian', 'indonesian', 'hindi', 'finnish', 'vietnamese', 'hebrew', 'ukrainian', 'greek', 'malay', 'czech', 'romanian', 'danish', 'hungarian', 'tamil', 'norwegian', 'thai', 'urdu', 'croatian', 'bulgarian', 'lithuanian', 'latin', 'maori', 'malayalam', 'welsh', 'slovak', 'telugu', 'persian', 'latvian', 'bengali', 'serbian', 'azerbaijani', 'slovenian', 'kannada', 'estonian', 'macedonian', 'breton', 'basque', 'icelandic', 'armenian', 'nepali', 'mongolian', 'bosnian', 'kazakh', 'albanian', 'swahili', 'galician', 'marathi', 'punjabi', 'sinhala', 'khmer', 'shona', 'yoruba', 'somali', 'afrikaans', 'occitan', 'georgian', 'belarusian', 'tajik', 'sindhi', 'gujarati', 'amharic', 'yiddish', 'lao', 'uzbek', 'faroese', 'haitian creole', 'pashto', 'turkmen', 'nynorsk', 'maltese', 'sanskrit', 'luxembourgish', 'myanmar', 'tibetan', 'tagalog', 'malagasy', 'assamese', 'tatar', 'hawaiian', 'lingala', 'hausa', 'bashkir', 'javanese', 'sundanese', 'burmese', 'valencian', 'flemish', 'haitian', 'letzeburgesch', 'pushto', 'panjabi', 'moldavian', 'moldovan', 'sinhalese', 'castilian']

Audio preprocessing example:

from speechlib import PreProcessor

file = "obama1.mp3"

# convert mp3 to wav
PreProcessor.mp3_to_wav(file)   

wav_file = "obama1.wav"

# convert wav file from stereo to mono
PreProcessor.convert_to_mono(wav_file)

# re-encode wav file to have 16-bit PCM encoding
PreProcessor.re_encode(wav_file)

This library uses following huggingface models:

Project details

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

1.1.2

Jun 4, 2024

1.1.1

Jun 4, 2024

1.1.0

Jun 3, 2024

1.0.15

May 27, 2024

1.0.14

May 11, 2024

1.0.13

Feb 29, 2024

1.0.11

Jan 23, 2024

1.0.10

Jan 22, 2024

1.0.9

Jan 22, 2024

1.0.8

Jan 22, 2024

1.0.7

Jan 20, 2024

1.0.6

Jan 20, 2024

1.0.5

Jan 19, 2024

This version

1.0.4

Jan 19, 2024

1.0.3

Jan 19, 2024

1.0.2

Jan 19, 2024

1.0.1

Jan 8, 2024

1.0.0

Jan 8, 2024

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

speechlib-1.0.4.tar.gz (9.9 kB view hashes)

Uploaded Jan 19, 2024 Source

Built Distribution

speechlib-1.0.4-py3-none-any.whl (13.4 kB view hashes)

Uploaded Jan 19, 2024 Python 3

Hashes for speechlib-1.0.4.tar.gz

Hashes for speechlib-1.0.4.tar.gz
Algorithm	Hash digest
SHA256	`ac5ff3ed34f7a3176cc707fb759a1d669676582dc51c81cb2be847d2be5cddae`
MD5	`8d4acee0c52f3438ce72b1577323742d`
BLAKE2b-256	`3e70a3e3d1b2bc74d99e74971c3b44c5d7f0a5c3d2f3b23e77b010ff9c62ec6d`

Hashes for speechlib-1.0.4-py3-none-any.whl

Hashes for speechlib-1.0.4-py3-none-any.whl
Algorithm	Hash digest
SHA256	`3992dcce6a73e032ee20a184351944bf5fa87bf2611a8aa2523194ef98b625e2`
MD5	`2fa3fc8bce5f2849e0319d334e3ff61a`
BLAKE2b-256	`d107ccf90f0869dbda50ef8026369f9ab616d2e1880b47226ded2e9d3fbdd977`