Skip to main content

Speeech Recognition for Indic languages.

Project description


Speech Recognition for Indian Languages


  • IndicASR is built on top of wav2vec2 XLSR-53 and Huggingface's transformers and has pre-trained models for Telugu in the current release.

  • The Telugu model is trained on the train set of MSR Indic corpus + a private corpus of ~94 hours obtained from various telugu interview playlists from Youtube.

Use as python module

pip install --upgrade indicasr
from indicasr import IndicASR
asr = IndicASR("telugu")
# Run one file at once
# "ఈ సినిమా తర్వాత నిర్మాతలు రూటు మార్చే ఆలోచనలో ఉన్నారు"

# Batch inference
# ["ఈ సినిమా తర్వాత నిర్మాతలు రూటు మార్చే ఆలోచనలో ఉన్నారు",
# "భారత దేశము నా మాత్ర భూమి భారతీవులంతా నా సోదరి సోదరులు"]
sample name prediction expected
telugu/hari.16k.wav ఈ సినిమా తర్వాత నిర్మాతలు రూటు మార్చే ఆలోచనలో ఉన్నారు ఈ సినిమా తర్వాత నిర్మాతలు రూటు మార్చే ఆలోచనలో ఉన్నారు
telugu/harsha.16k.wav నేను ఇప్పుడు గడ్డి కొడుతున్నారు నేను ఇప్పుడు గడ్డి కొడుతున్నాను
telugu/indra.16k.wav నేను భారత దేశంలో ఉన్నాను నేను భారత దేశంలో ఉన్నాను
telugu/praneeth.16k.wav నా పేరు ప్రణి బేదపూడి నా పేరు ప్రణీత్ బేదపూడి
telugu/ramana.16k.wav భారత దేశము నా మాత్ర భూమి భారతీవులంతా నా సోదరి సోదరులు భారత దేశము నా మాతృ భూమి భారతీయులంతా నా సోదరీ సోదరులు
telugu/sai_krishna.16k.wav నా పేరు సాయి కృష్ణ నా పేరు సాయి కృష్ణ

Project details

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

indicasr-1.0.0.tar.gz (4.8 kB view hashes)

Uploaded Source

Built Distribution

indicasr-1.0.0-py2.py3-none-any.whl (16.3 kB view hashes)

Uploaded Python 2 Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page