aniemore

Aniemore (Artem Nikita Ilya EMOtion REcognition) is a library for emotion recognition in voice and text for russian language.

Project description

Aniemore Logo

Aniemore - это открытая библиотека искусственного интеллекта для потоковой аналитики эмоциональных оттенков речи человека.

Основные технические параметры

Объем набора данных Russian Emotional Speech Dialogues содержит более 3000 аудиофрагментов представляющих 200 различных людей;
Модели способны распознавать эмоции в зашумленных аудиофайлах длительностью в 3 секунды;
Скорость обработки и ответа модели составляет не более 5 секунд;
Пословная ошибка модели WER 30%;
Совокупная точность модели 75%
Диапазон распознавания эмоций: злость, отвращение, страх, счастье, интерес, грусть, нейтрально;
Акустические возможности - 3 уровня.

Описание

Aniemore - это библиотека для Python, которая позволяет добавить в ваше программное обеспечение возможность определять эмоциональный фон речи человека, как в голосе, так и в тексте. Для этого в библиотеке разработано два соответсвующих модуля - Voice и Text.

Aniemore содержит свой собственный датасет RESD (Russian Emotional Speech Dialogues) и другие наборы данных разного объема, которые вы можете использовать для обучения своих моделей.

Датасет	Примечание
RESD	7 эмоций, 4 часа аудиозаписей диалогов студийное качество
RESD_Annotated	RESD + speech-to-text аннотации
REPV	2000 голосовых сообщений (.ogg), 200 актеров, 2 нейтральные фразы, 5 эмоций
REPV-S	140 голосовых сообщений (.ogg) "Привет, как дела?" с разными эмоциями

Вы можете использовать готовые предобученные модели из библиотеки:

Модель	Точность
Голосовые модели
wav2vec2-xlsr-53-russian-emotion-recognition	73%
wav2vec2-emotion-russian-resd	75%
wavlm-emotion-russian-resd	82%
hubert-emotion-russian-resd	75%
unispeech-sat-emotion-russian-resd Copied	72%
wavlm-bert-base	81%
wavlm-bert-fusion	83%
Текстовые модели
rubert-base-emotion-russian-cedr-m7	74%
rubert-tiny2-russian-emotion-detection	85%
rubert-large-emotion-russian-cedr-m7	76%
rubert-tiny-emotion-russian-cedr-m7	72%

Показатели моделей в разрезе эмоций

показатели моделей.jpg

Установка

pip install aniemore

Минимальные требования к оборудованию

Архитектура	ЦПУ	ОЗУ	SSD
Wave2Vec2	2 ядра	8 ГБ	40 ГБ
WaveLM	2 ядра	8 ГБ	40 ГБ
Hubert	2 ядра	8 ГБ	40 ГБ
UniSpeechSAT	2 ядра	8 ГБ	40 ГБ
Bert_Tiny/Bert_Tiny2	2 ядра	4 ГБ	40 ГБ
Bert_Base	2 ядра	4 ГБ	40 ГБ
Bert_Large	2 ядра	8 ГБ	40 ГБ
WavLM Bert Base	2 ядра	16 ГБ	40 ГБ
WavLM Bert Fusion	2 ядра	16 ГБ	40 ГБ
Whisper Tiny	2 ядра	4 ГБ	40 ГБ
Whisper Base	2 ядра	4 ГБ	40 ГБ
Whisper Small	2 ядра	4 ГБ	40 ГБ
Whisper Medium	2 ядра	8 ГБ	40 ГБ
Whisper Large	2 ядра	16 ГБ	40 ГБ
TextEnhancer	2 ядра	4 ГБ	40 ГБ

Пример использования

Ниже приведены простые примеры использования библиотеки. Для более детальных примеров, в том числе загрузка cобственной модели - смотрите сделанный для этого Google Colab

Распознавание эмоций в тексте

import torch
from aniemore.recognizers.text import TextRecognizer
from aniemore.models import HuggingFaceModel

model = HuggingFaceModel.Text.Bert_Tiny2
device = 'cuda' if torch.cuda.is_available() else 'cpu'
tr = TextRecognizer(model=model, device=device)

tr.recognize('это работает? :(', return_single_label=True)

Распознавание эмоций в голосе

import torch
from aniemore.recognizers.voice import VoiceRecognizer
from aniemore.models import HuggingFaceModel

model = HuggingFaceModel.Voice.WavLM
device = 'cuda' if torch.cuda.is_available() else 'cpu'
vr = VoiceRecognizer(model=model, device=device)
vr.recognize('/content/ваш-звуковой-файл.wav', return_single_label=True)

Распознавание эмоций (мультимодальный метод)

import torch
from aniemore.recognizers.multimodal import VoiceTextRecognizer
from aniemore.utils.speech2text import SmallSpeech2Text
from aniemore.models import HuggingFaceModel

model = HuggingFaceModel.MultiModal.WavLMBertFusion
s2t_model = SmallSpeech2Text()

text = SmallSpeech2Text.recognize('/content/ваш-звуковой-файл.wav').text
device = 'cuda' if torch.cuda.is_available() else 'cpu'

vtr = VoiceTextRecognizer(model=model, device=device)
vtr.recognize(('/content/ваш-звуковой-файл.wav', text), return_single_label=True)

Распознавание эмоций (мультимодальный метод с автоматическим распознаванием речи)

import torch
from aniemore.recognizers.multimodal import MultiModalRecognizer
from aniemore.utils.speech2text import SmallSpeech2Text
from aniemore.models import HuggingFaceModel

model = HuggingFaceModel.MultiModal.WavLMBertFusion
device = 'cuda' if torch.cuda.is_available() else 'cpu'
mr = MultiModalRecognizer(model=model, s2t_model=SmallSpeech2Text(), device=device)
mr.recognize('/content/ваш-звуковой-файл.wav', return_single_label=True)

Доп. ссылки

Все модели и датасеты, а так же примеры их использования вы можете посмотреть в нашем HuggingFace профиле

Аффилированость

Aniemore (Artem Nikita Ilya EMOtion REcognition)

Разработка открытой библиотеки произведена коллективом авторов на базе ООО "Социальный код". Результаты работы получены за счет гранта Фонда содействия развитию малых форм предприятий в научно-технической сфере (Договор №1ГУКодИИС12-D7/72697 от 22.12.2021).

Цитирование

Для цитировация воспользуйтесь пунктом Cite this repository в правом меню About этого проекта, или скопируйте информацию ниже:

@software{Lubenets_Aniemore,
author = {Lubenets, Ilya and Davidchuk, Nikita and Amentes, Artem},
license = {MIT},
title = {{Aniemore}},
url = {https://github.com/aniemore/Aniemore}
}

Project details

Release history Release notifications | RSS feed

This version

1.2.3

Feb 3, 2024

1.2.2

May 15, 2023

1.2.1

May 14, 2023

1.2.0

May 11, 2023

1.1.1

Apr 22, 2023

1.0.6

Apr 4, 2023

1.0.5

Mar 23, 2023

1.0.4

Mar 14, 2023

1.0.3

Mar 12, 2023

1.0.2

Mar 8, 2023

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

aniemore-1.2.3.tar.gz (19.6 kB view details)

Uploaded Feb 3, 2024 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

aniemore-1.2.3-py3-none-any.whl (26.6 kB view details)

Uploaded Feb 3, 2024 Python 3

File details

Details for the file aniemore-1.2.3.tar.gz.

File metadata

Download URL: aniemore-1.2.3.tar.gz
Upload date: Feb 3, 2024
Size: 19.6 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: poetry/1.4.2 CPython/3.10.9 Windows/10

File hashes

Hashes for aniemore-1.2.3.tar.gz
Algorithm	Hash digest
SHA256	`ac9e5d9f92c23c6febdec821f5eaa822c6db432cfa9d72b8362a5ac2e7e1533f`
MD5	`50b0789258d5838f3eaf2fb807dd98e7`
BLAKE2b-256	`5b46951b47ad9d40bfcef119c6df7d23f2a48d0f3a7fccbac51c190e0c136e6b`

See more details on using hashes here.

File details

Details for the file aniemore-1.2.3-py3-none-any.whl.

File metadata

Download URL: aniemore-1.2.3-py3-none-any.whl
Upload date: Feb 3, 2024
Size: 26.6 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: poetry/1.4.2 CPython/3.10.9 Windows/10

File hashes

Hashes for aniemore-1.2.3-py3-none-any.whl
Algorithm	Hash digest
SHA256	`d37f7c6197c817a39da9ef43196581f0507ff73ae3b0d687f63c030582741056`
MD5	`945dd0291f39446371426320e50447f2`
BLAKE2b-256	`7b88e55c000265403b36deafe9943d94cad4a1d8722dfc1a447fb7da89fd392b`

See more details on using hashes here.

aniemore 1.2.3

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

Основные технические параметры

Описание

Показатели моделей в разрезе эмоций

Установка

Минимальные требования к оборудованию

Пример использования

Распознавание эмоций в тексте

Распознавание эмоций в голосе

Распознавание эмоций (мультимодальный метод)

Распознавание эмоций (мультимодальный метод с автоматическим распознаванием речи)

Доп. ссылки

Аффилированость

Цитирование

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes