NER и семантический анализ для русского языка с Navec embeddings

These details have not been verified by PyPI

Project links

Project description

mawo-natasha

NER и семантический анализ для русского языка с Navec embeddings и интеграцией SlovNet.

Возможности

Named Entity Recognition: Извлечение персон, мест и организаций
Navec Embeddings: 250K слов, 300 измерений, ~50МБ
Семантический анализ: Векторные представления для русских слов
Работа офлайн: После первой установки не требует интернета
Интеграция с SlovNet: Опциональная интеграция с mawo-slovnet
Качество: +30% точности семантического анализа

Установка

pip install mawo-natasha

С дополнительными зависимостями

# С интеграцией SlovNet
pip install mawo-natasha[slovnet]

# Всё вместе
pip install mawo-natasha[all]

Быстрый старт

Извлечение именованных сущностей

from mawo_natasha import MAWODoc

# Создаём документ
doc = MAWODoc("Александр Пушкин родился в Москве.")

# Сегментируем на предложения и токены
doc.segment()

# Извлекаем именованные сущности
print(f"Токены: {doc.tokens}")
print(f"Предложения: {doc.sents}")

Семантические векторы (Navec)

from mawo_natasha import RealRussianEmbedding

# Создаём embedding с Navec
embedding = RealRussianEmbedding(use_navec=True)

# Получаем векторное представление текста
doc = embedding("Привет, как дела?")

# Работаем с векторами
for token, emb in zip(doc.tokens, doc.embeddings):
    print(f"{token}: вектор размерностью {emb.shape}")
    # Привет: вектор размерностью (300,)
    # как: вектор размерностью (300,)
    # дела: вектор размерностью (300,)

Семантическая близость

from mawo_natasha import RealRussianEmbedding
import numpy as np

embedding = RealRussianEmbedding(use_navec=True)

# Получаем векторы для слов
vec1 = embedding("кот").embeddings[0]
vec2 = embedding("кошка").embeddings[0]
vec3 = embedding("собака").embeddings[0]

# Вычисляем косинусное сходство
def cosine_sim(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

print(f"кот ↔ кошка: {cosine_sim(vec1, vec2):.3f}")   # ~0.85 (высокое)
print(f"кот ↔ собака: {cosine_sim(vec1, vec3):.3f}")  # ~0.65 (среднее)

Продвинутое использование

Интеграция с SlovNet

from mawo_natasha import MAWODoc
from mawo_slovnet import NewsNERTagger

# Создаём документ
doc = MAWODoc("Владимир Путин встретился с министром обороны.")

# Используем SlovNet для NER
ner = NewsNERTagger()
markup = ner(doc.text)

# Добавляем NER-метки в документ
doc.spans = markup.spans

# Выводим найденные сущности
for span in doc.spans:
    print(f"{span.text} -> {span.type}")
    # Владимир Путин -> PER
    # министром -> (морфология)

Навигация по документу

from mawo_natasha import MAWODoc

text = """
Александр Сергеевич Пушкин родился в Москве.
Он написал "Евгений Онегин" в 1833 году.
"""

doc = MAWODoc(text)
doc.segment()

# Проходим по предложениям
for i, sent in enumerate(doc.sents):
    print(f"Предложение {i+1}: {sent}")

# Работаем с токенами
print(f"Всего токенов: {len(doc.tokens)}")
print(f"Первые 5 токенов: {doc.tokens[:5]}")

Кастомная обработка

from mawo_natasha import MAWODoc

class CustomDoc(MAWODoc):
    def custom_analysis(self):
        """Свой метод анализа."""
        # Подсчёт слов
        word_count = len([t for t in self.tokens if t.isalpha()])

        # Подсчёт предложений
        sent_count = len(self.sents)

        return {
            "words": word_count,
            "sentences": sent_count,
            "avg_words_per_sent": word_count / sent_count if sent_count > 0 else 0
        }

doc = CustomDoc("Это первое предложение. Это второе. Третье здесь.")
doc.segment()
stats = doc.custom_analysis()
print(stats)
# {'words': 7, 'sentences': 3, 'avg_words_per_sent': 2.33}

Navec Embeddings

Характеристики

Словарь: 250,000 русских слов
Размерность: 300 измерений
Размер: ~50МБ
Источник: Обучен на новостных корпусах
Качество: Оптимизировано для русского языка

Автоматическая загрузка

from mawo_natasha import download_navec

# Загрузить Navec embeddings (если ещё не скачаны)
download_navec()

Fallback режим

Если Navec недоступен, используются случайные векторы:

from mawo_natasha import RealRussianEmbedding

# Попытка использовать Navec
embedding = RealRussianEmbedding(use_navec=True)

# Если Navec не найден, автоматически fallback на random embeddings
doc = embedding("тест")
# Работает, но качество ниже

Файлы данных

Embeddings хранятся в:

~/.cache/mawo_natasha/embeddings/
└── navec_news_v1/          # Navec embeddings (~50МБ)

Или в пакете:

mawo_natasha/
├── embeddings/
│   └── navec_news_v1_1B_250K_300d_100q.tar  # Navec
├── dictionaries/           # Служебные словари
└── models/                 # Дополнительные модели

Производительность

Скорость обработки

Операция	Скорость
Токенизация	~5000 токенов/сек
Embedding lookup	~2000 слов/сек
Сегментация предложений	~1000 предложений/сек

Использование памяти

Компонент	Память
Navec embeddings	~50МБ
Базовый анализатор	~10МБ
Итого	~60МБ

Типы сущностей

При интеграции с SlovNet распознаются:

PER (Персона): Имена, фамилии, отчества
LOC (Место): Города, страны, улицы
ORG (Организация): Компании, учреждения

Интеграция с другими MAWO библиотеками

С mawo-pymorphy3

from mawo_natasha import MAWODoc
from mawo_pymorphy3 import create_analyzer

doc = MAWODoc("Мама мыла раму.")
doc.segment()

# Морфологический анализ токенов
morph = create_analyzer()
for token in doc.tokens:
    parses = morph.parse(token)
    if parses:
        print(f"{token}: {parses[0].tag}")

С mawo-razdel

from mawo_natasha import MAWODoc
from mawo_razdel import sentenize

text = "Первое предложение. Второе предложение."

# Natasha сегментация
doc = MAWODoc(text)
doc.segment()
natasha_sents = doc.sents

# Razdel сегментация
razdel_sents = [s.text for s in sentenize(text)]

print(f"Natasha: {natasha_sents}")
print(f"Razdel: {razdel_sents}")

Источники

Основано на:

Natasha от Alexander Kukushkin (github.com/natasha/natasha)
Navec от Alexander Kukushkin (github.com/natasha/navec)
Обучение: Новостные корпуса (RIA, Lenta, etc.)

Решение проблем

Navec не загружается

# Попробуйте загрузить вручную
from mawo_natasha import download_navec
download_navec(force=True)

Ошибка импорта

pip install --upgrade mawo-natasha

Медленная первая загрузка

Это нормально - Navec скачивается один раз (~50МБ). Последующие запуски моментальны.

Разработка

Настройка окружения

git clone https://github.com/mawo-ru/mawo-natasha.git
cd mawo-natasha
pip install -e ".[dev]"

Запуск тестов

pytest tests/

Благодарности

Основано на Natasha и Navec от Alexander Kukushkin.

Улучшения MAWO:

Интеграция с Navec embeddings
Offline-first архитектура
Интеграция с mawo-slovnet
Оптимизация памяти

License

MIT License - see LICENSE file.

Ссылки

GitHub: https://github.com/mawo-ru/mawo-natasha
PyPI: https://pypi.org/project/mawo-natasha/
Проблемы: https://github.com/mawo-ru/mawo-natasha/issues
Оригинальная Natasha: https://github.com/natasha/natasha
Navec: https://github.com/natasha/navec

Сделано с ❤️ командой MAWO

Project details

These details have not been verified by PyPI

Project links

Release history Release notifications | RSS feed

1.0.3

Nov 13, 2025

1.0.2

Nov 8, 2025

1.0.1

Nov 1, 2025

This version

1.0.0

Nov 1, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

mawo_natasha-1.0.0.tar.gz (18.5 kB view details)

Uploaded Nov 1, 2025 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

mawo_natasha-1.0.0-py3-none-any.whl (13.2 kB view details)

Uploaded Nov 1, 2025 Python 3

File details

Details for the file mawo_natasha-1.0.0.tar.gz.

File metadata

Download URL: mawo_natasha-1.0.0.tar.gz
Upload date: Nov 1, 2025
Size: 18.5 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.9.6

File hashes

Hashes for mawo_natasha-1.0.0.tar.gz
Algorithm	Hash digest
SHA256	`b33ec4fabc7e4cdec29ebd969479295681f90026a0dac92582a2c8f4d77d5151`
MD5	`fca7441ef583d48ea4552df17e0ce008`
BLAKE2b-256	`2b8875969bbb1f92d53a8cc33997f99cd89dd919c7e3bab823c45c13f321574b`

See more details on using hashes here.

File details

Details for the file mawo_natasha-1.0.0-py3-none-any.whl.

File metadata

Download URL: mawo_natasha-1.0.0-py3-none-any.whl
Upload date: Nov 1, 2025
Size: 13.2 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.9.6

File hashes

Hashes for mawo_natasha-1.0.0-py3-none-any.whl
Algorithm	Hash digest
SHA256	`a656c59e39bd566a440ca1d15208e5b35acec90061b1cadda19e8aaed7a91cff`
MD5	`a8e7ae973d189fcf7e459957a7235273`
BLAKE2b-256	`f595a604b94b2b270e1c06ac85475363525752e1fdf594f31878dbf0a78c215d`

See more details on using hashes here.

mawo-natasha 1.0.0

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

mawo-natasha

Возможности

Установка

С дополнительными зависимостями

Быстрый старт

Извлечение именованных сущностей

Семантические векторы (Navec)

Семантическая близость

Продвинутое использование

Интеграция с SlovNet

Навигация по документу

Кастомная обработка

Navec Embeddings

Характеристики

Автоматическая загрузка

Fallback режим

Файлы данных

Производительность

Скорость обработки

Использование памяти

Типы сущностей

Интеграция с другими MAWO библиотеками

С mawo-pymorphy3

С mawo-razdel

Источники

Решение проблем

Navec не загружается

Ошибка импорта

Медленная первая загрузка

Разработка

Настройка окружения

Запуск тестов

Благодарности

License

Ссылки

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes