Skip to main content

A tool for working with text data

Project description

LANCETNIC 4.0.0

PyPI Package Version PyPi status Downloads Downloads MIT License

LANCETNIC - это библиотека, которая представляет базовый набор для решения задач по поиску взаимосвязей между признаками объекта и целевой переменной.

Решение построено на парадигме обучения с учителем: модель обучается на размеченных данных, где каждому объекту сопоставлена соответствующая метка (целевая переменная).

Решаемые задачи

Классификация

Библиотека поддерживает два фундаментальных класса задач машинного обучения:

1. Задача классификации

Состоит в предсказании категориальной метки (класса) для объекта.

  • Бинарная классификация (спам/не спам; выдача кредита/отказ в выдаче и т.д.)
  • Многоклассовая классификация (определение тональности текста: позитивный/негативный/нейтральный и т.д.)

2. Задача регрессии

Состоит в предсказании непрерывной числовой величины.

  • Прогнозирование рыночной стоимости недвижимости
  • Оценка времени доставки заказов
  • Предсказание любых количественных показателей

3. Многозадачное обучение (Multi-Task Learning) ⭐ НОВОЕ в v4.0.0

Одновременное решение задач классификации и регрессии на одном наборе данных.

  • Совместное прогнозирование категории и числового значения
  • Оптимизация нескольких целей одновременно
  • Настраиваемое соотношение потерь для каждой задачи

🛠 Функциональные возможности

LANCETNIC предоставляет комплексный набор инструментов для полного цикла машинного обучения:

  • Предварительная обработка и векторизация данных

    • Поддержка текстовых данных через TF-IDF векторизацию
    • Поддержка числовых признаков с масштабированием
    • Гибридная обработка комбинированных данных
  • Обучение модели на размеченных выборках

    • Автоматическое разделение на обучающую и валидационную выборки
    • Настраиваемые гиперпараметры (размер скрытого слоя, количество слоев, dropout)
    • Выбор оптимизатора (Adam, SGD, RMSprop)
    • Выбор функции потерь (CrossEntropyLoss и MSELoss)
  • Визуализация ключевых метрик качества

    • Матрица ошибок (Confusion Matrix) для классификации
    • Графики динамики потерь (Train/Val Loss)
    • Графики точности (Train/Val Accuracy)
    • F1-score, Precision, Recall для классификации
    • MAE, RMSE для регрессии
    • Scatter plot с линией регрессии
    • Распределение классов в датасете
  • Инференс - применение обученной модели к новым данным

Библиотека поддерживает работу как с чисто текстовыми данными, так и с гибридными наборами, включающими комбинации различных типов информации.

🏗 Архитектуры моделей

Модели для классификации:

  • ScalpelMC - полносвязная нейронная сеть для многоклассовой классификации
  • LancetMC - LSTM-сеть для работы с последовательностями
  • LancetMCA - LSTM с механизмом внимания (Attention)
  • LancetMCA_gru - GRU с механизмом внимания

Модели для регрессии:

  • ScalpelReg - полносвязная нейронная сеть для регрессии
  • LancetReg - LSTM-сеть для регрессии на последовательностях

Модели для многозадачного обучения:

  • ScalpelMTSK - мультимодель, объединяющая классификацию и регрессию

✨ Преимущества

  • Эффективность обучения - библиотека обеспечивает высокую скорость обучения моделей при сохранении удобства использования
  • Низкие аппаратные требования - в отличие от крупных языковых моделей (LLM), LANCETNIC не предъявляет высоких требований к вычислительным ресурсам, что делает её доступной для широкого круга пользователей и сценариев
  • Персонализация под данные пользователя - возможность обучения моделей на собственных размеченных наборах данных, что обеспечивает адаптацию к специфике конкретной предметной области
  • Автоматическое сохранение результатов - все метрики, графики и модели сохраняются автоматически в структурированные папки
  • Гибкая настройка - полный контроль над архитектурой модели и параметрами обучения

🚀 Установка:

Установка с помощью CUDA

Для работы с графическим процессором рекомендуется установить PyTorch с поддержкой CUDA (ОПЦИОНАЛЬНО):

pip install torch==2.5.1+cu124 --index-url https://download.pytorch.org/whl/cu124

Затем установка lancetnic:

pip install lancetnic

👥 Авторы

  • Lancet52
  • e-mail для связи: lancetFPV@yandex.ru

📄 Документация

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

lancetnic-4.0.0.tar.gz (23.9 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

lancetnic-4.0.0-py3-none-any.whl (25.1 kB view details)

Uploaded Python 3

File details

Details for the file lancetnic-4.0.0.tar.gz.

File metadata

  • Download URL: lancetnic-4.0.0.tar.gz
  • Upload date:
  • Size: 23.9 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.12.10

File hashes

Hashes for lancetnic-4.0.0.tar.gz
Algorithm Hash digest
SHA256 e03d393098c6edd0e424c36ade63dbc4cfc23a7fa2c6568f6abf5cb0dd964eef
MD5 d9d69490949ee8c9d7315c096bacf788
BLAKE2b-256 ca0d44bbc37360327506de0755f3109d3ce542bee235cb861772b53dc1f19314

See more details on using hashes here.

File details

Details for the file lancetnic-4.0.0-py3-none-any.whl.

File metadata

  • Download URL: lancetnic-4.0.0-py3-none-any.whl
  • Upload date:
  • Size: 25.1 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.12.10

File hashes

Hashes for lancetnic-4.0.0-py3-none-any.whl
Algorithm Hash digest
SHA256 fa80c95cdcf888d037d83d9238bfd4d882531d4df02a93c6c0a6b83deb765ef6
MD5 0861a44b6d551d77cd28c906a8e970c5
BLAKE2b-256 e53d9e608991f264dc81baca7932d718b593d0cd9eff38a5ae91c36d7951e9ed

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page