A tool for working with text data
Project description
LANCETNIC 4.0.0
LANCETNIC - это библиотека, которая представляет базовый набор для решения задач по поиску взаимосвязей между признаками объекта и целевой переменной.
Решение построено на парадигме обучения с учителем: модель обучается на размеченных данных, где каждому объекту сопоставлена соответствующая метка (целевая переменная).
Решаемые задачи
Библиотека поддерживает два фундаментальных класса задач машинного обучения:
1. Задача классификации
Состоит в предсказании категориальной метки (класса) для объекта.
- Бинарная классификация (спам/не спам; выдача кредита/отказ в выдаче и т.д.)
- Многоклассовая классификация (определение тональности текста: позитивный/негативный/нейтральный и т.д.)
2. Задача регрессии
Состоит в предсказании непрерывной числовой величины.
- Прогнозирование рыночной стоимости недвижимости
- Оценка времени доставки заказов
- Предсказание любых количественных показателей
3. Многозадачное обучение (Multi-Task Learning) ⭐ НОВОЕ в v4.0.0
Одновременное решение задач классификации и регрессии на одном наборе данных.
- Совместное прогнозирование категории и числового значения
- Оптимизация нескольких целей одновременно
- Настраиваемое соотношение потерь для каждой задачи
🛠 Функциональные возможности
LANCETNIC предоставляет комплексный набор инструментов для полного цикла машинного обучения:
-
Предварительная обработка и векторизация данных
- Поддержка текстовых данных через TF-IDF векторизацию
- Поддержка числовых признаков с масштабированием
- Гибридная обработка комбинированных данных
-
Обучение модели на размеченных выборках
- Автоматическое разделение на обучающую и валидационную выборки
- Настраиваемые гиперпараметры (размер скрытого слоя, количество слоев, dropout)
- Выбор оптимизатора (Adam, SGD, RMSprop)
- Выбор функции потерь (CrossEntropyLoss и MSELoss)
-
Визуализация ключевых метрик качества
- Матрица ошибок (Confusion Matrix) для классификации
- Графики динамики потерь (Train/Val Loss)
- Графики точности (Train/Val Accuracy)
- F1-score, Precision, Recall для классификации
- MAE, RMSE для регрессии
- Scatter plot с линией регрессии
- Распределение классов в датасете
-
Инференс - применение обученной модели к новым данным
Библиотека поддерживает работу как с чисто текстовыми данными, так и с гибридными наборами, включающими комбинации различных типов информации.
🏗 Архитектуры моделей
Модели для классификации:
- ScalpelMC - полносвязная нейронная сеть для многоклассовой классификации
- LancetMC - LSTM-сеть для работы с последовательностями
- LancetMCA - LSTM с механизмом внимания (Attention)
- LancetMCA_gru - GRU с механизмом внимания
Модели для регрессии:
- ScalpelReg - полносвязная нейронная сеть для регрессии
- LancetReg - LSTM-сеть для регрессии на последовательностях
Модели для многозадачного обучения:
- ScalpelMTSK - мультимодель, объединяющая классификацию и регрессию
✨ Преимущества
- Эффективность обучения - библиотека обеспечивает высокую скорость обучения моделей при сохранении удобства использования
- Низкие аппаратные требования - в отличие от крупных языковых моделей (LLM), LANCETNIC не предъявляет высоких требований к вычислительным ресурсам, что делает её доступной для широкого круга пользователей и сценариев
- Персонализация под данные пользователя - возможность обучения моделей на собственных размеченных наборах данных, что обеспечивает адаптацию к специфике конкретной предметной области
- Автоматическое сохранение результатов - все метрики, графики и модели сохраняются автоматически в структурированные папки
- Гибкая настройка - полный контроль над архитектурой модели и параметрами обучения
🚀 Установка:
Установка с помощью CUDA
Для работы с графическим процессором рекомендуется установить PyTorch с поддержкой CUDA (ОПЦИОНАЛЬНО):
pip install torch==2.5.1+cu124 --index-url https://download.pytorch.org/whl/cu124
Затем установка lancetnic:
pip install lancetnic
👥 Авторы
- Lancet52
- e-mail для связи:
lancetFPV@yandex.ru
📄 Документация
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file lancetnic-4.0.0.tar.gz.
File metadata
- Download URL: lancetnic-4.0.0.tar.gz
- Upload date:
- Size: 23.9 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.12.10
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
e03d393098c6edd0e424c36ade63dbc4cfc23a7fa2c6568f6abf5cb0dd964eef
|
|
| MD5 |
d9d69490949ee8c9d7315c096bacf788
|
|
| BLAKE2b-256 |
ca0d44bbc37360327506de0755f3109d3ce542bee235cb861772b53dc1f19314
|
File details
Details for the file lancetnic-4.0.0-py3-none-any.whl.
File metadata
- Download URL: lancetnic-4.0.0-py3-none-any.whl
- Upload date:
- Size: 25.1 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.12.10
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
fa80c95cdcf888d037d83d9238bfd4d882531d4df02a93c6c0a6b83deb765ef6
|
|
| MD5 |
0861a44b6d551d77cd28c906a8e970c5
|
|
| BLAKE2b-256 |
e53d9e608991f264dc81baca7932d718b593d0cd9eff38a5ae91c36d7951e9ed
|