example community package

These details have not been verified by PyPI

Project description

Swarmauri Logo

Swarmauri Embedding MLM

Trainable embedding provider that fine-tunes a Hugging Face masked language model (MLM) end-to-end so Swarmauri agents can produce contextual document vectors without leaving the framework.

Features

Wraps any Hugging Face masked language model (embedding_name) behind the Swarmauri EmbeddingBase interface.
Supports optional vocabulary expansion via add_new_tokens before fine-tuning to capture domain-specific terminology.
Handles end-to-end fine-tuning with masking, AdamW optimization, and GPU/CPU selection based on availability.
Exposes pooling utilities (transform, infer_vector) that average the last hidden state to yield dense vectors ready for downstream retrieval or clustering.
Provides save_model/load_model helpers so trained weights and tokenizers can be persisted and reloaded across workers.

Prerequisites

Python 3.10 or newer.
PyTorch with CUDA support if you plan to train on GPU (the class falls back to CPU automatically).
Access to the Hugging Face model hub for downloading embedding_name. Set HF_HOME, proxies, or tokens if your environment requires authentication.
Enough disk space to cache the chosen MLM (e.g., bert-base-uncased ~420â€¯MB).

Installation

# pip
pip install swarmauri_embedding_mlm

# poetry
poetry add swarmauri_embedding_mlm

# uv (pyproject-based projects)
uv add swarmauri_embedding_mlm

Quickstart: Fine-tune and Embed Documents

from swarmauri_embedding_mlm import MlmEmbedding

docs = [
    "Swarmauri SDK ships modular agents.",
    "Masked language models produce contextual embeddings.",
]

embedder = MlmEmbedding(
    embedding_name="distilbert-base-uncased",
    batch_size=16,
    learning_rate=3e-5,
)

# One epoch of MLM fine-tuning on your corpus
embedder.fit(docs)

# Generate vectors for downstream tasks
vectors = embedder.transform([
    "Agents coordinate through shared memory",
    "Fine-tuning improves domain recall",
])

for v in vectors:
    print(len(v.value), v.value[:4])  # dimension and preview

# Single-text inference helper
query_vector = embedder.infer_vector("How do masked models compute embeddings?")

Expanding the Vocabulary

Set add_new_tokens=True to capture domain-specific terms before training. New tokens are identified via simple whitespace tokenization and appended to the tokenizer before the first epoch.

from swarmauri_embedding_mlm import MlmEmbedding

domain_docs = [
    "Neo4j graph embeddings power fraud detection",
    "Qdrant supports hybrid sparse-dense search",
]

embedder = MlmEmbedding(add_new_tokens=True)
embedder.fit(domain_docs)

# Inspect the tokenizer to confirm additions
print(f"Vocabulary size: {len(embedder.extract_features())}")

Persisting and Reloading Models

from pathlib import Path
from swarmauri_embedding_mlm import MlmEmbedding

save_dir = Path("models/mlm-distilbert")

embedder = MlmEmbedding()
embedder.fit(["short corpus", "to warm up the model"])
embedder.save_model(save_dir.as_posix())

# Later or on another machine
restored = MlmEmbedding()
restored.load_model(save_dir.as_posix())

embedding = restored.infer_vector("Reuse the trained weights instantly")

Operational Tips

Batch and sequence length drive GPU memory usage; reduce batch_size or max_length in tokenizer calls when running on constrained hardware.
fit_transform runs a full fine-tuning pass and immediately returns embeddingsâ€”useful for one-off adaptation jobs.
When training on large corpora, stream documents from a generator, chunk them, or wrap the .fit call in your own epoch loop.
Run extract_features() to audit the tokenizer vocabulary (helpful when debugging domain token coverage).
Combine the generated vectors with Swarmauri vector stores (Redis, Qdrant, etc.) to build end-to-end retrieval pipelines.

Want to help?

If you want to contribute to swarmauri-sdk, read up on our guidelines for contributing that will help you get started.

Project details

These details have not been verified by PyPI

Release history Release notifications | RSS feed

0.11.0.dev1 pre-release

Jun 30, 2026

This version

0.8.3.dev3 pre-release

May 20, 2026

0.8.3.dev2 pre-release

May 20, 2026

0.8.2

Mar 24, 2026

0.8.2.dev24 pre-release

Mar 23, 2026

0.8.2.dev22 pre-release

Mar 20, 2026

0.8.2.dev21 pre-release

Mar 20, 2026

0.8.2.dev20 pre-release

Mar 20, 2026

0.8.2.dev19 pre-release

Mar 20, 2026

0.8.2.dev18 pre-release

Mar 20, 2026

0.8.2.dev17 pre-release

Mar 20, 2026

0.8.2.dev10 pre-release

Feb 23, 2026

0.8.2.dev5 pre-release

Feb 18, 2026

0.8.2.dev4 pre-release

Feb 17, 2026

0.8.2.dev3 pre-release

Feb 17, 2026

0.8.1

Feb 17, 2026

0.8.1.dev7 pre-release

Feb 17, 2026

0.8.1.dev6 pre-release

Feb 12, 2026

0.8.0

Jan 28, 2026

0.8.0.dev21 pre-release

Jan 27, 2026

0.8.0.dev4 pre-release

Sep 11, 2025

0.8.0.dev3 pre-release

Sep 10, 2025

0.8.0.dev2 pre-release

Sep 10, 2025

0.7.5

May 23, 2025

0.7.5.dev1 pre-release

May 23, 2025

0.7.4

May 23, 2025

0.7.4.dev14 pre-release

May 23, 2025

0.7.3

Mar 31, 2025

0.7.3.dev2 pre-release

Mar 31, 2025

0.7.2

Mar 6, 2025

0.7.2.dev3 pre-release

Mar 6, 2025

0.7.2.dev2 pre-release

Mar 6, 2025

0.7.2.dev1 pre-release

Mar 6, 2025

0.7.1

Mar 6, 2025

0.7.1.dev1 pre-release

Mar 5, 2025

0.7.0

Mar 4, 2025

0.7.0.dev12 pre-release

Mar 4, 2025

0.7.0.dev11 pre-release

Mar 4, 2025

0.7.0.dev10 pre-release

Mar 4, 2025

0.7.0.dev9 pre-release

Mar 4, 2025

0.7.0.dev8 pre-release

Mar 4, 2025

0.7.0.dev7 pre-release

Mar 4, 2025

0.7.0.dev6 pre-release

Mar 4, 2025

0.7.0.dev5 pre-release

Mar 4, 2025

0.7.0.dev4 pre-release

Mar 4, 2025

0.7.0.dev3 pre-release

Mar 4, 2025

0.7.0.dev2 pre-release

Mar 3, 2025

0.6.1

Feb 19, 2025

0.6.1.dev16 pre-release

Feb 19, 2025

0.6.1.dev15 pre-release

Feb 19, 2025

0.6.1.dev14 pre-release

Feb 19, 2025

0.6.1.dev6 pre-release

Feb 17, 2025

0.6.0

Feb 17, 2025

0.6.0.dev154 pre-release

Jan 28, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

swarmauri_embedding_mlm-0.8.3.dev3.tar.gz (10.0 kB view details)

Uploaded May 20, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

swarmauri_embedding_mlm-0.8.3.dev3-py3-none-any.whl (11.1 kB view details)

Uploaded May 20, 2026 Python 3

File details

Details for the file swarmauri_embedding_mlm-0.8.3.dev3.tar.gz.

File metadata

Download URL: swarmauri_embedding_mlm-0.8.3.dev3.tar.gz
Upload date: May 20, 2026
Size: 10.0 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: uv/0.11.15 {"installer":{"name":"uv","version":"0.11.15","subcommand":["publish"]},"python":null,"implementation":{"name":null,"version":null},"distro":{"name":"Ubuntu","version":"24.04","id":"noble","libc":null},"system":{"name":null,"release":null},"cpu":null,"openssl_version":null,"setuptools_version":null,"rustc_version":null,"ci":true}

File hashes

Hashes for swarmauri_embedding_mlm-0.8.3.dev3.tar.gz
Algorithm	Hash digest
SHA256	`0f80b3339af265e661f76f7038df48cb550ee05bb4905dd0ab17ba2025a1f9da`
MD5	`24a4b1132da230d9edb4becf455925c5`
BLAKE2b-256	`9e53158be7ad776c8c487d08161c8e9f020882a2c1b1add4ad11dc23a511e0b7`

See more details on using hashes here.

File details

Details for the file swarmauri_embedding_mlm-0.8.3.dev3-py3-none-any.whl.

File metadata

Download URL: swarmauri_embedding_mlm-0.8.3.dev3-py3-none-any.whl
Upload date: May 20, 2026
Size: 11.1 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: uv/0.11.15 {"installer":{"name":"uv","version":"0.11.15","subcommand":["publish"]},"python":null,"implementation":{"name":null,"version":null},"distro":{"name":"Ubuntu","version":"24.04","id":"noble","libc":null},"system":{"name":null,"release":null},"cpu":null,"openssl_version":null,"setuptools_version":null,"rustc_version":null,"ci":true}

File hashes

Hashes for swarmauri_embedding_mlm-0.8.3.dev3-py3-none-any.whl
Algorithm	Hash digest
SHA256	`b7f7b94c58bc65e06c7f77da759a7637c2370779b6f30c9886a1d1baa18caad2`
MD5	`268a07c366a6ea85dec10e109d176f36`
BLAKE2b-256	`1e64811b8f2a7f9bc151f4443f9678e617cccaa5acbee1adb3082275b7a7bfea`

See more details on using hashes here.

swarmauri_embedding_mlm 0.8.3.dev3

Navigation

Verified details

Maintainers

Meta

Unverified details

Meta

Classifiers

Project description

Swarmauri Embedding MLM

Features

Prerequisites

Installation

Quickstart: Fine-tune and Embed Documents

Expanding the Vocabulary

Persisting and Reloading Models

Operational Tips

Want to help?

Project details

Verified details

Maintainers

Meta

Unverified details

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes