Swarmauri Bert Embedding Parser

These details have not been verified by PyPI

Project description

Swarmauri Logo

Swarmauri Parser Bert Embedding

Parser that converts text into embeddings using a Hugging Face BERT encoder. Produces Document objects whose metadata carries the averaged token embedding so downstream Swarmauri pipelines can work with dense vectors.

Features

Uses transformers.BertModel + BertTokenizer (default bert-base-uncased).
Accepts single strings or lists of strings and emits Document instances with original text and embedding metadata.
Runs in inference (eval) mode with automatic torch.no_grad() handling.
Works on CPU by default; configure PyTorch device settings to leverage GPU.

Prerequisites

Python 3.10 or newer.
PyTorch compatible with your hardware (installed automatically via transformers if not present; install CUDA-enabled wheels manually when needed).
Internet access on first run so Hugging Face downloads tokenizer/model weights (or warm the cache ahead of time).

Installation

# pip
pip install swarmauri_parser_bertembedding

# poetry
poetry add swarmauri_parser_bertembedding

# uv (pyproject-based projects)
uv add swarmauri_parser_bertembedding

Quickstart

from swarmauri_parser_bertembedding import BERTEmbeddingParser

parser = BERTEmbeddingParser(parser_model_name="bert-base-uncased")

documents = parser.parse([
    "Swarmauri agents cooperate over shared memory.",
    "Dense embeddings power semantic search.",
])

for doc in documents:
    vector = doc.metadata["embedding"]
    print(doc.content)
    print(len(vector), vector[:5])

Custom Models & Devices

import torch
from swarmauri_parser_bertembedding import BERTEmbeddingParser
from transformers import BertModel

class GPUParser(BERTEmbeddingParser):
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self._model = BertModel.from_pretrained(self.parser_model_name).to("cuda")

parser = GPUParser(parser_model_name="bert-base-multilingual-cased")
parser._model.eval()

Batch Embeddings at Scale

from tqdm import tqdm
from swarmauri_parser_bertembedding import BERTEmbeddingParser

texts = [f"Paragraph {i}" for i in range(1000)]
parser = BERTEmbeddingParser()

batched_docs = []
batch_size = 32
for start in tqdm(range(0, len(texts), batch_size)):
    batch = texts[start:start + batch_size]
    batched_docs.extend(parser.parse(batch))

Persist the resulting vectors into Swarmauri vector stores (Redis, Qdrant, etc.) via the metadata field.

Tips

Preprocess text to match model expectations (lowercase for uncased BERT, language-specific cleanup for multilingual models).
For extremely long documents, consider chunking before calling parse to respect the 512 token limit.
Use PyTorch's to("cuda") or to("mps") to execute on GPUs or Apple silicon accelerators.
Cache Hugging Face weights in CI/CD environments (HF_HOME=/cache/hf) to avoid repeated downloads.

Want to help?

If you want to contribute to swarmauri-sdk, read up on our guidelines for contributing that will help you get started.

Project details

These details have not been verified by PyPI

Release history Release notifications | RSS feed

0.8.3

Mar 24, 2026

0.8.3.dev24 pre-release

Mar 23, 2026

0.8.3.dev22 pre-release

Mar 20, 2026

0.8.3.dev21 pre-release

Mar 20, 2026

0.8.3.dev20 pre-release

Mar 20, 2026

0.8.3.dev19 pre-release

Mar 20, 2026

0.8.3.dev18 pre-release

Mar 20, 2026

This version

0.8.3.dev17 pre-release

Mar 20, 2026

0.8.3.dev10 pre-release

Feb 23, 2026

0.8.3.dev5 pre-release

Feb 18, 2026

0.8.3.dev4 pre-release

Feb 17, 2026

0.8.3.dev3 pre-release

Feb 17, 2026

0.8.2

Feb 17, 2026

0.8.2.dev7 pre-release

Feb 17, 2026

0.8.2.dev6 pre-release

Feb 12, 2026

0.8.0

Jan 28, 2026

0.8.0.dev21 pre-release

Jan 27, 2026

0.8.0.dev4 pre-release

Sep 11, 2025

0.8.0.dev3 pre-release

Sep 10, 2025

0.8.0.dev2 pre-release

Sep 10, 2025

0.7.5

May 23, 2025

0.7.5.dev1 pre-release

May 23, 2025

0.7.4

May 23, 2025

0.7.4.dev20 pre-release

May 23, 2025

0.7.3

Mar 31, 2025

0.7.3.dev2 pre-release

Mar 31, 2025

0.7.2

Mar 6, 2025

0.7.2.dev3 pre-release

Mar 6, 2025

0.7.2.dev2 pre-release

Mar 6, 2025

0.7.2.dev1 pre-release

Mar 6, 2025

0.7.1

Mar 6, 2025

0.7.1.dev1 pre-release

Mar 5, 2025

0.7.0

Mar 4, 2025

0.7.0.dev12 pre-release

Mar 4, 2025

0.7.0.dev11 pre-release

Mar 4, 2025

0.7.0.dev10 pre-release

Mar 4, 2025

0.7.0.dev9 pre-release

Mar 4, 2025

0.7.0.dev8 pre-release

Mar 4, 2025

0.7.0.dev7 pre-release

Mar 4, 2025

0.7.0.dev6 pre-release

Mar 4, 2025

0.7.0.dev5 pre-release

Mar 4, 2025

0.7.0.dev4 pre-release

Mar 4, 2025

0.7.0.dev3 pre-release

Mar 4, 2025

0.7.0.dev2 pre-release

Mar 3, 2025

0.6.0.dev154 pre-release

Jan 29, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

swarmauri_parser_bertembedding-0.8.3.dev17.tar.gz (8.2 kB view details)

Uploaded Mar 20, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

swarmauri_parser_bertembedding-0.8.3.dev17-py3-none-any.whl (9.4 kB view details)

Uploaded Mar 20, 2026 Python 3

File details

Details for the file swarmauri_parser_bertembedding-0.8.3.dev17.tar.gz.

File metadata

Download URL: swarmauri_parser_bertembedding-0.8.3.dev17.tar.gz
Upload date: Mar 20, 2026
Size: 8.2 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: uv/0.10.12 {"installer":{"name":"uv","version":"0.10.12","subcommand":["publish"]},"python":null,"implementation":{"name":null,"version":null},"distro":{"name":"Ubuntu","version":"24.04","id":"noble","libc":null},"system":{"name":null,"release":null},"cpu":null,"openssl_version":null,"setuptools_version":null,"rustc_version":null,"ci":true}

File hashes

Hashes for swarmauri_parser_bertembedding-0.8.3.dev17.tar.gz
Algorithm	Hash digest
SHA256	`32d42cbf29fe87c76e51d17dd0d635ca0b5866239cb75220d129c2820aab98e1`
MD5	`cfd87d944b1e89152a0c7ba777cf2eb4`
BLAKE2b-256	`e5f15da12eba476d6c9530cc0ecdad32bd578fe57ed0d13db9d8af03c806d088`

See more details on using hashes here.

File details

Details for the file swarmauri_parser_bertembedding-0.8.3.dev17-py3-none-any.whl.

File metadata

Download URL: swarmauri_parser_bertembedding-0.8.3.dev17-py3-none-any.whl
Upload date: Mar 20, 2026
Size: 9.4 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: uv/0.10.12 {"installer":{"name":"uv","version":"0.10.12","subcommand":["publish"]},"python":null,"implementation":{"name":null,"version":null},"distro":{"name":"Ubuntu","version":"24.04","id":"noble","libc":null},"system":{"name":null,"release":null},"cpu":null,"openssl_version":null,"setuptools_version":null,"rustc_version":null,"ci":true}

File hashes

Hashes for swarmauri_parser_bertembedding-0.8.3.dev17-py3-none-any.whl
Algorithm	Hash digest
SHA256	`3f21e0504502af566649e891a9e8a7986ce4935247b8006b3790c17746d5db5d`
MD5	`287057cbe4b1d9568dd29fbb14f7baf2`
BLAKE2b-256	`1f27184dc084729ed70c1523a7af30ab68870dcb72bb325b93bea6c233f96eb0`

See more details on using hashes here.

swarmauri_parser_bertembedding 0.8.3.dev17

Navigation

Verified details

Maintainers

Meta

Unverified details

Meta

Classifiers

Project description

Swarmauri Parser Bert Embedding

Features

Prerequisites

Installation

Quickstart

Custom Models & Devices

Batch Embeddings at Scale

Tips

Want to help?

Project details

Verified details

Maintainers

Meta

Unverified details

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes