Interface to handle multiple LLMs and AI tools.

Project description

llmax

Python package to manage most external and internal LLM APIs fluently.

Installation

To install, run the following command:

python3 -m pip install delos-llmax

How to use

You first have to define a list of Deployment as such, where you need to specify the endpoints, key and deployment_name. Then create the client:

from llmax.clients import MultiAIClient
from llmax.models import Deployment, Model

deployments: dict[Model, Deployment] = {
        "gpt-4o": Deployment(
            model="gpt-4o",
            provider="azure",
            deployment_name="gpt-4o-2024-05-13",
            api_key=os.getenv("LLMAX_AZURE_OPENAI_SWEDENCENTRAL_KEY", ""),
            endpoint=os.getenv("LLMAX_AZURE_OPENAI_SWEDENCENTRAL_ENDPOINT", ""),
        ),
        "whisper-1": Deployment(
            model="whisper-1",
            provider="azure",
            deployment_name="whisper-1",
            api_key=os.getenv("LLMAX_AZURE_OPENAI_SWEDENCENTRAL_KEY", ""),
            endpoint=os.getenv("LLMAX_AZURE_OPENAI_SWEDENCENTRAL_ENDPOINT", ""),
            api_version="2024-02-01",
        ),
    }

client = MultiAIClient(
        deployments=deployments,
    )

Then you should define your input (that can be a text, image or audio, following the openai documentation for instance).

messages = [
        {"role": "user", "content": "Raconte moi une blague."},
    ]

And finally get the response:

response = client.invoke_to_str(messages, model)
print(response)

Requêter des modèles

Le client MultiAIClient offre plusieurs méthodes pour interagir avec les modèles, que ce soit de manière synchrone ou asynchrone.

Méthodes synchrones

`invoke_to_str()`

La méthode la plus simple pour obtenir une réponse textuelle directement :

response = client.invoke_to_str(
    messages=messages,
    model="gpt-4o",
    system="Tu es un assistant utile.",  # Optionnel
    delay=0.0,  # Délai entre les tentatives en cas d'erreur
    tries=1,  # Nombre de tentatives en cas de rate limit
)
print(response)  # Affiche directement le texte de la réponse

`invoke()`

Retourne l'objet de réponse complet (déprécié, préférez la version asynchrone) :

response = client.invoke(messages, model="gpt-4o")
print(response.choices[0].message.content)

Méthodes asynchrones

`ainvoke_to_str()`

Version asynchrone de invoke_to_str() :

import asyncio

async def main():
    response = await client.ainvoke_to_str(
        messages=messages,
        model="gpt-4o",
        system="Tu es un assistant utile.",
    )
    print(response)

asyncio.run(main())

`ainvoke()`

Version asynchrone qui retourne l'objet de réponse complet :

response = await client.ainvoke(messages, model="gpt-4o")
print(response.choices[0].message.content)

Streaming avec `astream()`

Pour recevoir les réponses en temps réel au fur et à mesure de leur génération :

async def stream_response():
    async for chunk in client.astream(messages, model="gpt-4o"):
        if chunk.content:
            print(chunk.content, end="", flush=True)

asyncio.run(stream_response())

Paramètres supplémentaires

Toutes les méthodes acceptent des paramètres supplémentaires via **kwargs qui sont transmis directement à l'API sous-jacente. Par exemple :

response = await client.ainvoke_to_str(
    messages=messages,
    model="gpt-4o",
    temperature=0.7,  # Contrôle la créativité
    max_tokens=500,  # Limite la longueur de la réponse
    top_p=0.9,  # Contrôle la diversité
)

Modèles Scaleway

Les modèles Scaleway utilisent une API compatible OpenAI, ce qui permet une intégration transparente avec llmax. Pour utiliser un modèle Scaleway, vous devez configurer le déploiement avec le provider "scaleway" et fournir soit un endpoint complet, soit un project_id (recommandé).

Configuration d'un modèle Scaleway

Option 1 : Utilisation avec project_id (recommandé)

L'URL sera automatiquement construite comme https://api.scaleway.ai/v1/{project_id} :

from llmax.clients import MultiAIClient
from llmax.models import Deployment, Model
import os

deployments: dict[Model, Deployment] = {
    "scaleway/llama-3.3-70b-instruct": Deployment(
        model="scaleway/llama-3.3-70b-instruct",
        provider="scaleway",
        deployment_name="llama-3.3-70b-instruct",  # Le nom du déploiement sur Scaleway
        api_key=os.getenv("SCALEWAY_API_KEY", ""),
        project_id=os.getenv("SCALEWAY_PROJECT_ID", ""),  # Recommandé
    ),
    "scaleway/qwen3-235b-a22b-instruct-2507": Deployment(
        model="scaleway/qwen3-235b-a22b-instruct-2507",
        provider="scaleway",
        deployment_name="qwen3-235b-a22b-instruct-2507",
        api_key=os.getenv("SCALEWAY_API_KEY", ""),
        project_id=os.getenv("SCALEWAY_PROJECT_ID", ""),
    ),
}

client = MultiAIClient(deployments=deployments)

Option 2 : Utilisation avec endpoint complet (rétrocompatibilité)

Vous pouvez également fournir un endpoint complet si vous préférez :

deployments: dict[Model, Deployment] = {
    "scaleway/llama-3.3-70b-instruct": Deployment(
        model="scaleway/llama-3.3-70b-instruct",
        provider="scaleway",
        deployment_name="llama-3.3-70b-instruct",
        api_key=os.getenv("SCALEWAY_API_KEY", ""),
        endpoint=os.getenv("SCALEWAY_ENDPOINT", ""),  # Ex: https://api.scaleway.ai/v1/your-project-id
    ),
}

Note : Vous devez fournir soit endpoint soit project_id, mais pas nécessairement les deux. Si vous fournissez project_id, l'URL sera construite automatiquement selon la spécification OpenAPI Scaleway.

Utilisation des modèles Scaleway

Une fois configuré, l'utilisation est identique aux autres modèles :

messages = [
    {"role": "user", "content": "Explique-moi le machine learning en quelques phrases."},
]

# Utilisation synchrone
response = client.invoke_to_str(
    messages=messages,
    model="scaleway/llama-3.3-70b-instruct",
)

# Utilisation asynchrone
response = await client.ainvoke_to_str(
    messages=messages,
    model="scaleway/qwen3-235b-a22b-instruct-2507",
    temperature=0.8,
    max_tokens=300,
)

Modèles Scaleway disponibles

Les modèles suivants sont supportés :

scaleway/qwen3-235b-a22b-instruct-2507 - Modèle Qwen 3 (235B)
scaleway/gpt-oss-120b - GPT Open Source (120B)
scaleway/gemma-3-27b-it - Gemma 3 (27B)
scaleway/whisper-large-v3 - Whisper pour la transcription audio
scaleway/voxtral-small-24b-2507 - Voxtral Small (24B)
scaleway/mistral-small-3.2-24b-instruct-2506 - Mistral Small 3.2 (24B)
scaleway/llama-3.3-70b-instruct - Llama 3.3 (70B)
scaleway/deepseek-r1-distill-llama-70b - DeepSeek R1 Distill (70B)

Note spéciale pour le modèle Qwen

Le modèle scaleway/qwen3-235b-a22b-instruct-2507 nécessite un format spécial pour les réponses JSON. Si vous utilisez response_format={"type": "json_object"}, il sera automatiquement transformé en format json_schema requis par Scaleway :

response = await client.ainvoke_to_str(
    messages=messages,
    model="scaleway/qwen3-235b-a22b-instruct-2507",
    response_format={"type": "json_object"},  # Transformé automatiquement
)

Specificities

When creating the client, you can also specify two functions, increment_usage and get_usage. The first one is Callable[[float, Model], bool] while the second is Callable[[], float]. increment_usage is a function that is called after a call of the llm. The float is the price and Model, the model used. It can therefore be used to update your database. get_usage returns whether a condition is met. For instance, it can be a function that calls your database and returns whether the user is still active.

Project details

Release history Release notifications | RSS feed

1.36.0

May 4, 2026

1.35.1

May 1, 2026

1.35.0

May 1, 2026

1.34.0

Apr 30, 2026

1.33.0

Apr 29, 2026

1.32.0

Apr 22, 2026

1.31.0

Apr 20, 2026

1.30.0

Apr 10, 2026

1.29.0

Apr 1, 2026

1.28.0

Mar 31, 2026

1.27.0

Mar 20, 2026

1.26.1

Mar 19, 2026

This version

1.26.0

Mar 19, 2026

1.25.3

Mar 19, 2026

1.25.2

Mar 19, 2026

1.25.1

Mar 14, 2026

1.25.0

Mar 13, 2026

1.24.0

Mar 11, 2026

1.23.0

Mar 3, 2026

1.22.0

Mar 1, 2026

1.21.0

Feb 27, 2026

1.20.0

Feb 25, 2026

1.19.0

Feb 25, 2026

1.18.0

Feb 24, 2026

1.17.0

Feb 24, 2026

1.16.0

Feb 20, 2026

1.15.0

Feb 17, 2026

1.14.0

Feb 10, 2026

1.13.3

Dec 4, 2025

1.13.2

Dec 4, 2025

1.13.1

Dec 4, 2025

1.13.0

Dec 4, 2025

1.12.2

Dec 2, 2025

1.12.1

Dec 1, 2025

1.12.0

Dec 1, 2025

1.11.3

Nov 27, 2025

1.11.2

Nov 27, 2025

1.11.1

Nov 27, 2025

1.11.0

Nov 27, 2025

1.10.5

Nov 26, 2025

1.10.4

Nov 26, 2025

1.10.3

Nov 26, 2025

1.10.2

Nov 26, 2025

1.10.1

Nov 26, 2025

1.10.0

Nov 21, 2025

1.9.1

Nov 7, 2025

1.9.0

Nov 5, 2025

1.8.7

Nov 4, 2025

1.8.6

Nov 3, 2025

1.8.5

Oct 8, 2025

1.8.4

Oct 7, 2025

1.8.3

Oct 7, 2025

1.8.2

Oct 7, 2025

1.8.1

Sep 30, 2025

1.8.0

Sep 30, 2025

1.7.0

Sep 23, 2025

1.6.2

Sep 4, 2025

1.6.1

Aug 28, 2025

1.6.0

Aug 8, 2025

1.5.2

Aug 6, 2025

1.5.1

Aug 4, 2025

1.5.0

Jul 27, 2025

1.4.0

Jul 27, 2025

1.3.0

Jul 15, 2025

1.2.0

Jun 4, 2025

1.1.0

May 30, 2025

1.0.1

May 30, 2025

1.0.0

May 27, 2025

0.11.71

May 20, 2025

0.11.70

May 20, 2025

0.11.69

May 15, 2025

0.11.66

Apr 30, 2025

0.11.65

Apr 28, 2025

0.11.61

Apr 14, 2025

0.11.60

Apr 11, 2025

0.11.58

Apr 11, 2025

0.11.56

Apr 11, 2025

0.11.55

Apr 10, 2025

0.11.53

Apr 8, 2025

0.11.51

Apr 8, 2025

0.11.50

Apr 8, 2025

0.11.49

Apr 8, 2025

0.11.48

Apr 7, 2025

0.11.47

Apr 7, 2025

0.11.46

Apr 7, 2025

0.11.45

Apr 7, 2025

0.11.43

Mar 21, 2025

0.11.41

Mar 21, 2025

0.11.40

Mar 21, 2025

0.11.39

Mar 21, 2025

0.11.38

Mar 20, 2025

0.11.37

Mar 20, 2025

0.11.35

Mar 13, 2025

0.11.34

Mar 13, 2025

0.11.33

Mar 13, 2025

0.11.32

Mar 6, 2025

0.11.31

Mar 6, 2025

0.11.30

Feb 24, 2025

0.11.28

Feb 12, 2025

0.11.27

Feb 11, 2025

0.11.26

Feb 6, 2025

0.11.25

Jan 27, 2025

0.11.24

Jan 27, 2025

0.11.23

Jan 23, 2025

0.11.22

Jan 23, 2025

0.11.20

Jan 21, 2025

0.11.18

Jan 20, 2025

0.11.17

Jan 20, 2025

0.11.16

Jan 14, 2025

0.11.15

Dec 17, 2024

0.11.14

Dec 17, 2024

0.11.13

Dec 16, 2024

0.11.12

Dec 16, 2024

0.11.11

Dec 16, 2024

0.11.10

Dec 16, 2024

0.11.9

Dec 3, 2024

0.11.8

Nov 20, 2024

0.11.7

Nov 19, 2024

0.11.6

Nov 19, 2024

0.11.5

Nov 18, 2024

0.11.3

Oct 11, 2024

0.11.2

Sep 23, 2024

0.11.1

Sep 23, 2024

0.11.0

Sep 9, 2024

0.10.3

Aug 21, 2024

0.10.2

Aug 21, 2024

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

delos_llmax-1.26.0.tar.gz (193.6 kB view details)

Uploaded Mar 19, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

delos_llmax-1.26.0-py3-none-any.whl (36.1 kB view details)

Uploaded Mar 19, 2026 Python 3

File details

Details for the file delos_llmax-1.26.0.tar.gz.

File metadata

Download URL: delos_llmax-1.26.0.tar.gz
Upload date: Mar 19, 2026
Size: 193.6 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.11.7

File hashes

Hashes for delos_llmax-1.26.0.tar.gz
Algorithm	Hash digest
SHA256	`ae96713237826181e912931b5f7f2f22b29bf5570ba35166c4571c60a3167e19`
MD5	`81ba236f51ca11ebc7aa65a693fd1b4e`
BLAKE2b-256	`622dfce2e9ec270076bfa26952a2da1fdabd52a2b2d5244ee81f0cdbc5ae1c44`

See more details on using hashes here.

File details

Details for the file delos_llmax-1.26.0-py3-none-any.whl.

File metadata

Download URL: delos_llmax-1.26.0-py3-none-any.whl
Upload date: Mar 19, 2026
Size: 36.1 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.11.7

File hashes

Hashes for delos_llmax-1.26.0-py3-none-any.whl
Algorithm	Hash digest
SHA256	`661e4e8855bb7a371bb5d0c2a222091bcc14e7cf6ea97def455c521062cf76b1`
MD5	`cb216f174cf6314e39f611b4b3ac73af`
BLAKE2b-256	`edc8682f28db57da35dfd1b0a95f523475761bfd8a24f7b27a9e5064244fbf0d`

See more details on using hashes here.

delos-llmax 1.26.0

Navigation

Verified details

Maintainers

Meta

Unverified details

Meta

Project description

llmax

Installation

How to use

Requêter des modèles

Méthodes synchrones

invoke_to_str()

invoke()

Méthodes asynchrones

ainvoke_to_str()

ainvoke()

Streaming avec astream()

Paramètres supplémentaires

Modèles Scaleway

Configuration d'un modèle Scaleway

Utilisation des modèles Scaleway

Modèles Scaleway disponibles

Note spéciale pour le modèle Qwen

Specificities

Project details

Verified details

Maintainers

Meta

Unverified details

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes

`invoke_to_str()`

`invoke()`

`ainvoke_to_str()`

`ainvoke()`

Streaming avec `astream()`