A simple Retrieval-Augmented Generation (RAG) library using Hugging Face datasets.
Project description
Simple RAG HuggingFace
Descripción
Diseñado para implementar sistemas de generación aumentada con recuperación de información. Utiliza datasets de Hugging Face, los vectoriza y permite consultas rápidas basadas en similitud de coseno.
Instalación
pip install SimpleRAGHuggingFace
Uso
Configuración Inicial
En la primera ejecución, se realiza la carga del dataset, su vectorización, y el almacenamiento de los embeddings:
from rag import Rag
# Configurar el sistema con un dataset de Hugging Face
rag = Rag(hf_dataset="JulianVelandia/unal-repository-dataset")
Esto genera:
- Base de datos original: Almacenada en memoria como lista de documentos.
- Base de datos vectorizada: Archivo
.npyen la carpetaembeddings/.
Consulta y Recuperación
Una vez configurado, puedes realizar consultas:
query = "¿Cuál es el Diseño de iluminación, control y embellecimiento de la cancha del Estadio Alfonso López?"
response = rag.retrieval_augmented_generation(query)
print(response)
El resultado será el prompt inicial combinado con las secciones más relevantes del contexto:
¿Cuál es el Diseño de iluminación, control y embellecimiento de la cancha del Estadio Alfonso López?
Keep in mind this context:
Diseño de iluminación ... el Estadio Alfonso López, así como los resultados obtenidos, entendiendo que un equipo de futbol ...
...
Flujo de Trabajo
-
Setup (Preprocesamiento):
- Carga el dataset desde Hugging Face.
- Vectoriza los documentos usando TF-IDF.
- Guarda los embeddings en formato
.npy.
Dataset HF -> Carga -> Vectorización -> Embeddings (.npy)
-
Querying (Consulta):
- Vectoriza el prompt.
- Calcula similitudes coseno entre el prompt y los documentos vectorizados.
- Recupera las secciones más relevantes.
- Combina el prompt con el contexto recuperado.
Prompt -> Vectorización -> Similitud coseno -> Recuperación -> Contexto combinado
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file simpleraghuggingface-0.1.0.tar.gz.
File metadata
- Download URL: simpleraghuggingface-0.1.0.tar.gz
- Upload date:
- Size: 6.2 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.10.7
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
2fb7fbf64438a05e16f14806c8650c41156fe55e54ed4cf42567a76c2cef8adf
|
|
| MD5 |
b98d582952357d348e88bcbfa8a6304c
|
|
| BLAKE2b-256 |
0aea94536eea8dfb9f3020c1660b3eb4cde2532ebe9343487f833e90384aed41
|
File details
Details for the file SimpleRAGHuggingFace-0.1.0-py3-none-any.whl.
File metadata
- Download URL: SimpleRAGHuggingFace-0.1.0-py3-none-any.whl
- Upload date:
- Size: 7.3 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.10.7
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
03209dab8fb92ecabe4804057f9cdb4c25f8749844eb9b5625621e14adbbc03f
|
|
| MD5 |
d6fd1b470b71dbc20f9024972aec5fb8
|
|
| BLAKE2b-256 |
7c55dbd5e82f0453d8f251e6833db7ebe707de1b81cc97fbde49985f751f710f
|