Skip to main content

A simple Retrieval-Augmented Generation (RAG) library using Hugging Face datasets.

Project description

Simple RAG HuggingFace

Descripción

Diseñado para implementar sistemas de generación aumentada con recuperación de información. Utiliza datasets de Hugging Face, los vectoriza y permite consultas rápidas basadas en similitud de coseno. image

Instalación

pip install SimpleRAGHuggingFace

Uso

Configuración Inicial

En la primera ejecución, se realiza la carga del dataset, su vectorización, y el almacenamiento de los embeddings:

from rag import Rag

# Configurar el sistema con un dataset de Hugging Face
rag = Rag(hf_dataset="JulianVelandia/unal-repository-dataset")

Esto genera:

  • Base de datos original: Almacenada en memoria como lista de documentos.
  • Base de datos vectorizada: Archivo .npy en la carpeta embeddings/.

Consulta y Recuperación

Una vez configurado, puedes realizar consultas:

query = "¿Cuál es el Diseño de iluminación, control y embellecimiento de la cancha del Estadio Alfonso López?"
response = rag.retrieval_augmented_generation(query)
print(response)

El resultado será el prompt inicial combinado con las secciones más relevantes del contexto:

¿Cuál es el Diseño de iluminación, control y embellecimiento de la cancha del Estadio Alfonso López?

Keep in mind this context:
Diseño de iluminación ... el Estadio Alfonso López, así como los resultados obtenidos, entendiendo que un equipo de futbol ...
...

Flujo de Trabajo

  1. Setup (Preprocesamiento):

    • Carga el dataset desde Hugging Face.
    • Vectoriza los documentos usando TF-IDF.
    • Guarda los embeddings en formato .npy.
    Dataset HF -> Carga -> Vectorización -> Embeddings (.npy)
    
  2. Querying (Consulta):

    • Vectoriza el prompt.
    • Calcula similitudes coseno entre el prompt y los documentos vectorizados.
    • Recupera las secciones más relevantes.
    • Combina el prompt con el contexto recuperado.
    Prompt -> Vectorización -> Similitud coseno -> Recuperación -> Contexto combinado
    

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

simpleraghuggingface-0.1.0.tar.gz (6.2 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

SimpleRAGHuggingFace-0.1.0-py3-none-any.whl (7.3 kB view details)

Uploaded Python 3

File details

Details for the file simpleraghuggingface-0.1.0.tar.gz.

File metadata

  • Download URL: simpleraghuggingface-0.1.0.tar.gz
  • Upload date:
  • Size: 6.2 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.10.7

File hashes

Hashes for simpleraghuggingface-0.1.0.tar.gz
Algorithm Hash digest
SHA256 2fb7fbf64438a05e16f14806c8650c41156fe55e54ed4cf42567a76c2cef8adf
MD5 b98d582952357d348e88bcbfa8a6304c
BLAKE2b-256 0aea94536eea8dfb9f3020c1660b3eb4cde2532ebe9343487f833e90384aed41

See more details on using hashes here.

File details

Details for the file SimpleRAGHuggingFace-0.1.0-py3-none-any.whl.

File metadata

File hashes

Hashes for SimpleRAGHuggingFace-0.1.0-py3-none-any.whl
Algorithm Hash digest
SHA256 03209dab8fb92ecabe4804057f9cdb4c25f8749844eb9b5625621e14adbbc03f
MD5 d6fd1b470b71dbc20f9024972aec5fb8
BLAKE2b-256 7c55dbd5e82f0453d8f251e6833db7ebe707de1b81cc97fbde49985f751f710f

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page