Skip to main content

A document analysis pipeline

Project description

DocumentGraph

DocumentGraph es una herramienta de análisis de documentos que utiliza técnicas de procesamiento de lenguaje natural y grafos de conocimiento para extraer información valiosa de tus documentos.

Características

  • Extracción de documentos solo .txt
  • Preprocesamiento de texto
  • Generación de embeddings para chunks de texto
  • Extracción de entidades y relaciones
  • Carga de datos en un grafo de conocimiento

Instalación

pip install documentgraph

Uso

from documentgraph import DocumentAnalysisPipeline, ETLConfig

# Configurar el pipeline
etl_config = ETLConfig()
pipeline = DocumentAnalysisPipeline(etl_config)

# Ejecutar el pipeline
pipeline.execute_pipeline("ruta/a/tus/documentos")

Estructura del Proyecto

  • src/: Contiene el código fuente del proyecto
  • extraction.py: Módulo para la extracción de documentos
  • models.py: Definiciones de modelos de datos
  • transformation.py: Módulos para el procesamiento de texto, generación de embeddings y extracción de entidades/relaciones
  • loading.py: Módulo para cargar datos en el grafo de conocimiento
  • config.py: Configuración del pipeline ETL
  • main.py: Punto de entrada principal y definición del pipeline

Configuración

La configuración del pipeline se realiza a través de la clase ETLConfig. Asegúrate de configurar correctamente los parámetros antes de ejecutar el pipeline.

Contribuir

Las contribuciones son bienvenidas. Por favor, abre un issue para discutir los cambios propuestos antes de enviar un pull request.

Licencia

Este proyecto está licenciado bajo la Licencia Apache 2.0. Consulta el archivo LICENSE para más detalles.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

documentgraph-0.1.0.tar.gz (7.3 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

documentgraph-0.1.0-py3-none-any.whl (6.5 kB view details)

Uploaded Python 3

File details

Details for the file documentgraph-0.1.0.tar.gz.

File metadata

  • Download URL: documentgraph-0.1.0.tar.gz
  • Upload date:
  • Size: 7.3 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.1 CPython/3.9.13

File hashes

Hashes for documentgraph-0.1.0.tar.gz
Algorithm Hash digest
SHA256 8b4f3475a5a36e55fc11838547d7031fb442a65219817d6ab900f539de9f8e5c
MD5 6156dc507686fe9d892ca42566bdafc8
BLAKE2b-256 4f576e2a02d51211e75361097ff33a832509c4030c76c326d87a104b30cf2e14

See more details on using hashes here.

File details

Details for the file documentgraph-0.1.0-py3-none-any.whl.

File metadata

  • Download URL: documentgraph-0.1.0-py3-none-any.whl
  • Upload date:
  • Size: 6.5 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.1 CPython/3.9.13

File hashes

Hashes for documentgraph-0.1.0-py3-none-any.whl
Algorithm Hash digest
SHA256 c858df567841b0d568f93d7272b1de1b7db6e49bcecc881214c623bc2be8d9a8
MD5 c4a2d62954d9539fd034b053d5e62f54
BLAKE2b-256 4dc4b569c56564f536bc927f62f03a110075bb02c3280443ff4476957f0e2a1b

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page