Skip to main content

A document analysis pipeline with knowledge graph

Project description

DocumentGraph

DocumentGraph es una herramienta de análisis de documentos que utiliza técnicas de procesamiento de lenguaje natural y grafos de conocimiento para extraer información valiosa de tus documentos.

Características

  • Extracción de documentos solo .txt
  • Preprocesamiento de texto
  • Generación de embeddings para chunks de texto
  • Extracción de entidades y relaciones
  • Carga de datos en un grafo de conocimiento

Instalación

pip install documentgraph

Uso

from documentgraph import DocumentAnalysisPipeline, ETLConfig

# Configurar el pipeline
etl_config = ETLConfig()
pipeline = DocumentAnalysisPipeline(etl_config)

# Ejecutar el pipeline
pipeline.execute_pipeline("ruta/a/tus/documentos")

Estructura del Proyecto

  • src/: Contiene el código fuente del proyecto
  • extraction.py: Módulo para la extracción de documentos
  • models.py: Definiciones de modelos de datos
  • transformation.py: Módulos para el procesamiento de texto, generación de embeddings y extracción de entidades/relaciones
  • loading.py: Módulo para cargar datos en el grafo de conocimiento
  • config.py: Configuración del pipeline ETL
  • main.py: Punto de entrada principal y definición del pipeline

Configuración

La configuración del pipeline se realiza a través de la clase ETLConfig. Asegúrate de configurar correctamente los parámetros antes de ejecutar el pipeline.

Contribuir

Las contribuciones son bienvenidas. Por favor, abre un issue para discutir los cambios propuestos antes de enviar un pull request.

Licencia

Este proyecto está licenciado bajo la Licencia Apache 2.0. Consulta el archivo LICENSE para más detalles.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

documentgraph-0.1.1.tar.gz (7.3 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

documentgraph-0.1.1-py3-none-any.whl (6.5 kB view details)

Uploaded Python 3

File details

Details for the file documentgraph-0.1.1.tar.gz.

File metadata

  • Download URL: documentgraph-0.1.1.tar.gz
  • Upload date:
  • Size: 7.3 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.1 CPython/3.9.13

File hashes

Hashes for documentgraph-0.1.1.tar.gz
Algorithm Hash digest
SHA256 1620965db0c4ed5fc82fc49b71444027ae37793794d9a33220c3fad23e749d45
MD5 6731c0eb9a6c980f61b0e804199fb32c
BLAKE2b-256 4dae4a49016c73100d57aa7ed35c2973879bae1b0aa83c1c1eaa5b7ea1561a2e

See more details on using hashes here.

File details

Details for the file documentgraph-0.1.1-py3-none-any.whl.

File metadata

  • Download URL: documentgraph-0.1.1-py3-none-any.whl
  • Upload date:
  • Size: 6.5 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.1 CPython/3.9.13

File hashes

Hashes for documentgraph-0.1.1-py3-none-any.whl
Algorithm Hash digest
SHA256 266dfbd680eaff520f015be53c72e7a3680b02cbada1ea337627500aadd59445
MD5 d3222f076ce8157eb3f6388cc57a6460
BLAKE2b-256 f00c5b5d20b80a251e87604a547518d8dfd344b2091176b77c45297d1b995665

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page