A document analysis pipeline with knowledge graph
Project description
DocumentGraph
DocumentGraph es una herramienta de análisis de documentos que utiliza técnicas de procesamiento de lenguaje natural y grafos de conocimiento para extraer información valiosa de tus documentos.
Características
- Extracción de documentos solo .txt
- Preprocesamiento de texto
- Generación de embeddings para chunks de texto
- Extracción de entidades y relaciones
- Carga de datos en un grafo de conocimiento
Instalación
pip install documentgraph
Uso
from documentgraph import DocumentAnalysisPipeline, ETLConfig
# Configurar el pipeline
etl_config = ETLConfig()
pipeline = DocumentAnalysisPipeline(etl_config)
# Ejecutar el pipeline
pipeline.execute_pipeline("ruta/a/tus/documentos")
Estructura del Proyecto
- src/: Contiene el código fuente del proyecto
- extraction.py: Módulo para la extracción de documentos
- models.py: Definiciones de modelos de datos
- transformation.py: Módulos para el procesamiento de texto, generación de embeddings y extracción de entidades/relaciones
- loading.py: Módulo para cargar datos en el grafo de conocimiento
- config.py: Configuración del pipeline ETL
- main.py: Punto de entrada principal y definición del pipeline
Configuración
La configuración del pipeline se realiza a través de la clase ETLConfig. Asegúrate de configurar correctamente los parámetros antes de ejecutar el pipeline.
Contribuir
Las contribuciones son bienvenidas. Por favor, abre un issue para discutir los cambios propuestos antes de enviar un pull request.
Licencia
Este proyecto está licenciado bajo la Licencia Apache 2.0. Consulta el archivo LICENSE para más detalles.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file documentgraph-0.1.1.tar.gz.
File metadata
- Download URL: documentgraph-0.1.1.tar.gz
- Upload date:
- Size: 7.3 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.9.13
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
1620965db0c4ed5fc82fc49b71444027ae37793794d9a33220c3fad23e749d45
|
|
| MD5 |
6731c0eb9a6c980f61b0e804199fb32c
|
|
| BLAKE2b-256 |
4dae4a49016c73100d57aa7ed35c2973879bae1b0aa83c1c1eaa5b7ea1561a2e
|
File details
Details for the file documentgraph-0.1.1-py3-none-any.whl.
File metadata
- Download URL: documentgraph-0.1.1-py3-none-any.whl
- Upload date:
- Size: 6.5 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.1 CPython/3.9.13
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
266dfbd680eaff520f015be53c72e7a3680b02cbada1ea337627500aadd59445
|
|
| MD5 |
d3222f076ce8157eb3f6388cc57a6460
|
|
| BLAKE2b-256 |
f00c5b5d20b80a251e87604a547518d8dfd344b2091176b77c45297d1b995665
|