Skip to main content

Paress2 is a Python package for downloading images from the Pares2 website.

Project description

PyPI PyPI - Python Version PyPI - Downloads GitHub GitHub last commit

PARESS2 :: Descargador automatizado de archivos del Portal de Archivos Españoles PARES2.0

Esta librería permite realizar descargas automatizadas de archivos del Portal de Archivos Españoles PARES2.0. Debido a que el portal no cuenta con una API, se ha desarrollado esta librería para realizar un Web Scrapping de la página web del portal.


🆕 Una interfaz gráfica βeta para este módulo está disponible en GUI-archivos-hispanoamericanos. Por lo pronto solamente está disponible para Windows 10 y 11.

Descargar app para Windows: Download


Esta librería se encuentra en activo desarrollo, por lo que es posible que algún error ya haya sido resuelto en la versión más reciente. Antes de ejecutar el script, se recomienda actualizar la librería a la última versión disponible.

Requisitos

Este programa ha sido probado y configurado para funcionar con Google Chrome a través de la librería webdriver-manager. Para su correcto funcionamiento es necesario tener instalado Google Chrome en el equipo. En caso de no tenerlo instalado, se puede descargar desde aquí.

Se planea en una actualización posterior incluir soporte para Firefox y Chromium con el propósito de facilitar su uso en distribuciones Linux.

Instalación

Este módulo está disponible en PyPI. Para instalarlo, se debe ejecutar el siguiente comando:

pip install paress2

Uso

En esta versión, solamente está disponible la opción de guardar imágenes de un legajo. En próximas versiones se incluirán más opciones.

Este módulo está diseñado para ser usado en un script de Python, por lo que no se incluye una interfaz gráfica. Para su uso, se debe importar el módulo y crear una instancia de la clase Paress:

from paress2 import Paress

El objeto Paress se inicializa con mínimo un parámetro, que es el enlace al legajo que se quiera descargar. Por ejemplo:

Paress("http://pares.mcu.es/ParesBusquedas20/catalogo/show/7255960?nm")

También existen tres parámetros opcionales:

  • destino: Ruta de destino donde se guardarán los archivos. Por defecto, se guardan en un subdirectorio construido a partir del numero de catálogo del legajo (ej: 7255960). Si la ruta no es absoluta (ej: "C:\Users\usuario\descargas\images"), se guardará en el directorio donde se ejecute el script. Si la ruta no existe, se creará.
  • headless: Si es True, se ejecutará el navegador en modo headless. Por defecto, es False. En este modo no es posible descargar imágenes, así que se debe entender como un modo de pruebas.
  • velocidad: Tiempo en segundos (acepta valores decimales, p. ej: 0.5) que se espera entre cada proceso. El valor predeterminado es 10, lo cual es aceptable para una cantidad de imágenes moderada (menor a 50 imágenes). Puede modificar este valor si se desea que el proceso sea más rápido o más lento. No obstante, tenga en cuenta que si el valor es muy bajo, se pueden presentar errores de conexión e incluso repetición en la descarga de imágenes.

Una vez creado el objeto, se debe llamar al método descargar_imagenes() para iniciar la descarga de las imágenes. Este método no recibe parámetros.

Paress("http://pares.mcu.es/ParesBusquedas20/catalogo/show/7255960?nm", destino="C:\Users\usuario\descargas\images", velocidad=1).descargar_imagenes()

A menos que esté en modo headless, se abrirá una ventana de Google Chrome y se iniciará la descarga de las imágenes. El proceso puede tardar varios minutos, dependiendo de la velocidad de conexión a Internet y de la cantidad de imágenes que tenga el legajo.

Licencia

GNU General Public License v3.0

Contribuciones

Las contribuciones son bienvenidas. Para solicitar cambios o reportar errores, por favor, cree un issue en el repositorio de GitHub. Para reportar errores por favor compartir el número de catálogo del legajo y el mensaje de error que se muestra en la consola.

Si desea contribuir con el código, por favor, cree un pull request y se revisará o aceptará lo antes posible.

TODO

  • Añadir un registro del legajo descargado para identificar el documento.
  • Incluir soporte para Firefox
  • Incluir opción para descargar el archivo como PDF
  • Construir una interfaz gráfica para facilitar su uso (parcial)
  • Añadir la opción de descargar metadatos y conjuntos de búsquedas (por ejemplo, para descargar una lista de mapas)

Control de cambios

El registro de cambios se encuentra en el archivo CHANGELOG.md

Patrocinio

Este proyecto ha sido elaborado de manera independiente por el autor. Si desea apoyar el desarrollo de este y otros proyectos, puede considerar patrocinarme a través de GitHub Sponsors

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

paress2-0.1.6.tar.gz (22.4 kB view details)

Uploaded Source

Built Distribution

paress2-0.1.6-py3-none-any.whl (21.0 kB view details)

Uploaded Python 3

File details

Details for the file paress2-0.1.6.tar.gz.

File metadata

  • Download URL: paress2-0.1.6.tar.gz
  • Upload date:
  • Size: 22.4 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.2 CPython/3.10.4

File hashes

Hashes for paress2-0.1.6.tar.gz
Algorithm Hash digest
SHA256 557f774ba97cd2c49d54a7ab3e915101829ff46ce47d42744c4d1ce00fcbc1a7
MD5 fe12c3ce19759f153c9d97a9cd6cdfe1
BLAKE2b-256 e393324b2e8834fcc780b05aa6123b26b6894064314cc4e9078796ca5d0465cf

See more details on using hashes here.

File details

Details for the file paress2-0.1.6-py3-none-any.whl.

File metadata

  • Download URL: paress2-0.1.6-py3-none-any.whl
  • Upload date:
  • Size: 21.0 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.2 CPython/3.10.4

File hashes

Hashes for paress2-0.1.6-py3-none-any.whl
Algorithm Hash digest
SHA256 4cbe44a9dfea5c3639301297cb4453fda171695f5160b69488e1379392b48f1e
MD5 c437a24e0286c0be6ac21e842e4effbd
BLAKE2b-256 2e329ad493e7576dca4bef0e27fb46981a89744b3a6a4f364aae55ae8bc64f94

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page