Skip to main content
Join the official 2019 Python Developers SurveyStart the survey!

Utilidad para Web Scrapping en el Portal de Archivos Españoles-PARES

Project description

PARESS - Web Scraping el Portal de Archivos Españoles

Este es un módulo que puede ser utilizado para realizar tareas de Web Scraping en el Portal de Archivos Españoles.

Instalación

Desde PyPI

pip install paress

Desde GitHub

pip install git+https://github.com/jairomelo/PARESS.git

Uso

paress.metadatalist(url,elem,host="http://pares.mcu.es")

Regresa un lista de un elemento: título, fecha, signatura, archivo. El parámetro elem se debe indicar como sigue: * Título de los elementos: "titulo" * Nombre de los archivos: "archivo" * Fechas: "fecha" * Signaturas: "signatura"

Ej.: Cartas y expedientes de personas eclesiásticas, sig. FILIPINAS,301

import paress

paress.metadatalist("http://pares.mcu.es/ParesBusquedas20/catalogo/contiene/425393","fecha")

paress.imagenes(url, ident="descarga", host="http://pares.mcu.es")

Descarga las imágenes de un expediente. La ruta debe ser "http://pares.mcu.es/ParesBusquedas20/catalogo/show/xxx". Puede personalizarse el nombre del archivo de la descarga con el parámetro ident. En caso de no incluir este parámetro el programa descarga las imágenes en el directorio '/descarga/' y reemplaza cualquier archivo con el nombre 'descarga.csv'. Nombres muy largos pueden generar errores.

Ej: Registro: Virreyes de Santa Fe, sig. Archivo General de Indias, SANTA_FE,541,L.3

import paress

paress.imagenes("http://pares.mcu.es/ParesBusquedas20/catalogo/show/384442","nombre_directorio")

paress.metadata(url,ident="descarga",host="http://pares.mcu.es")

Descarga el conjunto de metadatos en un archivo csv. Puede personalizarse el nombre del archivo de la descarga con el parámetro ident. En caso de no incluir este parámetro el programa descarga las imágenes en el directorio '/descarga/' pero no reemplaza ninguna imagen. Nombres muy largos pueden generar errores.

Ej.: Cartas y expedientes de personas eclesiásticas, sig. FILIPINAS,301

import paress

paress.metadata("http://pares.mcu.es/ParesBusquedas20/catalogo/contiene/425393","nombre_directorio")

El parámetro URL en paress.metadata() y pares.metadatalist() acepta cualquier ruta que contenga un listado, ya sea una búsqueda simple, avanzada, listado de autoridad o unidad documental.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Files for paress, version 0.0.202
Filename, size File type Python version Upload date Hashes
Filename, size paress-0.0.202-py3-none-any.whl (13.5 kB) File type Wheel Python version py3 Upload date Hashes View hashes
Filename, size paress-0.0.202.tar.gz (5.5 kB) File type Source Python version None Upload date Hashes View hashes

Supported by

Elastic Elastic Search Pingdom Pingdom Monitoring Google Google BigQuery Sentry Sentry Error logging AWS AWS Cloud computing DataDog DataDog Monitoring Fastly Fastly CDN SignalFx SignalFx Supporter DigiCert DigiCert EV certificate StatusPage StatusPage Status page