Utilidad para Web Scrapping en el Portal de Archivos Españoles-PARES
Project description
PARESS - Web Scraping el Portal de Archivos Españoles
Este es un módulo que puede ser utilizado para realizar tareas de Web Scraping en el Portal de Archivos Españoles.
Instalación
Desde PyPI
pip install paress
Desde GitHub
pip install git+https://github.com/jairomelo/PARESS.git
Uso
paress.metadatalist(url,elem,host="http://pares.mcu.es")
Regresa un lista de un elemento: título, fecha, signatura, archivo. El parámetro elem se debe indicar como sigue: * Título de los elementos: "titulo" * Nombre de los archivos: "archivo" * Fechas: "fecha" * Signaturas: "signatura"
Ej.: Cartas y expedientes de personas eclesiásticas, sig. FILIPINAS,301
import paress
paress.metadatalist("http://pares.mcu.es/ParesBusquedas20/catalogo/contiene/425393","fecha")
paress.imagenes(url, ident="descarga", host="http://pares.mcu.es")
Descarga las imágenes de un expediente. La ruta debe ser "http://pares.mcu.es/ParesBusquedas20/catalogo/show/xxx". Puede personalizarse el nombre del archivo de la descarga con el parámetro ident. En caso de no incluir este parámetro el programa descarga las imágenes en el directorio '/descarga/' y reemplaza cualquier archivo con el nombre 'descarga.csv'. Nombres muy largos pueden generar errores.
Ej: Registro: Virreyes de Santa Fe, sig. Archivo General de Indias, SANTA_FE,541,L.3
import paress
paress.imagenes("http://pares.mcu.es/ParesBusquedas20/catalogo/show/384442","nombre_directorio")
paress.metadata(url,ident="descarga",host="http://pares.mcu.es")
Descarga el conjunto de metadatos en un archivo csv. Puede personalizarse el nombre del archivo de la descarga con el parámetro ident. En caso de no incluir este parámetro el programa descarga las imágenes en el directorio '/descarga/' pero no reemplaza ninguna imagen. Nombres muy largos pueden generar errores.
Ej.: Cartas y expedientes de personas eclesiásticas, sig. FILIPINAS,301
import paress
paress.metadata("http://pares.mcu.es/ParesBusquedas20/catalogo/contiene/425393","nombre_directorio")
El parámetro URL en paress.metadata()
y pares.metadatalist()
acepta cualquier ruta que contenga un listado, ya sea una búsqueda simple, avanzada, listado de autoridad o unidad documental.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
File details
Details for the file paress-0.0.400.tar.gz
.
File metadata
- Download URL: paress-0.0.400.tar.gz
- Upload date:
- Size: 8.4 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.22.0 setuptools/47.1.1 requests-toolbelt/0.9.1 tqdm/4.42.1 CPython/3.7.6
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 048ac6253fc59da03265a46062231dd6ced6158979c519ab7080e5642ee4cb99 |
|
MD5 | b5449075d84f1b7c16a483055bd7052c |
|
BLAKE2b-256 | 472490b3443a92439a282338801056345e7fce9277bba1d367ead8f1df732419 |
File details
Details for the file paress-0.0.400-py3-none-any.whl
.
File metadata
- Download URL: paress-0.0.400-py3-none-any.whl
- Upload date:
- Size: 19.0 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.22.0 setuptools/47.1.1 requests-toolbelt/0.9.1 tqdm/4.42.1 CPython/3.7.6
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 062dd82f15f8090079cefc507733bd6b7df27c904ed9e9406dbe1139567920b1 |
|
MD5 | 5e3b888d857356967a7cbf61be81412f |
|
BLAKE2b-256 | 26e5a91d10a76c5480bc55b689c56a5045424de8bd51fc0cb23162be8dd3be52 |