Skip to main content

Utilidad para Web Scrapping en el Portal de Archivos Españoles-PARES

Project description

PARESS - Web Scraping el Portal de Archivos Españoles

Este es un módulo que puede ser utilizado para realizar tareas de Web Scraping en el Portal de Archivos Españoles.

Instalación

Desde PyPI

pip install paress

Desde GitHub

pip install git+https://github.com/jairomelo/PARESS.git

Uso

paress.metadatalist(url,elem,host="http://pares.mcu.es")

Regresa un lista de un elemento: título, fecha, signatura, archivo. El parámetro elem se debe indicar como sigue: * Título de los elementos: "titulo" * Nombre de los archivos: "archivo" * Fechas: "fecha" * Signaturas: "signatura"

Ej.: Cartas y expedientes de personas eclesiásticas, sig. FILIPINAS,301

import paress

paress.metadatalist("http://pares.mcu.es/ParesBusquedas20/catalogo/contiene/425393","fecha")

paress.imagenes(url, ident="descarga", host="http://pares.mcu.es")

Descarga las imágenes de un expediente. La ruta debe ser "http://pares.mcu.es/ParesBusquedas20/catalogo/show/xxx". Puede personalizarse el nombre del archivo de la descarga con el parámetro ident. En caso de no incluir este parámetro el programa descarga las imágenes en el directorio '/descarga/' y reemplaza cualquier archivo con el nombre 'descarga.csv'. Nombres muy largos pueden generar errores.

Ej: Registro: Virreyes de Santa Fe, sig. Archivo General de Indias, SANTA_FE,541,L.3

import paress

paress.imagenes("http://pares.mcu.es/ParesBusquedas20/catalogo/show/384442","nombre_directorio")

paress.metadata(url,ident="descarga",host="http://pares.mcu.es")

Descarga el conjunto de metadatos en un archivo csv. Puede personalizarse el nombre del archivo de la descarga con el parámetro ident. En caso de no incluir este parámetro el programa descarga las imágenes en el directorio '/descarga/' pero no reemplaza ninguna imagen. Nombres muy largos pueden generar errores.

Ej.: Cartas y expedientes de personas eclesiásticas, sig. FILIPINAS,301

import paress

paress.metadata("http://pares.mcu.es/ParesBusquedas20/catalogo/contiene/425393","nombre_directorio")

El parámetro URL en paress.metadata() y pares.metadatalist() acepta cualquier ruta que contenga un listado, ya sea una búsqueda simple, avanzada, listado de autoridad o unidad documental.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

paress-0.0.400.tar.gz (8.4 kB view details)

Uploaded Source

Built Distribution

paress-0.0.400-py3-none-any.whl (19.0 kB view details)

Uploaded Python 3

File details

Details for the file paress-0.0.400.tar.gz.

File metadata

  • Download URL: paress-0.0.400.tar.gz
  • Upload date:
  • Size: 8.4 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.22.0 setuptools/47.1.1 requests-toolbelt/0.9.1 tqdm/4.42.1 CPython/3.7.6

File hashes

Hashes for paress-0.0.400.tar.gz
Algorithm Hash digest
SHA256 048ac6253fc59da03265a46062231dd6ced6158979c519ab7080e5642ee4cb99
MD5 b5449075d84f1b7c16a483055bd7052c
BLAKE2b-256 472490b3443a92439a282338801056345e7fce9277bba1d367ead8f1df732419

See more details on using hashes here.

File details

Details for the file paress-0.0.400-py3-none-any.whl.

File metadata

  • Download URL: paress-0.0.400-py3-none-any.whl
  • Upload date:
  • Size: 19.0 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.22.0 setuptools/47.1.1 requests-toolbelt/0.9.1 tqdm/4.42.1 CPython/3.7.6

File hashes

Hashes for paress-0.0.400-py3-none-any.whl
Algorithm Hash digest
SHA256 062dd82f15f8090079cefc507733bd6b7df27c904ed9e9406dbe1139567920b1
MD5 5e3b888d857356967a7cbf61be81412f
BLAKE2b-256 26e5a91d10a76c5480bc55b689c56a5045424de8bd51fc0cb23162be8dd3be52

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page