Skip to main content

Utilidad para Web Scrapping en el Portal de Archivos Españoles-PARES

Project description

PARESS - Web Scraping el Portal de Archivos Españoles

Este es un módulo que puede ser utilizado para realizar tareas de Web Scraping en el Portal de Archivos Españoles.

Instalación

Desde PyPI

pip install paress

Desde GitHub

pip install git+https://github.com/jairomelo/PARESS.git

Uso

paress.metadatalist(url,elem,host="http://pares.mcu.es")

Regresa un lista de un elemento: título, fecha, signatura, archivo. El parámetro elem se debe indicar como sigue: * Título de los elementos: "titulo" * Nombre de los archivos: "archivo" * Fechas: "fecha" * Signaturas: "signatura"

Ej.: Cartas y expedientes de personas eclesiásticas, sig. FILIPINAS,301

import paress

paress.metadatalist("http://pares.mcu.es/ParesBusquedas20/catalogo/contiene/425393","fecha")

paress.imagenes(url, ident="descarga", host="http://pares.mcu.es")

Descarga las imágenes de un expediente. La ruta debe ser "http://pares.mcu.es/ParesBusquedas20/catalogo/show/xxx". Puede personalizarse el nombre del archivo de la descarga con el parámetro ident. En caso de no incluir este parámetro el programa descarga las imágenes en el directorio '/descarga/' y reemplaza cualquier archivo con el nombre 'descarga.csv'.

Ej: Registro: Virreyes de Santa Fe, sig. Archivo General de Indias, SANTA_FE,541,L.3

import paress

paress.imagenes("http://pares.mcu.es/ParesBusquedas20/catalogo/show/384442","mi_nombre")

paress.metadata(url,ident="descarga",host="http://pares.mcu.es")

Descarga el conjunto de metadatos en un archivo csv. Puede personalizarse el nombre del archivo de la descarga con el parámetro ident. En caso de no incluir este parámetro el programa descarga las imágenes en el directorio '/descarga/' pero no reemplaza ninguna imagen.

Ej.: Cartas y expedientes de personas eclesiásticas, sig. FILIPINAS,301

import paress

paress.metadata("http://pares.mcu.es/ParesBusquedas20/catalogo/contiene/425393","mi_nombre")

El parámetro URL en paress.metadata() y pares.metadatalist() acepta cualquier ruta que contenga un listado, ya sea una búsqueda simple, avanzada, listado de autoridad o unidad documental.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

paress-0.0.148.tar.gz (6.4 kB view details)

Uploaded Source

Built Distribution

paress-0.0.148-py3-none-any.whl (13.3 kB view details)

Uploaded Python 3

File details

Details for the file paress-0.0.148.tar.gz.

File metadata

  • Download URL: paress-0.0.148.tar.gz
  • Upload date:
  • Size: 6.4 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/1.13.0 pkginfo/1.5.0.1 requests/2.20.0 setuptools/41.0.0 requests-toolbelt/0.9.1 tqdm/4.28.1 CPython/3.7.2

File hashes

Hashes for paress-0.0.148.tar.gz
Algorithm Hash digest
SHA256 fface5bae3ea69306840c6026ff187847d572243e151ba5dbadbe566d64ba378
MD5 ad107b098c2d5532de91af375283f76b
BLAKE2b-256 6cd7691cee01f8e89a47a73fe47a86a30dc14833bd5d0ea306e1be79476bfe89

See more details on using hashes here.

File details

Details for the file paress-0.0.148-py3-none-any.whl.

File metadata

  • Download URL: paress-0.0.148-py3-none-any.whl
  • Upload date:
  • Size: 13.3 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/1.13.0 pkginfo/1.5.0.1 requests/2.20.0 setuptools/41.0.0 requests-toolbelt/0.9.1 tqdm/4.28.1 CPython/3.7.2

File hashes

Hashes for paress-0.0.148-py3-none-any.whl
Algorithm Hash digest
SHA256 e1de566ec0d607fdd8741ef7f4afc239df79d582169590dc9b8b463a3b00f0b6
MD5 0b65743519d9290fc2c06329390ec4a4
BLAKE2b-256 94bc55a5ebc03875df11575282d4f859b20610cf89b31c15202597621b5b4ce6

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page