Skip to main content

Data loader part of the mid-project for the Data Science bootcamp from Core Code School

Project description

Data Loader

forthebadge made-with-python

Tests Build PyPI version

Este proyecto contiene las herramientas necesarias para:

  • Crear la base de datos
  • Cargar datos en esa base de datos
  • Consultar esos datos

Table of contents

Instalación 📥

Biblioteca 📖

Para usarlo como biblioteca basta con instalarlo con pip

pip install covid-data

CLI 🤖

Para usarlo como CLI, sigue siendo necesario instalarlo con pip y, una vez instalado, será suficiente con ejecutarlo desde una consola.

covid_data --help

Configuración ⚙

Este proyecto se vale de las siguientes variables de entorno para su configuración:

POSTGRES_USER: Usuario de Postgres
POSTGRES_PASS: Contraseña de Postgres
POSTGRES_HOST: Host donde se encuentra Postgres
POSTGRES_PORT: Puerto para acceder a Postgres
POSTGRES_DB:   Base de datos a la que conectarse
CAGEDATA_API_KEY: Clave api de OpenCageData

La clave API de OpenCageData se puede crear desde su web y se usa para enriquecer y normalizar localizaciones.

Uso como CLI 🎛️

Para cargar los datos se pueden usar los comandos expuestos por la librería.

Lo primero será crear la base de datos con el esquema disponible aquí. La estructura de la base de datos es la siguiente:

Database ERD

Una vez está creada la base de datos, se pueden cargar los datos de los archivos CSV con el siguiente comando:

covid_data loadcsv /path/to/confirmed.csv,/path/to/dead.csv,/path/to/recovered.csv -tf -o

Para obtener ayuda sobre cómo usar el comando, ejecuta:

 covid_data --help
Usage: app.py [OPTIONS] COMMAND [ARGS]...

Options:
  --help  Show this message and exit.

Commands:
  loadcsv  Loads FILES as CSV data.
  scrap    Scrap cases of chosen COUNTRY.

loadcsv

 covid_data loadcsv --help
Usage: app.py loadcsv [OPTIONS] FILES

  Loads FILES as CSV data. If you want to load several files, each file should
  be separated by comma

Options:
  -t, --type TEXT      Type of cases contained in each file, separated by
                       comma. Leave blank if using --type-in-file
  -tf, --type-in-file  Set this to true if the file names are <case_type>.csv
                       Being <case_type> one of confirmed, recovered or dead
  -o, --optimize       Set to true to skip lines for places that has more
                       cases than columns on the CSV
  --help               Show this message and exit.

Este comando te permite procesar y cargar en la base de datos uno o más archivos CSV. Cada archivo debe contener información de un solo tipo de casos.

Las rutas a los archivos deben ir separados por comas.

De igual manera, el tipo de caso de cada archivo debe ir separados por comas en el argumento --type y en el mismo orden que los archivos.

Otra opción es no usar el argumento --type y nombrar los archivos con el tipo de caso que contienten, e.g. recovered.csv. Si se toma esta alternativa, se debe usar el parámetro --type-in-file.

Por último, el argumento --optimize se saltará todas las filas en las que el país al que hacen referencia ya tenga el mismo (o más) número de casos del tipo del archivo, que columnas tiene el CSV.

Un ejemplo de uso de este comando para cargar los CSVs con todos los datos es:

covid_data loadcsv /path/to/confirmed.csv,/path/to/dead.csv,/path/to/recovered.csv -tf -o

Usa el nombre del archivo para nombrar el tipo de caso y la optimización.

scrap

Este comando permite hacer scrapping de un país concreto. Se usa para ampliar datos por país.

El uso de este comando se detalla aquí:

Usage: app.py scrap [OPTIONS] COUNTRY

  Scrap cases of chosen COUNTRY. To check available countries to scrap use
  --check

Options:
  --check            Use this to check available countries
  --start-date TEXT  Date to start scraping cases from, in format DD/MM/YYYY
  --help             Show this message and exit.

Hay un argumento que es obligatorio y es el país a scrappear. Si se quiere saber qué países hay disponibles, basta con poner cualquier valor en COUNTRY y pasar el parámetro --check:

 covid_data scrap XXX --check
Available countries are:
        France
        Spain

Y, una vez se sabe qué país se va a usar, se lanza el scrapper:

 covid_data scrap spain
Fetching cases for province 1/20
Fetching cases for province 2/20
Fetching cases for province 3/20
...

Se puede especificar la fecha de inicio usando el argumento --start-date. La fecha debe estar en formato DD/MM/YYYY

covid_data scrap France --start-date 01/08/2021

Cargar la base de datos desde un backup

En cada release se adjunta un archivo covid-data.sql con el que se pueden cargar los datos más recientes, hasta el momento de crear esa release.

Ejecutando ese archivo sobre la base de datos covid-data vacía, se rellenará con todos los datos necesarios para la ejecución.

Contribuir ♥

A este proyecto se puede contribuir con mejoras, añadiendo nuevos comandos o añadiendo nuevos scrappers.

Añadir nuevos scrappers

Añadir un nuevo scrapper para un país es tan sencillo como colocar un archivo <country_name>.py en la carpeta covid_data/scrappers y que ese archivo exponga una función:

def scrap(db_engine: psycopg2._psycopg.connection, start_date: datetime.datetime)

Añadir nuevos comandos

Añadir un nuevo comando implica colocar un archivo <command_name>.py en la carpeta covid_data/commands y que ese archivo exponga una función main con todos los decoradores de click necesarios.

Un decorador obligatorio es @click.command("command_name"), pues si no se pone, el comando será main.

Como biblioteca

La parte más interesante de este paquete como biblioteca es el sumbódulo db, que se detalla en el archivo CODE.

License

The Unlicense

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

covid_data-0.1.20.tar.gz (22.5 kB view hashes)

Uploaded Source

Built Distribution

covid_data-0.1.20-py3-none-any.whl (24.1 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page