Skip to main content

Infraestrutura dbutils python de uma equipe de Ciência de Dados

Project description

gmpyinfr_dbutils

Módulo de funções e métodos úteis de banco de dados para o dia-a-dia de uma equipe de Ciência de Dados.

Instalação

Não há cobertura para utilização no Windows. Este pacote e o passo-a-passo de instalação tem funcionamento garantido nas seguintes distros:

Debian

  • 8 (jessie)
  • 9 (stretch)
  • 10 (buster)

Ubuntu

  • 20.04 (focal)
  • 19.04 (disco)
  • 18.04 (bioni)
  • 16.04 (xenial)
  • 14.04 (trusty)

Demais distribuições linux devem funcionar sem problemas mas têm comandos e processo de instalação diferentes. Caso este seja o seu caso, por favor verifique a documentação do turbodbc, Microsoft SQL Server, PostgreSQL e Apache Arrow.

Dos tópicos de instalação abaixo, é obrigatório que os passos de C++ Packages para Debian/GNU Linux, Ubuntu e CentOS sejam seguidos à risca. Os demais tópicos (Microsoft SQL Server drivers e PostgreSQL drivers) serão instalados conforme a sua necessidade de acesso. Em caso de sistemas que irão acessar apenas tabelas no SQL Server, não é necessário instalar o PostgreSQL, e vice-versa. Para instalação na máquina dos cientistas, é recomendada que a instalação descrita nos dois tópicos seja realizada.

C++ Packages para Debian/GNU Linux, Ubuntu e CentOS (obrigatório)

Execute os comandos abaixo, na ordem fornecida, para instalação das bibliotecas C++ do Apache Arrow, sources de desenvolvimento Python e Unix ODBC.

sudo apt update
sudo apt install -y ca-certificates lsb-release wget libboost-all-dev unixodbc-dev python-dev unixodbc

wget https://apache.bintray.com/arrow/$(lsb_release --id --short | tr 'A-Z' 'a-z')/apache-arrow-archive-keyring-latest-$(lsb_release --codename --short).deb

sudo apt install -y ./apache-arrow-archive-keyring-latest-$(lsb_release --codename --short).deb
sudo apt update 
sudo apt install -y libarrow-dev libarrow-dataset-dev libarrow-python-dev

Microsoft SQL Server drivers (opcional)

Apenas após a finalização com sucesso dos passos acima, execute os seguintes comandos. Para mais detalhes específicos da sua distro e passo a passo mais detalhado, visite a página oficial da Microsoft.

sudo apt update
sudo apt install -y apt-transport-https curl gnupg2

sudo su

version=$(lsb_release -d --short | sed "s@GNU/Linux@@" | tr 'A-Z' 'a-z' | grep -Po '([a-z]+\ *[0-9]+(?:\.[0-9]+)?)' | sed -E "s@\s+@ @" | tr ' ' '/')
regex="([a-z]+)/([0-9]+[.0-9]*)"
version=$(if [[ $version =~ $regex ]]; then if [ "${BASH_REMATCH[1]}" == "debian" ]; then echo "$version" | grep -Po '([a-z]+/[0-9]+)'; else echo "$version"; fi; fi)

curl https://packages.microsoft.com/keys/microsoft.asc | apt-key add -
curl https://packages.microsoft.com/config/$version/prod.list > /etc/apt/sources.list.d/mssql-release.list

exit

sudo apt update
sudo ACCEPT_EULA=Y apt -y install msodbcsql17

PostgreSQL drivers (opcional)

A instalação dos drivers do PostgreSQL é um pouco mais simples, embora alguns erros possam ocorrer. Siga o passo-a-passo abaixo para instalação dos drivers:

sudo apt update
sudo apt install -y odbc-postgresql libpq-dev

Troubleshooting

Em algumas situações, durante a utilização, este tipo de erro pode ocorrer:

[unixODBC][Driver Manager]Can't open lib 'psqlodbcw.so' : file not found (0) (SQLDriverConnect)

Favor verifique o conteúdo do arquivo odbcinst.ini que pode ser encontrado normalmente em /etc/odbcinst.ini ou em $HOME/.odbcinst.ini. Caso neste arquivo a linha que indica o local do driver esteja preenchida sem o fullpath faça a correção inserindo o caminho completo da lib.

Instalação do pacote

Após a instalação das dependências acima, pode-se instalar o pacote através do pip, pelo comando

pip install gmpyinfr-dbutils

Há um projeto mantido no PyPi para facilitar o acesso ao pacote. Pode-se visualizar através deste link.

Se pretende instalar a partir do source (este repositório), deve-se criar as wheels e instalar a partir do pip através do seguinte comando:

python setup.py bdist_wheel
pip install dist/*.whl  # instalação no env atual
rm -rf build/ gmpyinfr_dbutils.egg-info/ dist/  # remover diretórios e conteúdos do build

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

gmpyinfr_dbutils-0.0.7.tar.gz (18.7 kB view details)

Uploaded Source

Built Distribution

gmpyinfr_dbutils-0.0.7-py3-none-any.whl (19.6 kB view details)

Uploaded Python 3

File details

Details for the file gmpyinfr_dbutils-0.0.7.tar.gz.

File metadata

  • Download URL: gmpyinfr_dbutils-0.0.7.tar.gz
  • Upload date:
  • Size: 18.7 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.3.0 pkginfo/1.7.0 requests/2.24.0 setuptools/52.0.0.post20210125 requests-toolbelt/0.9.1 tqdm/4.56.0 CPython/3.7.10

File hashes

Hashes for gmpyinfr_dbutils-0.0.7.tar.gz
Algorithm Hash digest
SHA256 9d4bc081665055407acd437c7c776bcc3de81e02b2e75a87c095d2129180ea85
MD5 526384837df3b4c51f6624e752bc1957
BLAKE2b-256 016272b9506382627fbef02bba7c389ed5f1f3dae50ef1c703d2a577113a2fde

See more details on using hashes here.

File details

Details for the file gmpyinfr_dbutils-0.0.7-py3-none-any.whl.

File metadata

  • Download URL: gmpyinfr_dbutils-0.0.7-py3-none-any.whl
  • Upload date:
  • Size: 19.6 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.3.0 pkginfo/1.7.0 requests/2.24.0 setuptools/52.0.0.post20210125 requests-toolbelt/0.9.1 tqdm/4.56.0 CPython/3.7.10

File hashes

Hashes for gmpyinfr_dbutils-0.0.7-py3-none-any.whl
Algorithm Hash digest
SHA256 6bc9550d27c48a6399dabd590a90d15226d2b056499c6263e95c1bc429832236
MD5 741b7bc53e89aab07d3f9e23ffe1dac3
BLAKE2b-256 9200daae70d9b787f402b3de034d812f8bd3df8168379276c28fdb09a7ecad91

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page