Infraestrutura dbutils python de uma equipe de Ciência de Dados
Project description
gmpyinfr_dbutils
Módulo de funções e métodos úteis de banco de dados para o dia-a-dia de uma equipe de Ciência de Dados.
Instalação
Não há cobertura para utilização no Windows. Este pacote e o passo-a-passo de instalação tem funcionamento garantido nas seguintes distros:
Debian
- 8 (jessie)
- 9 (stretch)
- 10 (buster)
Ubuntu
- 20.04 (focal)
- 19.04 (disco)
- 18.04 (bioni)
- 16.04 (xenial)
- 14.04 (trusty)
Demais distribuições linux devem funcionar sem problemas mas têm comandos e processo de instalação diferentes. Caso este seja o seu caso, por favor verifique a documentação do turbodbc
, Microsoft SQL Server
, PostgreSQL
e Apache Arrow
.
Dos tópicos de instalação abaixo, é obrigatório que os passos de C++ Packages para Debian/GNU Linux, Ubuntu e CentOS sejam seguidos à risca. Os demais tópicos (Microsoft SQL Server drivers e PostgreSQL drivers) serão instalados conforme a sua necessidade de acesso. Em caso de sistemas que irão acessar apenas tabelas no SQL Server, não é necessário instalar o PostgreSQL, e vice-versa. Para instalação na máquina dos cientistas, é recomendada que a instalação descrita nos dois tópicos seja realizada.
C++ Packages para Debian/GNU Linux, Ubuntu e CentOS (obrigatório)
Execute os comandos abaixo, na ordem fornecida, para instalação das bibliotecas C++ do Apache Arrow, sources de desenvolvimento Python e Unix ODBC.
sudo apt update
sudo apt install -y ca-certificates lsb-release wget libboost-all-dev unixodbc-dev python-dev unixodbc
wget https://apache.bintray.com/arrow/$(lsb_release --id --short | tr 'A-Z' 'a-z')/apache-arrow-archive-keyring-latest-$(lsb_release --codename --short).deb
sudo apt install -y ./apache-arrow-archive-keyring-latest-$(lsb_release --codename --short).deb
sudo apt update
sudo apt install -y libarrow-dev libarrow-dataset-dev libarrow-python-dev
Microsoft SQL Server drivers (opcional)
Apenas após a finalização com sucesso dos passos acima, execute os seguintes comandos. Para mais detalhes específicos da sua distro e passo a passo mais detalhado, visite a página oficial da Microsoft.
sudo apt update
sudo apt install -y apt-transport-https curl gnupg2
sudo su
version=$(lsb_release -d --short | sed "s@GNU/Linux@@" | tr 'A-Z' 'a-z' | grep -Po '([a-z]+\ *[0-9]+(?:\.[0-9]+)?)' | sed -E "s@\s+@ @" | tr ' ' '/')
regex="([a-z]+)/([0-9]+[.0-9]*)"
version=$(if [[ $version =~ $regex ]]; then if [ "${BASH_REMATCH[1]}" == "debian" ]; then echo "$version" | grep -Po '([a-z]+/[0-9]+)'; else echo "$version"; fi; fi)
curl https://packages.microsoft.com/keys/microsoft.asc | apt-key add -
curl https://packages.microsoft.com/config/$version/prod.list > /etc/apt/sources.list.d/mssql-release.list
exit
sudo apt update
sudo ACCEPT_EULA=Y apt -y install msodbcsql17
PostgreSQL drivers (opcional)
A instalação dos drivers do PostgreSQL é um pouco mais simples, embora alguns erros possam ocorrer. Siga o passo-a-passo abaixo para instalação dos drivers:
sudo apt update
sudo apt install -y odbc-postgresql libpq-dev
Troubleshooting
Em algumas situações, durante a utilização, este tipo de erro pode ocorrer:
[unixODBC][Driver Manager]Can't open lib 'psqlodbcw.so' : file not found (0) (SQLDriverConnect)
Favor verifique o conteúdo do arquivo odbcinst.ini
que pode ser encontrado normalmente em /etc/odbcinst.ini
ou em $HOME/.odbcinst.ini
. Caso neste arquivo a linha que indica o local do driver esteja preenchida sem o fullpath faça a correção inserindo o caminho completo da lib.
Instalação do pacote
Após a instalação das dependências acima, pode-se instalar o pacote através do pip, pelo comando
pip install gmpyinfr-dbutils
Há um projeto mantido no PyPi para facilitar o acesso ao pacote. Pode-se visualizar através deste link.
Se pretende instalar a partir do source (este repositório), deve-se criar as wheels e instalar a partir do pip através do seguinte comando:
python setup.py bdist_wheel
pip install dist/*.whl # instalação no env atual
rm -rf build/ gmpyinfr_dbutils.egg-info/ dist/ # remover diretórios e conteúdos do build
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
File details
Details for the file gmpyinfr_dbutils-0.0.7.tar.gz
.
File metadata
- Download URL: gmpyinfr_dbutils-0.0.7.tar.gz
- Upload date:
- Size: 18.7 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.3.0 pkginfo/1.7.0 requests/2.24.0 setuptools/52.0.0.post20210125 requests-toolbelt/0.9.1 tqdm/4.56.0 CPython/3.7.10
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 9d4bc081665055407acd437c7c776bcc3de81e02b2e75a87c095d2129180ea85 |
|
MD5 | 526384837df3b4c51f6624e752bc1957 |
|
BLAKE2b-256 | 016272b9506382627fbef02bba7c389ed5f1f3dae50ef1c703d2a577113a2fde |
File details
Details for the file gmpyinfr_dbutils-0.0.7-py3-none-any.whl
.
File metadata
- Download URL: gmpyinfr_dbutils-0.0.7-py3-none-any.whl
- Upload date:
- Size: 19.6 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.3.0 pkginfo/1.7.0 requests/2.24.0 setuptools/52.0.0.post20210125 requests-toolbelt/0.9.1 tqdm/4.56.0 CPython/3.7.10
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 6bc9550d27c48a6399dabd590a90d15226d2b056499c6263e95c1bc429832236 |
|
MD5 | 741b7bc53e89aab07d3f9e23ffe1dac3 |
|
BLAKE2b-256 | 9200daae70d9b787f402b3de034d812f8bd3df8168379276c28fdb09a7ecad91 |