Skip to main content

PySpark application

Project description

# py-pack

Generate package egg, that can be attached to Spark clusters in production or included in a PySpark console.

$ python=3.6.1

#test

python setup.py bdist_wheel sdist twine upload dist*

### Install dependences

pip install -r requirements.txt

### Create module pypack

python setup.py install

### Test solutions

python tests/test_mission.py

### Command line to Generate package egg, your code in a dist/pypack-0.0.1-py3.6.egg

python setup.py bdist_egg

### Start the PySpark console and attach the egg file.

pyspark –py-files dist/pypack-0.0.1-py3.6.egg

### From the PySpark REPL, you can import the pypack code and execute the application code.

  • from pypack.spark import *

  • from pypack.mission import with_life_goal

  • source_data = [ (“jose”, 1), (“pedro”, 2) ]

  • source_df = spark.createDataFrame( source_data, [“name”, “age”])

  • actual_df = with_life_goal(source_df)

  • actual_df.show()

### The pypack library can be attached to spark-submit commands for launching applications in a similar manner.

DATAFLOW Processamento simplificado de dados de stream e em lote, com a mesma confiabilidade e expressividade AVALIAÇÃO GRATUITA Desenvolvimento mais rápido e gerenciamento mais simples O Cloud Dataflow é um serviço totalmente gerenciado para transformar e aprimorar dados nos modos de stream (tempo real) e em lote (do histórico) com a mesma confiabilidade e expressividade. Você não precisa mais encontrar soluções alternativas complexas. E, com a abordagem sem servidor para o provisionamento e gerenciamento de recursos, você tem acesso a uma capacidade praticamente ilimitada para solucionar seus maiores desafios de processamento de dados, ao mesmo tempo em que paga apenas por aquilo que usa.

O Cloud Dataflow habilita casos de uso transformacionais em vários setores, incluindo:

check análise de sequência de cliques, pontos de venda e segmentação no varejo check detecção de fraude em serviços financeiros check experiência do usuário personalizada em jogos check análises da IoT na indústria, em serviços de saúde e em logística faster-development-easier-management Desenvolvimento acelerado para dados em lote e de stream O Cloud Dataflow possibilita o desenvolvimento rápido e simplificado de canais por meio das APIs expressivas de Java e Python no SDK do Apache Beam. Ele oferece um conjunto avançado de primitivos de análise de sessão e janelas, assim como um ecossistema de conectores de coletor e origem. Além disso, com o modelo de desenvolvimento exclusivo e unificado do Beam, é possível reutilizar mais códigos nos canais de stream e em lote.

accelerate-development-with-no-compromises Simplifique operações e gerenciamento A abordagem sem servidor do GCP remove a sobrecarga operacional com o processamento automático de desempenho, escalonabilidade, disponibilidade, segurança e conformidade. Desta forma, os usuários podem se concentrar na programação em vez de precisar gerenciar clusters de servidores. A integração com o Stackdriver, a solução de monitoramento e geração de registros unificada do GCP, permite que você faça o monitoramento e resolva problemas nos seus canais enquanto eles estão em execução. A visualização avançada, a geração de registros e o sistema de alertas avançado ajudam você a identificar e a tomar medidas em relação a possíveis problemas.

simplify-operations-and-management Desenvolva a base para o machine learning Use o Cloud Dataflow como um elemento de integração prático para incluir a análise preditiva na detecção de fraude, na personalização em tempo real e em casos de uso semelhantes. Para isso, adicione modelos do Cloud Machine Learning com base no TensorFlow e APIs nos seus canais de processamento de dados.

build-on-a-foundation-for-machine-learning Use ferramentas que você conhece e prefere O Cloud Dataflow se integra perfeitamente aos serviços do GCP para o processamento de eventos de streaming (Cloud Pub/Sub), armazenamento de dados (BigQuery), machine learning (Cloud Machine Learning) e muito mais. Com o SDK com base em Beam, os desenvolvedores também podem criar extensões personalizadas e até mesmo escolher mecanismos de execução alternativos, como o Apache Spark, por meio do Cloud Dataproc ou no local. Para os usuários do Apache Kafka, um conector do Cloud Dataflow facilita a integração com o GCP.

use-your-favorite-and-familiar-tools Transformação de dados com o Cloud Dataflow diagram-dataflow

RECURSOS DO CLOUD DATAFLOW Gerenciamento de recursos automatizado O Cloud Dataflow automatiza o provisionamento e o gerenciamento de recursos em processamento para reduzir a latência e maximizar a utilização. Você não precisa mais executar instâncias manualmente ou reservá-las. Reequilíbrio dinâmico de trabalho O particionamento automatizado e otimizado do trabalho reequilibra as atividades atrasadas de maneira dinâmica. Não é preciso procurar teclas de atalho ou fazer o pré-processamento dos seus dados de entrada. Processamento único, confiável e consistente Fornece suporte integrado para a execução tolerante a falhas consistente e correta, independentemente do tamanho dos dados, do tamanho do cluster, do padrão de processamento e da complexidade do canal. Escalonamento automático horizontal Escalonamento automático horizontal do número de workers para alcançar os melhores resultados de capacidade com o melhor custo-benefício. Modelo de programação unificado O SDK do Apache Beam oferece operações avançadas, similares ao MapReduce e de igual potência, além de sistema de gestão de janelas avançado e controle de correção detalhado tanto para os dados de stream quanto em lote. Inovações voltadas para a comunidade Os desenvolvedores que quiserem estender o modelo de programação do Cloud Dataflow podem fazer bifurcações e/ou contribuir para o Apache Beam.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

py-dataflow-0.0.6.tar.gz (13.5 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

py_dataflow-0.0.6-py3-none-any.whl (17.7 kB view details)

Uploaded Python 3

File details

Details for the file py-dataflow-0.0.6.tar.gz.

File metadata

  • Download URL: py-dataflow-0.0.6.tar.gz
  • Upload date:
  • Size: 13.5 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.7.1 importlib_metadata/4.10.0 pkginfo/1.8.2 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.9.7

File hashes

Hashes for py-dataflow-0.0.6.tar.gz
Algorithm Hash digest
SHA256 8079e7b8e7c4081cf88dd9f8e9f34f39fc06f6557c7cddb8f00e15ef0cc4249d
MD5 c77acf7752354382b3f64bcddf1fb914
BLAKE2b-256 0f0e236db9bcf50889a4373a8b1a29447feb453a5cf8ee37e3c84d9c6f32970a

See more details on using hashes here.

File details

Details for the file py_dataflow-0.0.6-py3-none-any.whl.

File metadata

  • Download URL: py_dataflow-0.0.6-py3-none-any.whl
  • Upload date:
  • Size: 17.7 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.7.1 importlib_metadata/4.10.0 pkginfo/1.8.2 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.9.7

File hashes

Hashes for py_dataflow-0.0.6-py3-none-any.whl
Algorithm Hash digest
SHA256 a0d2c7095e4c6d3e9b92612fa12596b9c4c11c9e7b41583be347174b22a164a4
MD5 511beda502b89bdfc8b5f1fbf3580f10
BLAKE2b-256 8fe46f7a6c5f1876d2744a8c2f24f7fce7efcc70d79e0fa6a26f07a5bba62069

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page