PySpark application
Project description
# py-pack
Generate package egg, that can be attached to Spark clusters in production or included in a PySpark console.
$ python=3.6.1
#test
python setup.py bdist_wheel sdist twine upload dist*
- ### Install dependences
pip install -r requirements.txt
- ### Create module pypack
python setup.py install
- ### Test solutions
python tests/test_mission.py
- ### Command line to Generate package egg, your code in a dist/pypack-0.0.1-py3.6.egg
python setup.py bdist_egg
- ### Start the PySpark console and attach the egg file.
pyspark –py-files dist/pypack-0.0.1-py3.6.egg
### From the PySpark REPL, you can import the pypack code and execute the application code.
from pypack.spark import *
from pypack.mission import with_life_goal
source_data = [ (“jose”, 1), (“pedro”, 2) ]
source_df = spark.createDataFrame( source_data, [“name”, “age”])
actual_df = with_life_goal(source_df)
actual_df.show()
### The pypack library can be attached to spark-submit commands for launching applications in a similar manner.
DATAFLOW Processamento simplificado de dados de stream e em lote, com a mesma confiabilidade e expressividade AVALIAÇÃO GRATUITA Desenvolvimento mais rápido e gerenciamento mais simples O Cloud Dataflow é um serviço totalmente gerenciado para transformar e aprimorar dados nos modos de stream (tempo real) e em lote (do histórico) com a mesma confiabilidade e expressividade. Você não precisa mais encontrar soluções alternativas complexas. E, com a abordagem sem servidor para o provisionamento e gerenciamento de recursos, você tem acesso a uma capacidade praticamente ilimitada para solucionar seus maiores desafios de processamento de dados, ao mesmo tempo em que paga apenas por aquilo que usa.
O Cloud Dataflow habilita casos de uso transformacionais em vários setores, incluindo:
check análise de sequência de cliques, pontos de venda e segmentação no varejo check detecção de fraude em serviços financeiros check experiência do usuário personalizada em jogos check análises da IoT na indústria, em serviços de saúde e em logística faster-development-easier-management Desenvolvimento acelerado para dados em lote e de stream O Cloud Dataflow possibilita o desenvolvimento rápido e simplificado de canais por meio das APIs expressivas de Java e Python no SDK do Apache Beam. Ele oferece um conjunto avançado de primitivos de análise de sessão e janelas, assim como um ecossistema de conectores de coletor e origem. Além disso, com o modelo de desenvolvimento exclusivo e unificado do Beam, é possível reutilizar mais códigos nos canais de stream e em lote.
accelerate-development-with-no-compromises Simplifique operações e gerenciamento A abordagem sem servidor do GCP remove a sobrecarga operacional com o processamento automático de desempenho, escalonabilidade, disponibilidade, segurança e conformidade. Desta forma, os usuários podem se concentrar na programação em vez de precisar gerenciar clusters de servidores. A integração com o Stackdriver, a solução de monitoramento e geração de registros unificada do GCP, permite que você faça o monitoramento e resolva problemas nos seus canais enquanto eles estão em execução. A visualização avançada, a geração de registros e o sistema de alertas avançado ajudam você a identificar e a tomar medidas em relação a possíveis problemas.
simplify-operations-and-management Desenvolva a base para o machine learning Use o Cloud Dataflow como um elemento de integração prático para incluir a análise preditiva na detecção de fraude, na personalização em tempo real e em casos de uso semelhantes. Para isso, adicione modelos do Cloud Machine Learning com base no TensorFlow e APIs nos seus canais de processamento de dados.
build-on-a-foundation-for-machine-learning Use ferramentas que você conhece e prefere O Cloud Dataflow se integra perfeitamente aos serviços do GCP para o processamento de eventos de streaming (Cloud Pub/Sub), armazenamento de dados (BigQuery), machine learning (Cloud Machine Learning) e muito mais. Com o SDK com base em Beam, os desenvolvedores também podem criar extensões personalizadas e até mesmo escolher mecanismos de execução alternativos, como o Apache Spark, por meio do Cloud Dataproc ou no local. Para os usuários do Apache Kafka, um conector do Cloud Dataflow facilita a integração com o GCP.
use-your-favorite-and-familiar-tools Transformação de dados com o Cloud Dataflow diagram-dataflow
RECURSOS DO CLOUD DATAFLOW Gerenciamento de recursos automatizado O Cloud Dataflow automatiza o provisionamento e o gerenciamento de recursos em processamento para reduzir a latência e maximizar a utilização. Você não precisa mais executar instâncias manualmente ou reservá-las. Reequilíbrio dinâmico de trabalho O particionamento automatizado e otimizado do trabalho reequilibra as atividades atrasadas de maneira dinâmica. Não é preciso procurar teclas de atalho ou fazer o pré-processamento dos seus dados de entrada. Processamento único, confiável e consistente Fornece suporte integrado para a execução tolerante a falhas consistente e correta, independentemente do tamanho dos dados, do tamanho do cluster, do padrão de processamento e da complexidade do canal. Escalonamento automático horizontal Escalonamento automático horizontal do número de workers para alcançar os melhores resultados de capacidade com o melhor custo-benefício. Modelo de programação unificado O SDK do Apache Beam oferece operações avançadas, similares ao MapReduce e de igual potência, além de sistema de gestão de janelas avançado e controle de correção detalhado tanto para os dados de stream quanto em lote. Inovações voltadas para a comunidade Os desenvolvedores que quiserem estender o modelo de programação do Cloud Dataflow podem fazer bifurcações e/ou contribuir para o Apache Beam.
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for py_dataflow-0.0.5-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | ea8a68e765f19afcc066da379a52ed01fde0fc8eb95d639a5a36fc963338b0f9 |
|
MD5 | 5c49d3d4947679c281f6e7b6eb487d1e |
|
BLAKE2b-256 | f982931b208354e0c40ccb1f8d1c000f74eb2112a3ed9f4375488d31a8d02e2d |