Some computing tools about feature tool and ml model.
Project description
Mega Spark说明
该项目旨在通过spark进行一站式数据分析与模型训练,保证最终落地的只有分析报告,可视化,以及模型训练评估结果,其次 该项目将pysaprk封装成mega对象来延续pandas的使用方法,进而实现在大数据场景下的使用pandas方法进行 数据分析和模型训练,消除相关同学在spark上投入的学习成本
目前提供以下模块:
ml
mega_xgboost
sql
megaframe
tomega
本地安装
如果要给该项目贡献代码,在本地调试好后测试,本地安装方法
$ git clone .
$ cd megaspark
$ python install .
在线安装
建议使用官方镜像,安装最新版本。
$ pip install mega-spark -i https://pypi.Python.org/simple/
使用教程
以tomega
模块为例,安装完成之后,可以使用以下方法导入使用
import megaspark.tomega as mg
data_df = mg.read_csv("path/to/file.csv")
data_df.mega.head(5)
打包发布
$ cd /path/to/megaspark
$ python3 setup.py sdist bdist_wheel
$ pip3 install twine
$ python3 -m twine upload dist/*
注意事项
如果使用ml
模块中的xgboost
,需要在SPARK_HOME/jar
中添加xgboost4j-0.72.jar
以及xgboost4j-spark-0.72.jar
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
mega-spark-1.1.1.tar.gz
(11.5 kB
view hashes)
Built Distribution
mega_spark-1.1.1-py3-none-any.whl
(19.4 kB
view hashes)
Close
Hashes for mega_spark-1.1.1-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 619e80c37c79b19a6769f3722e5319dc7bb07605b59c958e3e08d45b1a33311c |
|
MD5 | 252e5534c0784645f0121e45f2d22c3f |
|
BLAKE2b-256 | 0d0e639ff6b3062a6e648c606199e30b31920cb653037f95dfe10a7f1765435c |