tlaunch
Project description
TLaunch_dev
Introduction
安装
virtualenv tmarl_env -p python3
# under tmarl_env, go into this repo and execute:
pip install -r requirements_dev.txt
pip install .
Quick Start
1.使用SSH登录TPod
TPod
是一款面向分布式场景,为TLaunch
准备的用户及资源管理工具。当管理员使用TPod
创建用户后,可以自定义的为其指定分配的系统资源(包括CPU、GPU、Memory、Storage),并为该用户创建一个已经预装好TLaunch
框架的TPod
开发机,用户可以直接通过SSH登录该机器访问集群,以快速进入开发流程。
TPod的存储结构
在TPod
中,我们会在/TData
目录下创建你的个人文件夹,该文件夹会通过挂载的文件系统与远端同步。/TData
内会预先创建以下内容:
code
:用于存放训练代码setup.sh
:用于指定训练环境及代码的安装方法
data
:用于存放训练所需的数据cache
:用于存放分布式计算过程中产生的缓存文件models
:用于存放模型数据
2.存放算法代码并指定安装方法
在多数分布式场景中,少量的代码往往会经常改动。若每次改动代码都重新构建镜像,会浪费大量的时间。因此,我们可以将这部分代码存放在/TData/code
文件夹中。在训练中,每当一个pods
被创建时,都将先按照code
文件夹中的setup.sh
脚本更新环境
3.调用TLaunch创建任务
refs:https://github.com/TARTRL/TMARL/blob/master/docs/tlaunch/README.md
4.管理任务
当任务创建完成后,我们可以调用kubectl
来查看任务状态及日志,其中常用的几条指令包括:
- 查看正在运行中的任务:
kubectl get lpjobs
- 查看正在运行中的pods:
kubectl get pods
- 查看pod节点日志:
kubectl logs ${pod name}
- 查看pod节点详细信息:
kubectl describe pods ${pod name}
- 删除任务:
kubectl delete lpjobs ${lpjob name}
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
tlaunch-0.0.2.tar.gz
(46.0 kB
view hashes)
Built Distribution
tlaunch-0.0.2-py3-none-any.whl
(72.7 kB
view hashes)