Megatron Core - a library for efficient and scalable training of transformer based models

These details have been verified by PyPI

Maintainers

chtruong eharper jaredcasper ko3n1g svcnvidia-nemo-ci

These details have not been verified by PyPI

Project links

Project description

Megatron-LM & Megatron Core

GPU-optimized library for training transformer models at scale

⚡ Quick Start

# 1. Install Megatron Core with required dependencies
pip install --no-build-isolation megatron-core[mlm,dev]

# 2. Clone repository for examples
git clone https://github.com/NVIDIA/Megatron-LM.git
cd Megatron-LM
pip install --no-build-isolation .[mlm,dev]

→ Complete Installation Guide - Docker, pip variants (dev,lts,etc.), source installation, and system requirements

Latest News

📣 NEW! Megatron Dev Branch - early access branch with experimental features.
🔄 Megatron Bridge - Bidirectional converter for interoperability between Hugging Face and Megatron checkpoints, featuring production-ready recipes for popular models.
[2025/08] MoE Q3-Q4 2025 Roadmap - Comprehensive roadmap for MoE features including DeepSeek-V3, Qwen3, advanced parallelism strategies, FP8 optimizations, and Blackwell performance enhancements.
[2025/08] GPT-OSS Model - Advanced features including YaRN RoPE scaling, attention sinks, and custom activation functions are being integrated into Megatron Core.
[2025/06] Megatron MoE Model Zoo - Best practices and optimized configurations for training DeepSeek-V3, Mixtral, and Qwen3 MoE models with performance benchmarking and checkpoint conversion tools.
[2025/05] Megatron Core v0.11.0 brings new capabilities for multi-data center LLM training (blog).

Previous News

[2024/07] Megatron Core v0.7 improves scalability and training resiliency and adds support for multimodal training (blog).
[2024/06] Megatron Core added supports for Mamba-based models. Check out our paper An Empirical Study of Mamba-based Language Models and code example.
[2024/01 Announcement] NVIDIA has released the core capabilities in Megatron-LM into Megatron Core in this repository. Megatron Core expands upon Megatron-LM's GPU-optimized techniques with more cutting-edge innovations on system-level optimizations, featuring composable and modular APIs. Explore the [Megatron Core intro](#Megatron Core) for more details.

Table of Contents

Getting Started

Quick Start
Latest News
Megatron Overview
Installation

Core Features

Performance Benchmarking
- Weak Scaling Results
- Strong Scaling Results
Ecosystem Libraries

Training

Training
- Getting Started
- Data Preparation
Parallelism Strategies
Performance Optimizations

Resources

Examples - Training scripts and tutorials
Documentation - Official docs
Roadmaps - Development roadmaps and feature tracking
Community & Support - Get help and contribute

Megatron Overview

Project Structure

Megatron-LM/
├── megatron/                    
│   ├── core/                    # Megatron Core (kernels, parallelism, building blocks)
│   │   ├── models/              # Transformer models
│   │   ├── transformer/         # Transformer building blocks
│   │   ├── tensor_parallel/     # Tensor parallelism
│   │   ├── pipeline_parallel/   # Pipeline parallelism
│   │   ├── distributed/         # Distributed training (FSDP, DDP)
│   │   ├── optimizer/           # Optimizers
│   │   ├── datasets/            # Dataset loaders
│   │   ├── inference/           # Inference engines
│   │   └── export/              # Model export (e.g. TensorRT-LLM)
│   ├── training/                # Training scripts
│   ├── inference/               # Inference server
│   ├── legacy/                  # Legacy components
│   └── post_training/           # Post-training (RLHF, etc.)
├── examples/                    # Ready-to-use training examples
├── tools/                       # Utility tools
├── tests/                       # Comprehensive test suite
└── docs/                        # Documentation

Megatron-LM: Reference Implementation

Reference implementation that includes Megatron Core plus everything needed to train models.

Best for:

Training state-of-the-art foundation models at scale with cutting-edge performance on latest NVIDIA hardware
Research teams exploring new architectures and training techniques
Learning distributed training concepts and best practices
Quick experimentation with proven model configurations

What you get:

Pre-configured training scripts for GPT, LLama, DeepSeek, Qwen, and more.
End-to-end examples from data prep to evaluation
Research-focused tools and utilities

Megatron Core: Composable Library

Composable library with GPU-optimized building blocks for custom training frameworks.

Best for:

Framework developers building on top of modular and optimized components
Research teams needing custom training loops, optimizers, or data pipelines
ML engineers requiring fault-tolerant training pipelines

What you get:

Composable transformer building blocks (attention, MLP, etc.)
Advanced parallelism strategies (TP, PP, DP, EP, CP)
Pipeline schedules and distributed optimizers
Mixed precision support (FP16, BF16, FP8)
GPU-optimized kernels and memory management
High-performance dataloaders and dataset utilities
Model architectures (LLaMA, Qwen, GPT, Mixtral, Mamba, etc.)

Ecosystem Libraries

Libraries used by Megatron Core:

Megatron Energon 📣 NEW! - Multi-modal data loader (text, images, video, audio) with distributed loading and dataset blending
Transformer Engine - Optimized kernels and FP8 mixed precision support
Resiliency Extension (NVRx) - Fault tolerant training with failure detection and recovery

Libraries using Megatron Core:

Megatron Bridge - Training library with bidirectional Hugging Face ↔ Megatron checkpoint conversion, flexible training loops, and production-ready recipes
NeMo RL - Scalable toolkit for efficient reinforcement learning with RLHF, DPO, and other post-training methods
NeMo Framework - Enterprise framework with cloud-native support and end-to-end examples
TensorRT Model Optimizer (ModelOpt) - Model optimization toolkit for quantization, pruning, and distillation

Compatible with: Hugging Face Accelerate, Colossal-AI, DeepSpeed

Installation

🐳 Docker (Recommended)

We strongly recommend using the previous releases of PyTorch NGC Container rather than the latest one for optimal compatibility with Megatron Core release and testing. Our releases are always based on the previous month's NGC container, so this ensures compatibility and stability.

Note: The NGC PyTorch container constraints the python environment globally via PIP_CONSTRAINT. In the following examples we will unset the variable.

This container comes with all dependencies pre-installed with compatible versions and optimized configurations for NVIDIA GPUs:

PyTorch (latest stable version)
CUDA, cuDNN, NCCL (latest stable versions)
Support for FP8 on NVIDIA Hopper, Ada, and Blackwell GPUs
For best performance, use NVIDIA Turing GPU architecture generations and later

# Run container with mounted directories
docker run --runtime --nvidia --gpus all -it --rm \
  -v /path/to/megatron:/workspace/megatron \
  -v /path/to/dataset:/workspace/dataset \
  -v /path/to/checkpoints:/workspace/checkpoints \
  -e PIP_CONSTRAINT= \
  nvcr.io/nvidia/pytorch:25.04-py3

Pip Installation

Megatron Core offers support for two NGC PyTorch containers:

dev: Moving head that supports the most recent upstream dependencies
lts: Long-term support of NGC PyTorch 24.01

Both containers can be combined with mlm which adds package dependencies for Megatron-LM on top of Megatron Core.

# Install the latest release dependencies
pip install "setuptools<80.0.0,>=77.0.0" "packaging>=24.2"
pip install --no-build-isolation megatron-core[dev]
# For running an M-LM application:
pip install "setuptools<80.0.0,>=77.0.0" "packaging>=24.2"
pip install --no-build-isolation megatron-core[mlm,dev]

# Install packages for LTS support NGC PyTorch 24.01
pip install "setuptools<80.0.0,>=77.0.0" "packaging>=24.2"
pip install --no-build-isolation megatron-core[lts]
# For running an M-LM application:
pip install "setuptools<80.0.0,>=77.0.0" "packaging>=24.2"
pip install --no-build-isolation megatron-core[mlm,lts]

For a version of Megatron Core with only torch, run:

pip install megatron-core

System Requirements

Hardware Requirements

FP8 Support: NVIDIA Hopper, Ada, Blackwell GPUs
Recommended: NVIDIA Turing architecture or later

Software Requirements

CUDA/cuDNN/NCCL: Latest stable versions
PyTorch: Latest stable version
Transformer Engine: Latest stable version
Python: 3.12 recommended

Performance Benchmarking

For our latest performance benchmarking results, please refer to NVIDIA NeMo Framework Performance Summary.

Our codebase efficiently trains models from 2B to 462B parameters across thousands of GPUs, achieving up to 47% Model FLOP Utilization (MFU) on H100 clusters.

Model table

Benchmark Configuration:

Vocabulary size: 131,072 tokens
Sequence length: 4096 tokens
Model scaling: Varied hidden size, attention heads, and layers to achieve target parameter counts
Communication optimizations: Fine-grained overlapping with DP (--overlap-grad-reduce, --overlap-param-gather), TP (--tp-comm-overlap), and PP (enabled by default)

Key Results:

6144 H100 GPUs: Successfully benchmarked 462B parameter model training
Superlinear scaling: MFU increases from 41% to 47-48% with model size
End-to-end measurement: Throughputs include all operations (data loading, optimizer steps, communication, logging)
Production ready: Full training pipeline with checkpointing and fault tolerance
Note: Performance results measured without training to convergence

Weak Scaling Results

Our weak scaled results show superlinear scaling (MFU increases from 41% for the smallest model considered to 47-48% for the largest models); this is because larger GEMMs have higher arithmetic intensity and are consequently more efficient to execute.

Weak scaling

Strong Scaling Results

We also strong scaled the standard GPT-3 model (our version has slightly more than 175 billion parameters due to larger vocabulary size) from 96 H100 GPUs to 4608 GPUs, using the same batch size of 1152 sequences throughout. Communication becomes more exposed at larger scale, leading to a reduction in MFU from 47% to 42%.

Strong scaling

Training

Getting Started

Simple Training Example

# Distributed training example (2 GPUs, mock data)
torchrun --nproc_per_node=2 examples/run_simple_mcore_train_loop.py

LLama-3 Training Example

# 8 GPUs, FP8 precision, mock data
./examples/llama/train_llama3_8b_fp8.sh

Data Preparation

JSONL Data Format

{"text": "Your training text here..."}
{"text": "Another training sample..."}

Basic Preprocessing

python tools/preprocess_data.py \
    --input data.jsonl \
    --output-prefix processed_data \
    --tokenizer-type HuggingFaceTokenizer \
    --tokenizer-model /path/to/tokenizer.model \
    --workers 8 \
    --append-eod

Key Arguments

--input: Path to input JSON/JSONL file
--output-prefix: Prefix for output binary files (.bin and .idx)
--tokenizer-type: Tokenizer type (HuggingFaceTokenizer, GPT2BPETokenizer, etc.)
--tokenizer-model: Path to tokenizer model file
--workers: Number of parallel workers for processing
--append-eod: Add end-of-document token

Parallelism Strategies

Data Parallelism (DP)

Standard Data Parallel

# Standard DDP - replicate model on each GPU
torchrun --nproc_per_node=8 pretrain_gpt.py \
    --data-parallel-sharding-strategy no_shard

Fully Sharded Data Parallel (FSDP)

# Megatron's optimized FSDP (~15% faster than PyTorch FSDP2)
--use-custom-fsdp

# PyTorch FSDP2
--use-torch-fsdp2

# Sharding strategies
--data-parallel-sharding-strategy optim              # Shard optimizer states (ZeRO-1)
--data-parallel-sharding-strategy optim_grads        # Shard gradients + optimizer (ZeRO-2)
--data-parallel-sharding-strategy optim_grads_params # Shard parameters + gradients + optimizer (ZeRO-3)

Tensor Parallelism (TP)

Split individual model layers across GPUs:

--tensor-model-parallel-size 4  # 4-way tensor parallelism
--sequence-parallel             # Enable sequence parallelism (recommended with TP)

Pipeline Parallelism (PP)

Split model depth across GPUs:

--pipeline-model-parallel-size 8     # 8 pipeline stages
--virtual-pipeline-model-parallel-size 4  # Virtual pipeline for better load balancing

Context Parallelism (CP)

Split long sequences across GPUs for handling long contexts:

--context-parallel-size 2                    # 2-way context parallelism
--cp-comm-type p2p                          # Communication: p2p, a2a, allgather, a2a+p2p
--hierarchical-context-parallel-sizes 2 4   # Hierarchical context parallelism

Expert Parallelism (EP)

For Mixture of Experts (MoE) models:

--expert-model-parallel-size 4  # 4-way expert parallelism
--num-experts 8                 # 8 experts per MoE layer
--moe-grouped-gemm              # Optimize expert computation

Combining Parallelism Strategies

Parallelism Selection Guide

Based on NVIDIA NeMo production configurations:

Model	Size	GPUs	TP	PP	CP	EP	Notes
LLama-3	8B	8	1	1	2	1	CP for long seqlen (8K)
LLama-3	70B	64	4	4	2	1	TP+PP
LLama-3.1	405B	1024	8	8	2	1	3D parallelism for scale
GPT-3	175B	128-512	4	8	1	1	Large model config
Mixtral	8x7B	64	1	4	1	8	EP for MoE
Mixtral	8x22B	256	4	4	8	8	Combined TP+EP for large MoE
DeepSeek-V3	671B	1024	2	16	1	64	Large MoE config

MoE-Specific Requirements

Important: When combining Expert Parallelism (EP) with Tensor Parallelism (TP), Sequence Parallelism (SP) must be enabled.

Performance Optimizations

Feature	Flag	Benefit
FlashAttention	`--attention-backend`	Faster attention and lower memory usage
FP8 Training	`--fp8-hybrid`	Faster training
Activation Checkpointing	`--recompute-activations`	Reduced memory usage
Data Parallelism Communication Overlap	`--overlap-grad-reduce`	Faster distributed training
Distributed Optimizer	`--use-distributed-optimizer`	Reduced checkpointing time

→ NVIDIA NeMo Framework Performance Tuning Guide - Comprehensive performance optimization guide covering advanced tuning techniques, communication overlaps, memory optimizations, and profiling options.

FlashAttention

FlashAttention is a fast and memory-efficient attention algorithm. We recommend the default usage, which uses cuDNN for attention via Transformer Engine and provides up to 50% speedups on forward and 84% on backward propagation with FP8 kernels. The flash-attn package is also supported via --use-flash-attn.

Mixed Precision Training

--fp16                    # Standard FP16
--bf16                    # BFloat16 (recommended for large models)
--fp8-hybrid              # FP8 training (Hopper, Ada, and Blackwell GPUs)

Activation Checkpointing and Recomputation

# For limited memory
--recompute-activations

# For extreme memory constraints
--recompute-granularity full \
--recompute-method uniform

Data Parallelism Communication Overlap

--overlap-grad-reduce
--overlap-param-gather

Distributed Optimizer

--use-distributed-optimizer

Roadmaps

Stay up-to-date with our development roadmaps and planned features:

MoE Q3-Q4 2025 Roadmap - Comprehensive MoE feature development including DeepSeek-V3, Qwen3, advanced parallelism, FP8 optimizations, and Blackwell enhancements
GPT-OSS Implementation Tracker - Advanced features including YaRN RoPE scaling, attention sinks, and custom activation functions

More roadmap trackers will be added soon.

Community & Support

Getting Help

📖 Documentation - Official documentation
🐛 Issues - Bug reports and feature requests

Contributing

We ❤️ contributions! Ways to contribute:

🐛 Report bugs - Help us improve reliability
💡 Suggest features - Shape the future of Megatron Core
📝 Improve docs - Make Megatron Core more accessible
🔧 Submit PRs - Contribute code improvements

→ Contributing Guide

Citation

@article{megatron-lm,
  title={Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism},
  author={Shoeybi, Mohammad and Patwary, Mostofa and Puri, Raul and LeGresley, Patrick and Casper, Jared and Catanzaro, Bryan},
  journal={arXiv preprint arXiv:1909.08053},
  year={2019}
}

Project details

These details have been verified by PyPI

Maintainers

chtruong eharper jaredcasper ko3n1g svcnvidia-nemo-ci

These details have not been verified by PyPI

Project links

Release history Release notifications | RSS feed

0.18.1 yanked

Jun 22, 2026

Reason this release was yanked:

wrong version

0.18.0

Jun 23, 2026

0.17.1

May 28, 2026

0.17.0

Apr 16, 2026

0.17.0rc0 pre-release

Apr 16, 2026

0.16.1

Mar 20, 2026

0.16.0

Feb 26, 2026

0.16.0rc0.dev132713 pre-release

Oct 31, 2025

0.16.0rc0.dev132610 pre-release

Nov 21, 2025

0.16.0rc0.dev132550 pre-release

Nov 18, 2025

0.16.0rc0.dev132160 pre-release

Nov 25, 2025

0.16.0rc0.dev132128 pre-release

Nov 27, 2025

0.16.0rc0.dev132022 pre-release

Nov 22, 2025

0.16.0rc0.dev131974 pre-release

Dec 2, 2025

0.16.0rc0.dev131914 pre-release

Dec 2, 2025

0.16.0rc0.dev131830 pre-release

Nov 19, 2025

0.16.0rc0.dev131687 pre-release

Nov 21, 2025

0.16.0rc0.dev131610 pre-release

Nov 2, 2025

0.16.0rc0.dev131593 pre-release

Dec 1, 2025

0.16.0rc0.dev131564 pre-release

Nov 5, 2025

0.16.0rc0.dev131530 pre-release

Oct 30, 2025

0.16.0rc0.dev131528 pre-release

Nov 21, 2025

0.16.0rc0.dev131495 pre-release

Dec 3, 2025

0.16.0rc0.dev131399 pre-release

Dec 2, 2025

0.16.0rc0.dev131315 pre-release

Nov 28, 2025

0.16.0rc0.dev131152 pre-release

Nov 3, 2025

0.16.0rc0.dev130815 pre-release

Nov 21, 2025

0.16.0rc0.dev130783 pre-release

Nov 25, 2025

0.16.0rc0.dev130741 pre-release

Nov 7, 2025

0.16.0rc0.dev130734 pre-release

Oct 30, 2025

0.16.0rc0.dev130658 pre-release

Nov 13, 2025

0.16.0rc0.dev130576 pre-release

Nov 22, 2025

0.16.0rc0.dev130525 pre-release

Dec 4, 2025

0.16.0rc0.dev130425 pre-release

Dec 2, 2025

0.16.0rc0.dev130174 pre-release

Nov 22, 2025

0.16.0rc0.dev129959 pre-release

Nov 24, 2025

0.16.0rc0.dev129924 pre-release

Nov 5, 2025

0.16.0rc0.dev129891 pre-release

Dec 4, 2025

0.16.0rc0.dev129506 pre-release

Nov 25, 2025

0.16.0rc0.dev129397 pre-release

Oct 30, 2025

0.16.0rc0.dev129362 pre-release

Nov 3, 2025

0.16.0rc0.dev129321 pre-release

Nov 18, 2025

0.16.0rc0.dev129268 pre-release

Nov 18, 2025

0.16.0rc0.dev129219 pre-release

Nov 1, 2025

0.16.0rc0.dev129047 pre-release

Nov 22, 2025

0.16.0rc0.dev129035 pre-release

Dec 4, 2025

0.16.0rc0.dev128858 pre-release

Nov 7, 2025

0.16.0rc0.dev128815 pre-release

Nov 24, 2025

0.16.0rc0.dev128761 pre-release

Nov 26, 2025

0.16.0rc0.dev128634 pre-release

Nov 20, 2025

This version

0.16.0rc0.dev128382 pre-release

Nov 18, 2025

0.16.0rc0.dev128353 pre-release

Nov 22, 2025

0.16.0rc0.dev128097 pre-release

Dec 2, 2025

0.16.0rc0.dev128062 pre-release

Dec 4, 2025

0.16.0rc0.dev128035 pre-release

Nov 24, 2025

0.16.0rc0.dev127924 pre-release

Dec 4, 2025

0.16.0rc0.dev127802 pre-release

Nov 10, 2025

0.16.0rc0.dev127622 pre-release

Nov 22, 2025

0.16.0rc0.dev127613 pre-release

Nov 21, 2025

0.16.0rc0.dev127609 pre-release

Nov 12, 2025

0.16.0rc0.dev127461 pre-release

Nov 14, 2025

0.16.0rc0.dev127378 pre-release

Nov 5, 2025

0.16.0rc0.dev127308 pre-release

Nov 4, 2025

0.16.0rc0.dev127290 pre-release

Nov 21, 2025

0.16.0rc0.dev127085 pre-release

Nov 10, 2025

0.16.0rc0.dev127072 pre-release

Nov 19, 2025

0.16.0rc0.dev126934 pre-release

Nov 11, 2025

0.16.0rc0.dev126858 pre-release

Dec 3, 2025

0.16.0rc0.dev126815 pre-release

Nov 18, 2025

0.16.0rc0.dev126765 pre-release

Nov 2, 2025

0.16.0rc0.dev126756 pre-release

Dec 4, 2025

0.16.0rc0.dev126744 pre-release

Nov 7, 2025

0.16.0rc0.dev126605 pre-release

Nov 13, 2025

0.16.0rc0.dev126589 pre-release

Oct 31, 2025

0.16.0rc0.dev126546 pre-release

Nov 4, 2025

0.16.0rc0.dev126447 pre-release

Nov 18, 2025

0.16.0rc0.dev126074 pre-release

Nov 5, 2025

0.16.0rc0.dev125968 pre-release

Oct 31, 2025

0.16.0rc0.dev125929 pre-release

Nov 22, 2025

0.16.0rc0.dev125846 pre-release

Nov 22, 2025

0.16.0rc0.dev125825 pre-release

Nov 19, 2025

0.16.0rc0.dev125622 pre-release

Oct 30, 2025

0.16.0rc0.dev125245 pre-release

Nov 21, 2025

0.16.0rc0.dev125036 pre-release

Nov 12, 2025

0.16.0rc0.dev125011 pre-release

Nov 20, 2025

0.16.0rc0.dev124842 pre-release

Oct 31, 2025

0.16.0rc0.dev124729 pre-release

Nov 5, 2025

0.16.0rc0.dev124706 pre-release

Nov 28, 2025

0.16.0rc0.dev124680 pre-release

Dec 4, 2025

0.16.0rc0.dev124668 pre-release

Nov 11, 2025

0.16.0rc0.dev124644 pre-release

Nov 22, 2025

0.16.0rc0.dev124517 pre-release

Nov 10, 2025

0.16.0rc0.dev124426 pre-release

Oct 30, 2025

0.16.0rc0.dev124287 pre-release

Nov 14, 2025

0.16.0rc0.dev124172 pre-release

Nov 13, 2025

0.16.0rc0.dev124085 pre-release

Nov 13, 2025

0.16.0rc0.dev123928 pre-release

Nov 21, 2025

0.16.0rc0.dev123924 pre-release

Nov 15, 2025

0.16.0rc0.dev123790 pre-release

Nov 7, 2025

0.16.0rc0.dev123469 pre-release

Oct 31, 2025

0.16.0rc0.dev123316 pre-release

Nov 25, 2025

0.16.0rc0.dev123313 pre-release

Nov 10, 2025

0.16.0rc0.dev123265 pre-release

Nov 14, 2025

0.16.0rc0.dev123101 pre-release

Dec 4, 2025

0.16.0rc0.dev122975 pre-release

Nov 25, 2025

0.16.0rc0.dev122867 pre-release

Nov 19, 2025

0.16.0rc0.dev122836 pre-release

Nov 13, 2025

0.16.0rc0.dev122769 pre-release

Nov 27, 2025

0.16.0rc0.dev122740 pre-release

Nov 12, 2025

0.16.0rc0.dev122705 pre-release

Nov 13, 2025

0.16.0rc0.dev122702 pre-release

Nov 20, 2025

0.16.0rc0.dev122543 pre-release

Nov 20, 2025

0.16.0rc0.dev122519 pre-release

Nov 2, 2025

0.16.0rc0.dev122468 pre-release

Nov 3, 2025

0.16.0rc0.dev122439 pre-release

Nov 19, 2025

0.16.0rc0.dev122435 pre-release

Dec 4, 2025

0.16.0rc0.dev122336 pre-release

Nov 19, 2025

0.16.0rc0.dev122223 pre-release

Oct 31, 2025

0.16.0rc0.dev122210 pre-release

Oct 31, 2025

0.16.0rc0.dev122028 pre-release

Nov 3, 2025

0.16.0rc0.dev121727 pre-release

Oct 31, 2025

0.16.0rc0.dev121635 pre-release

Oct 31, 2025

0.16.0rc0.dev121586 pre-release

Dec 4, 2025

0.16.0rc0.dev121509 pre-release

Nov 25, 2025

0.16.0rc0.dev121379 pre-release

Nov 18, 2025

0.16.0rc0.dev121366 pre-release

Nov 21, 2025

0.16.0rc0.dev121363 pre-release

Nov 25, 2025

0.16.0rc0.dev121074 pre-release

Nov 18, 2025

0.16.0rc0.dev120945 pre-release

Nov 22, 2025

0.16.0rc0.dev120919 pre-release

Dec 1, 2025

0.16.0rc0.dev120831 pre-release

Nov 22, 2025

0.16.0rc0.dev120793 pre-release

Nov 28, 2025

0.16.0rc0.dev120516 pre-release

Nov 7, 2025

0.16.0rc0.dev120455 pre-release

Nov 14, 2025

0.16.0rc0.dev120315 pre-release

Dec 3, 2025

0.16.0rc0.dev120198 pre-release

Nov 20, 2025

0.16.0rc0.dev119694 pre-release

Nov 27, 2025

0.16.0rc0.dev119639 pre-release

Oct 31, 2025

0.16.0rc0.dev119515 pre-release

Nov 20, 2025

0.16.0rc0.dev119171 pre-release

Nov 6, 2025

0.16.0rc0.dev119165 pre-release

Nov 27, 2025

0.16.0rc0.dev119152 pre-release

Nov 2, 2025

0.16.0rc0.dev119090 pre-release

Nov 10, 2025

0.16.0rc0.dev118925 pre-release

Nov 20, 2025

0.16.0rc0.dev118890 pre-release

Nov 25, 2025

0.16.0rc0.dev118865 pre-release

Nov 17, 2025

0.16.0rc0.dev118806 pre-release

Nov 3, 2025

0.16.0rc0.dev118571 pre-release

Dec 4, 2025

0.16.0rc0.dev118560 pre-release

Nov 3, 2025

0.16.0rc0.dev118543 pre-release

Nov 5, 2025

0.16.0rc0.dev118422 pre-release

Nov 20, 2025

0.16.0rc0.dev118360 pre-release

Nov 1, 2025

0.16.0rc0.dev118251 pre-release

Nov 19, 2025

0.16.0rc0.dev117916 pre-release

Nov 2, 2025

0.16.0rc0.dev117913 pre-release

Nov 3, 2025

0.16.0rc0.dev117847 pre-release

Dec 4, 2025

0.16.0rc0.dev117672 pre-release

Dec 1, 2025

0.16.0rc0.dev117640 pre-release

Dec 1, 2025

0.16.0rc0.dev117350 pre-release

Nov 25, 2025

0.16.0rc0.dev117299 pre-release

Dec 1, 2025

0.16.0rc0.dev117106 pre-release

Nov 26, 2025

0.16.0rc0.dev116730 pre-release

Nov 19, 2025

0.16.0rc0.dev116698 pre-release

Dec 4, 2025

0.16.0rc0.dev116661 pre-release

Dec 3, 2025

0.16.0rc0.dev116551 pre-release

Nov 10, 2025

0.16.0rc0.dev116548 pre-release

Dec 4, 2025

0.16.0rc0.dev116543 pre-release

Nov 28, 2025

0.16.0rc0.dev116487 pre-release

Nov 27, 2025

0.16.0rc0.dev116413 pre-release

Nov 6, 2025

0.16.0rc0.dev116180 pre-release

Nov 13, 2025

0.16.0rc0.dev116118 pre-release

Nov 12, 2025

0.16.0rc0.dev116068 pre-release

Nov 21, 2025

0.16.0rc0.dev116057 pre-release

Nov 12, 2025

0.16.0rc0.dev115944 pre-release

Nov 5, 2025

0.16.0rc0.dev115941 pre-release

Nov 25, 2025

0.16.0rc0.dev115911 pre-release

Nov 18, 2025

0.16.0rc0.dev115842 pre-release

Nov 3, 2025

0.16.0rc0.dev115691 pre-release

Nov 7, 2025

0.16.0rc0.dev115554 pre-release

Nov 27, 2025

0.16.0rc0.dev115491 pre-release

Nov 7, 2025

0.16.0rc0.dev115165 pre-release

Nov 25, 2025

0.16.0rc0.dev115159 pre-release

Nov 3, 2025

0.16.0rc0.dev114762 pre-release

Nov 28, 2025

0.16.0rc0.dev114649 pre-release

Nov 6, 2025

0.16.0rc0.dev114594 pre-release

Dec 3, 2025

0.16.0rc0.dev114463 pre-release

Nov 24, 2025

0.16.0rc0.dev114246 pre-release

Dec 3, 2025

0.16.0rc0.dev114241 pre-release

Nov 18, 2025

0.16.0rc0.dev114184 pre-release

Nov 13, 2025

0.16.0rc0.dev113770 pre-release

Nov 11, 2025

0.16.0rc0.dev113717 pre-release

Nov 4, 2025

0.16.0rc0.dev113641 pre-release

Nov 20, 2025

0.16.0rc0.dev113632 pre-release

Nov 27, 2025

0.16.0rc0.dev113495 pre-release

Nov 19, 2025

0.16.0rc0.dev113468 pre-release

Nov 13, 2025

0.16.0rc0.dev113395 pre-release

Nov 14, 2025

0.16.0rc0.dev113297 pre-release

Nov 18, 2025

0.16.0rc0.dev113177 pre-release

Dec 3, 2025

0.16.0rc0.dev113036 pre-release

Nov 27, 2025

0.16.0rc0.dev112904 pre-release

Nov 2, 2025

0.16.0rc0.dev112901 pre-release

Nov 13, 2025

0.16.0rc0.dev112784 pre-release

Nov 5, 2025

0.16.0rc0.dev112563 pre-release

Dec 3, 2025

0.16.0rc0.dev112551 pre-release

Oct 30, 2025

0.16.0rc0.dev112480 pre-release

Dec 4, 2025

0.16.0rc0.dev112436 pre-release

Nov 3, 2025

0.16.0rc0.dev112341 pre-release

Nov 25, 2025

0.16.0rc0.dev112325 pre-release

Nov 26, 2025

0.16.0rc0.dev112162 pre-release

Dec 4, 2025

0.16.0rc0.dev111890 pre-release

Nov 2, 2025

0.16.0rc0.dev111743 pre-release

Nov 20, 2025

0.16.0rc0.dev111716 pre-release

Nov 24, 2025

0.16.0rc0.dev111655 pre-release

Nov 3, 2025

0.16.0rc0.dev111286 pre-release

Nov 3, 2025

0.16.0rc0.dev111262 pre-release

Dec 4, 2025

0.16.0rc0.dev111260 pre-release

Nov 2, 2025

0.16.0rc0.dev110785 pre-release

Nov 11, 2025

0.16.0rc0.dev110638 pre-release

Dec 4, 2025

0.16.0rc0.dev110617 pre-release

Nov 24, 2025

0.16.0rc0.dev110541 pre-release

Nov 11, 2025

0.16.0rc0.dev110483 pre-release

Nov 13, 2025

0.16.0rc0.dev110482 pre-release

Oct 31, 2025

0.16.0rc0.dev110480 pre-release

Dec 4, 2025

0.16.0rc0.dev110406 pre-release

Nov 2, 2025

0.16.0rc0.dev110212 pre-release

Dec 2, 2025

0.16.0rc0.dev110191 pre-release

Dec 4, 2025

0.16.0rc0.dev110063 pre-release

Nov 12, 2025

0.16.0rc0.dev109905 pre-release

Oct 31, 2025

0.16.0rc0.dev109805 pre-release

Nov 24, 2025

0.16.0rc0.dev109735 pre-release

Nov 24, 2025

0.16.0rc0.dev109609 pre-release

Nov 26, 2025

0.16.0rc0.dev109529 pre-release

Oct 30, 2025

0.16.0rc0.dev109449 pre-release

Nov 26, 2025

0.16.0rc0.dev109400 pre-release

Nov 6, 2025

0.16.0rc0.dev109302 pre-release

Nov 10, 2025

0.16.0rc0.dev109110 pre-release

Dec 3, 2025

0.16.0rc0.dev109087 pre-release

Nov 12, 2025

0.16.0rc0.dev108849 pre-release

Nov 26, 2025

0.16.0rc0.dev108827 pre-release

Nov 10, 2025

0.16.0rc0.dev108748 pre-release

Oct 30, 2025

0.16.0rc0.dev108582 pre-release

Nov 28, 2025

0.16.0rc0.dev108490 pre-release

Dec 3, 2025

0.16.0rc0.dev108460 pre-release

Nov 21, 2025

0.16.0rc0.dev108459 pre-release

Dec 4, 2025

0.16.0rc0.dev108400 pre-release

Nov 12, 2025

0.16.0rc0.dev108374 pre-release

Nov 19, 2025

0.16.0rc0.dev108357 pre-release

Nov 28, 2025

0.16.0rc0.dev108138 pre-release

Nov 7, 2025

0.16.0rc0.dev108025 pre-release

Nov 3, 2025

0.16.0rc0.dev107959 pre-release

Nov 28, 2025

0.16.0rc0.dev107913 pre-release

Nov 27, 2025

0.16.0rc0.dev107774 pre-release

Nov 12, 2025

0.16.0rc0.dev107737 pre-release

Nov 17, 2025

0.16.0rc0.dev107688 pre-release

Nov 3, 2025

0.16.0rc0.dev107649 pre-release

Nov 22, 2025

0.16.0rc0.dev107642 pre-release

Nov 19, 2025

0.16.0rc0.dev107620 pre-release

Nov 22, 2025

0.16.0rc0.dev107165 pre-release

Nov 13, 2025

0.16.0rc0.dev107081 pre-release

Nov 19, 2025

0.16.0rc0.dev107057 pre-release

Nov 25, 2025

0.16.0rc0.dev106909 pre-release

Nov 11, 2025

0.16.0rc0.dev106857 pre-release

Nov 25, 2025

0.16.0rc0.dev106853 pre-release

Nov 21, 2025

0.16.0rc0.dev106841 pre-release

Nov 18, 2025

0.16.0rc0.dev106726 pre-release

Nov 19, 2025

0.16.0rc0.dev106593 pre-release

Nov 12, 2025

0.16.0rc0.dev106340 pre-release

Nov 21, 2025

0.16.0rc0.dev106145 pre-release

Nov 13, 2025

0.16.0rc0.dev105985 pre-release

Nov 20, 2025

0.16.0rc0.dev105942 pre-release

Dec 4, 2025

0.16.0rc0.dev105856 pre-release

Nov 3, 2025

0.16.0rc0.dev105808 pre-release

Nov 12, 2025

0.16.0rc0.dev105742 pre-release

Nov 5, 2025

0.16.0rc0.dev105669 pre-release

Nov 26, 2025

0.16.0rc0.dev105469 pre-release

Nov 28, 2025

0.16.0rc0.dev105381 pre-release

Nov 12, 2025

0.16.0rc0.dev105331 pre-release

Nov 19, 2025

0.16.0rc0.dev105325 pre-release

Nov 5, 2025

0.16.0rc0.dev105279 pre-release

Nov 28, 2025

0.16.0rc0.dev105243 pre-release

Nov 7, 2025

0.16.0rc0.dev105242 pre-release

Nov 12, 2025

0.16.0rc0.dev105233 pre-release

Nov 3, 2025

0.16.0rc0.dev104972 pre-release

Dec 4, 2025

0.16.0rc0.dev104938 pre-release

Nov 19, 2025

0.16.0rc0.dev104934 pre-release

Oct 31, 2025

0.16.0rc0.dev104785 pre-release

Nov 21, 2025

0.16.0rc0.dev104605 pre-release

Nov 12, 2025

0.16.0rc0.dev104592 pre-release

Nov 10, 2025

0.16.0rc0.dev104503 pre-release

Nov 28, 2025

0.16.0rc0.dev104469 pre-release

Dec 2, 2025

0.16.0rc0.dev104455 pre-release

Oct 30, 2025

0.16.0rc0.dev104318 pre-release

Dec 2, 2025

0.16.0rc0.dev104288 pre-release

Nov 11, 2025

0.16.0rc0.dev104247 pre-release

Nov 7, 2025

0.16.0rc0.dev104016 pre-release

Nov 13, 2025

0.16.0rc0.dev103987 pre-release

Nov 27, 2025

0.16.0rc0.dev103952 pre-release

Nov 6, 2025

0.16.0rc0.dev103896 pre-release

Nov 22, 2025

0.16.0rc0.dev103844 pre-release

Nov 19, 2025

0.16.0rc0.dev103814 pre-release

Nov 6, 2025

0.16.0rc0.dev103812 pre-release

Nov 11, 2025

0.16.0rc0.dev103750 pre-release

Nov 22, 2025

0.16.0rc0.dev103732 pre-release

Nov 24, 2025

0.16.0rc0.dev103723 pre-release

Nov 20, 2025

0.16.0rc0.dev103708 pre-release

Nov 5, 2025

0.16.0rc0.dev103577 pre-release

Nov 15, 2025

0.16.0rc0.dev103538 pre-release

Nov 18, 2025

0.16.0rc0.dev103474 pre-release

Dec 4, 2025

0.16.0rc0.dev103297 pre-release

Nov 20, 2025

0.16.0rc0.dev103082 pre-release

Nov 22, 2025

0.16.0rc0.dev103059 pre-release

Nov 19, 2025

0.16.0rc0.dev103022 pre-release

Nov 19, 2025

0.16.0rc0.dev103016 pre-release

Nov 3, 2025

0.16.0rc0.dev102875 pre-release

Nov 17, 2025

0.16.0rc0.dev102870 pre-release

Nov 28, 2025

0.16.0rc0.dev102658 pre-release

Nov 4, 2025

0.16.0rc0.dev102506 pre-release

Nov 10, 2025

0.16.0rc0.dev102440 pre-release

Dec 2, 2025

0.16.0rc0.dev102154 pre-release

Nov 20, 2025

0.16.0rc0.dev102029 pre-release

Nov 22, 2025

0.16.0rc0.dev101856 pre-release

Nov 18, 2025

0.16.0rc0.dev101638 pre-release

Nov 4, 2025

0.16.0rc0.dev101543 pre-release

Nov 2, 2025

0.16.0rc0.dev101524 pre-release

Nov 26, 2025

0.16.0rc0.dev101484 pre-release

Nov 22, 2025

0.16.0rc0.dev101470 pre-release

Nov 12, 2025

0.16.0rc0.dev101399 pre-release

Nov 25, 2025

0.16.0rc0.dev101328 pre-release

Nov 3, 2025

0.16.0rc0.dev101287 pre-release

Nov 17, 2025

0.16.0rc0.dev101273 pre-release

Nov 25, 2025

0.16.0rc0.dev101206 pre-release

Nov 25, 2025

0.16.0rc0.dev101151 pre-release

Nov 6, 2025

0.16.0rc0.dev101149 pre-release

Nov 12, 2025

0.16.0rc0.dev100893 pre-release

Nov 10, 2025

0.16.0rc0.dev100875 pre-release

Nov 24, 2025

0.16.0rc0.dev100803 pre-release

Nov 12, 2025

0.16.0rc0.dev100785 pre-release

Nov 5, 2025

0.16.0rc0.dev100481 pre-release

Oct 31, 2025

0.16.0rc0.dev100426 pre-release

Nov 14, 2025

0.16.0rc0.dev100386 pre-release

Nov 13, 2025

0.16.0rc0.dev100285 pre-release

Nov 4, 2025

0.16.0rc0.dev100266 pre-release

Nov 6, 2025

0.16.0rc0.dev100223 pre-release

Nov 12, 2025

0.16.0rc0.dev100214 pre-release

Nov 10, 2025

0.16.0rc0.dev100093 pre-release

Oct 30, 2025

0.16.0rc0.dev100085 pre-release

Dec 2, 2025

0.15.3

Feb 6, 2026

0.15.2

Jan 8, 2026

0.15.1

Jan 7, 2026

0.15.0

Dec 18, 2025

0.15.0rc7 pre-release

Oct 6, 2025

0.15.0rc6 pre-release

Sep 29, 2025

0.15.0rc5 pre-release

Sep 22, 2025

0.15.0rc4 pre-release

Sep 15, 2025

0.15.0rc3 pre-release

Sep 8, 2025

0.15.0rc2 pre-release

Sep 2, 2025

0.15.0rc1 pre-release

Sep 1, 2025

0.15.0rc0 pre-release

Aug 25, 2025

0.14.0

Oct 8, 2025

0.14.0rc7 pre-release

Sep 8, 2025

0.14.0rc6 pre-release

Aug 18, 2025

0.14.0rc5 pre-release

Aug 11, 2025

0.14.0rc4 pre-release

Aug 4, 2025

0.14.0rc3 pre-release

Jul 28, 2025

0.14.0rc2 pre-release

Jul 21, 2025

0.14.0rc1 pre-release

Jul 14, 2025

0.14.0rc0 pre-release

Jul 7, 2025

0.13.1

Aug 12, 2025

0.13.0

Jul 25, 2025

0.13.0rc4 pre-release

Jul 22, 2025

0.13.0rc3 pre-release

Jul 17, 2025

0.13.0rc2 pre-release

Jul 2, 2025

0.13.0rc1 pre-release

Jul 3, 2025

0.13.0rc0 pre-release

Jun 27, 2025

0.12.3

Aug 12, 2025

0.12.2

Jul 9, 2025

0.12.1

May 23, 2025

0.12.0

May 6, 2025

0.12.0rc3 pre-release

Apr 15, 2025

0.12.0rc2 pre-release

Apr 9, 2025

0.11.0

Mar 14, 2025

0.11.0rc0 pre-release

Feb 20, 2025

0.10.0

Feb 17, 2025

0.9.0

Oct 24, 2024

0.8.0

Aug 13, 2024

0.7.0

Jun 5, 2024

0.6.0

Apr 19, 2024

0.5.0

Feb 25, 2024

0.4.0

Dec 13, 2023

0.3.0

Oct 18, 2023

0.2.0

Jun 15, 2023

0.1.0

May 11, 2023

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

megatron_core-0.16.0rc0.dev128382.tar.gz (901.6 kB view details)

Uploaded Nov 18, 2025 Source

Built Distributions

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

megatron_core-0.16.0rc0.dev128382-cp313-cp313-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (2.3 MB view details)

Uploaded Nov 18, 2025 CPython 3.13manylinux: glibc 2.24+ x86-64manylinux: glibc 2.28+ x86-64

megatron_core-0.16.0rc0.dev128382-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (2.3 MB view details)

Uploaded Nov 18, 2025 CPython 3.12manylinux: glibc 2.24+ x86-64manylinux: glibc 2.28+ x86-64

megatron_core-0.16.0rc0.dev128382-cp311-cp311-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (2.3 MB view details)

Uploaded Nov 18, 2025 CPython 3.11manylinux: glibc 2.24+ x86-64manylinux: glibc 2.28+ x86-64

megatron_core-0.16.0rc0.dev128382-cp310-cp310-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (2.3 MB view details)

Uploaded Nov 18, 2025 CPython 3.10manylinux: glibc 2.24+ x86-64manylinux: glibc 2.28+ x86-64

File details

Details for the file megatron_core-0.16.0rc0.dev128382.tar.gz.

File metadata

Download URL: megatron_core-0.16.0rc0.dev128382.tar.gz
Upload date: Nov 18, 2025
Size: 901.6 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.12.3

File hashes

Hashes for megatron_core-0.16.0rc0.dev128382.tar.gz
Algorithm	Hash digest
SHA256	`954c8dfc572ff12bbe68aba83372b6f6c06037e532749da00f21978611758cad`
MD5	`fb58727a5104ab5b17661ebfb750b9df`
BLAKE2b-256	`4565ef35231ae7c1944c1f24c046badeb53703808b6eeb4b5c1e59e3bb165ebc`

See more details on using hashes here.

File details

Details for the file megatron_core-0.16.0rc0.dev128382-cp313-cp313-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.

File metadata

Download URL: megatron_core-0.16.0rc0.dev128382-cp313-cp313-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl
Upload date: Nov 18, 2025
Size: 2.3 MB
Tags: CPython 3.13, manylinux: glibc 2.24+ x86-64, manylinux: glibc 2.28+ x86-64
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.12.3

File hashes

Hashes for megatron_core-0.16.0rc0.dev128382-cp313-cp313-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl
Algorithm	Hash digest
SHA256	`d4112b1f9ce18157039e702c658f31477e089036372171dd57b3480a336c2e64`
MD5	`884912fc950d9583e0b632cbee82432e`
BLAKE2b-256	`e8f1d7002766ed19d854cafe061933ed7d16c0a9dcde8c8668c939710793d83d`

See more details on using hashes here.

File details

Details for the file megatron_core-0.16.0rc0.dev128382-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.

File metadata

Download URL: megatron_core-0.16.0rc0.dev128382-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl
Upload date: Nov 18, 2025
Size: 2.3 MB
Tags: CPython 3.12, manylinux: glibc 2.24+ x86-64, manylinux: glibc 2.28+ x86-64
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.12.3

File hashes

Hashes for megatron_core-0.16.0rc0.dev128382-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl
Algorithm	Hash digest
SHA256	`64d172362226a2fb573533709067ef9ba9d5611878234657c774b6302e8ece37`
MD5	`bdb2b9057eb84b9c23dda08104198c78`
BLAKE2b-256	`9c2fcc21329000c125ee79d0d35f97138a280a20cbc6dfd010a0cab509876fe3`

See more details on using hashes here.

File details

Details for the file megatron_core-0.16.0rc0.dev128382-cp311-cp311-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.

File metadata

Download URL: megatron_core-0.16.0rc0.dev128382-cp311-cp311-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl
Upload date: Nov 18, 2025
Size: 2.3 MB
Tags: CPython 3.11, manylinux: glibc 2.24+ x86-64, manylinux: glibc 2.28+ x86-64
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.12.3

File hashes

Hashes for megatron_core-0.16.0rc0.dev128382-cp311-cp311-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl
Algorithm	Hash digest
SHA256	`2a3b9615535c3cc59a0bd588a9eb300cc9a094dc278e255986a414dba61b962b`
MD5	`b74ca6a5b70f814bfb0acbb2d76535fc`
BLAKE2b-256	`b4e75af0da120ba0a78bb052e4b68fe5d5b7d738f36c50a987b6d4533953597d`

See more details on using hashes here.

File details

Details for the file megatron_core-0.16.0rc0.dev128382-cp310-cp310-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.

File metadata

Download URL: megatron_core-0.16.0rc0.dev128382-cp310-cp310-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl
Upload date: Nov 18, 2025
Size: 2.3 MB
Tags: CPython 3.10, manylinux: glibc 2.24+ x86-64, manylinux: glibc 2.28+ x86-64
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.12.3

File hashes

Hashes for megatron_core-0.16.0rc0.dev128382-cp310-cp310-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl
Algorithm	Hash digest
SHA256	`91ce3326b7b3e5bd6bc115bc0da4dd753e78b6c397ed05651b12c246a2389474`
MD5	`4d99a1baf1a48c075ae91df5d2408771`
BLAKE2b-256	`91b1fd01901a9227dedf47ca4ef0b529c4e337d481f0acc31869721de73a49f0`

See more details on using hashes here.

megatron-core 0.16.0rc0.dev128382

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

Megatron-LM & Megatron Core

GPU-optimized library for training transformer models at scale

⚡ Quick Start

Latest News

Megatron Overview

Project Structure

Megatron-LM: Reference Implementation

Megatron Core: Composable Library

Ecosystem Libraries

Installation

🐳 Docker (Recommended)

Pip Installation

System Requirements

Hardware Requirements

Software Requirements

Performance Benchmarking

Weak Scaling Results

Strong Scaling Results

Training

Getting Started

Simple Training Example

LLama-3 Training Example

Data Preparation

JSONL Data Format

Basic Preprocessing

Key Arguments

Parallelism Strategies

Data Parallelism (DP)

Standard Data Parallel

Fully Sharded Data Parallel (FSDP)

Tensor Parallelism (TP)

Pipeline Parallelism (PP)

Context Parallelism (CP)

Expert Parallelism (EP)

Combining Parallelism Strategies

Parallelism Selection Guide

MoE-Specific Requirements

Performance Optimizations

FlashAttention

Mixed Precision Training

Activation Checkpointing and Recomputation

Data Parallelism Communication Overlap

Distributed Optimizer

Roadmaps

Community & Support

Getting Help

Contributing

Citation

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distributions

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes