ML expert Platform Data Manager SDK - Hugging Face compatible dataset management library

These details have not been verified by PyPI

Project links

Project description

ML expert Platform Data Manager SDK

ML expert Platform Data Manager SDK는 Naver Cloud Platform의 ML expert Platform Data Manager와 호환되는 데이터셋 관리 라이브러리입니다. 이 SDK는 Hugging Face Datasets API와 완벽하게 호환되어 기존 Hugging Face 워크플로우를 그대로 사용할 수 있습니다.

🚀 주요 특징

🤗 Hugging Face Datasets 호환: 기존 Hugging Face Datasets API와 동일한 인터페이스 제공
☁️ ML expert Platform Data Manager 연동: Naver Cloud Platform의 ML expert Platform Data Manager와 완벽 연동
📊 다양한 데이터 형식 지원: CSV, JSON, Parquet, 이미지, 오디오, 텍스트 등 모든 형식 지원
⚡ 효율적인 스트리밍: 대용량 데이터셋도 메모리 효율적으로 처리
🔄 간편한 데이터 전처리: map, filter, select 등 강력한 데이터 변환 기능
🔐 보안: 안전한 API 키 기반 인증 시스템

📦 설치

pip을 사용한 설치

pip install ncloud-mlx[data-manager]

⚙️ 환경 설정

ML expert Platform Data Manager SDK를 사용하기 전에 다음 환경변수를 설정해야 합니다:

# ML expert Platform Data Manager 엔드포인트 설정
export MLX_ENDPOINT_URL="your-mlx-endpoint-url"

# API 키 설정
export MLX_APIKEY="your-api-key-here"

🏃‍♂️ 빠른 시작

기본 사용법

from mlx.sdk.data import load_dataset, login
from datasets import concatenate_datasets

# ML expert Platform Data Manager에 로그인
login("your-api-key")

# 로컬 데이터셋 로드
local_dataset = load_dataset("./path/to/your/data")

# ML expert Platform Data Manager에서 데이터셋 로드
remote_dataset = load_dataset("mlx-data-manager/dataset-name")

# 데이터셋 결합
combined_dataset = concatenate_datasets([
    local_dataset["train"], 
    remote_dataset["train"]
])

# ML expert Platform Data Manager에 업로드
combined_dataset.push_to_hub("mlx-data-manager/new-dataset")

스트리밍 모드

대용량 데이터셋을 효율적으로 처리하려면 스트리밍 모드를 사용하세요:

from mlx.sdk.data import load_dataset

# 스트리밍 모드로 데이터셋 로드
dataset = load_dataset("mlx-data-manager/large-dataset", streaming=True)

# 데이터를 즉시 반복 처리
for example in dataset["train"]:
    print(example)
    break  # 첫 번째 예제만 출력

데이터 전처리

from mlx.sdk.data import load_dataset
from transformers import AutoTokenizer

# 데이터셋 로드
dataset = load_dataset("mlx-data-manager/text-dataset")

# 텍스트 길이 추가
dataset_with_length = dataset.map(
    lambda x: {"length": len(x["text"])}
)

# 토크나이제이션
tokenizer = AutoTokenizer.from_pretrained('bert-base-cased')
tokenized_dataset = dataset.map(
    lambda x: tokenizer(x['text']), 
    batched=True
)

📖 지원하는 데이터 형식

ML expert Platform Data Manager SDK는 다양한 데이터 형식을 지원합니다:

텍스트: CSV, JSON, TXT, Parquet
이미지: JPEG, PNG, WebP, TIFF
오디오: WAV, MP3, FLAC
비디오: MP4, AVI, MOV
기타: Arrow, Feather, Excel

🔧 고급 기능

데이터셋 설정 및 분할

from datasets import get_dataset_config_names, get_dataset_split_names

# 사용 가능한 설정 확인
configs = get_dataset_config_names("mlx-data-manager/dataset-name")
print(f"Available configs: {configs}")

# 사용 가능한 분할 확인
splits = get_dataset_split_names("mlx-data-manager/dataset-name")
print(f"Available splits: {splits}")

태그 및 버전 관리

from huggingface_hub import create_tag, list_repo_refs

# 태그 생성
create_tag(
    repo_id="mlx-data-manager/dataset-name",
    repo_type="dataset",
    tag="v1.0",
    tag_message="First stable release"
)

# 태그 목록 확인
refs = list_repo_refs(repo_id="mlx-data-manager/dataset-name", repo_type="dataset")
print([tag.name for tag in refs.tags])

대용량 파일 업로드

from huggingface_hub import create_repo, upload_large_folder

# 저장소 생성
create_repo(
    repo_id="mlx-data-manager/large-dataset",
    repo_type="dataset"
)

# 대용량 폴더 업로드
upload_large_folder(
    repo_id="mlx-data-manager/large-dataset",
    repo_type="dataset",
    folder_path="./path/to/large/dataset"
)

🔍 데이터셋 검색

from huggingface_hub import list_datasets

# 데이터셋 검색
datasets = list_datasets(search="keyword")
for dataset in datasets:
    print(f"Dataset: {dataset.id}")

📊 지원하는 ML 프레임워크

ML expert Platform Data Manager SDK는 다음 ML 프레임워크와 완벽하게 호환됩니다:

PyTorch (2.0+)
TensorFlow (2.6+)
JAX (3.14+)
NumPy
Pandas
Polars

# PyTorch DataLoader와 함께 사용
from torch.utils.data import DataLoader

dataset = load_dataset("mlx-data-manager/dataset-name")
dataloader = DataLoader(dataset["train"], batch_size=32)

# Pandas DataFrame으로 변환
df = dataset["train"].to_pandas()

🛠️ 문제 해결

일반적인 문제들

환경변수 설정 오류

# 환경변수가 제대로 설정되었는지 확인
echo $MLX_ENDPOINT_URL
echo $MLX_APIKEY

캐시 정리
```
$ rm -rf ~/.cache
```
네트워크 연결 문제
- 방화벽 설정 확인
- ML expert Platform Data Manager 엔드포인트 접근 가능 여부 확인

📄 라이선스

이 프로젝트는 Apache License 2.0 하에 라이선스가 부여됩니다.

🔗 관련 프로젝트

ML expert Platform Data Manager SDK로 더 효율적인 데이터셋 관리를 시작하세요! 🚀

Project details

These details have not been verified by PyPI

Project links

Release history Release notifications | RSS feed

This version

1.2.0

Apr 23, 2026

0.1.0

Aug 29, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ncloud_mlx_data_manager-1.2.0.tar.gz (11.3 kB view details)

Uploaded Apr 23, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

ncloud_mlx_data_manager-1.2.0-py3-none-any.whl (10.2 kB view details)

Uploaded Apr 23, 2026 Python 3

File details

Details for the file ncloud_mlx_data_manager-1.2.0.tar.gz.

File metadata

Download URL: ncloud_mlx_data_manager-1.2.0.tar.gz
Upload date: Apr 23, 2026
Size: 11.3 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: uv/0.11.7 {"installer":{"name":"uv","version":"0.11.7","subcommand":["publish"]},"python":null,"implementation":{"name":null,"version":null},"distro":{"name":"Ubuntu","version":"20.04","id":"focal","libc":null},"system":{"name":null,"release":null},"cpu":null,"openssl_version":null,"setuptools_version":null,"rustc_version":null,"ci":true}

File hashes

Hashes for ncloud_mlx_data_manager-1.2.0.tar.gz
Algorithm	Hash digest
SHA256	`11b6e395bef6559439df47307103d7d1c0e90d451be1577c1284381d9c95d30e`
MD5	`9403b2dcddf0af470534142d963cef0b`
BLAKE2b-256	`ffcef06ed1c8244543e7c8f807ff2e55a9baf70bb9ad699aeef25feede66a902`

See more details on using hashes here.

File details

Details for the file ncloud_mlx_data_manager-1.2.0-py3-none-any.whl.

File metadata

Download URL: ncloud_mlx_data_manager-1.2.0-py3-none-any.whl
Upload date: Apr 23, 2026
Size: 10.2 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: uv/0.11.7 {"installer":{"name":"uv","version":"0.11.7","subcommand":["publish"]},"python":null,"implementation":{"name":null,"version":null},"distro":{"name":"Ubuntu","version":"20.04","id":"focal","libc":null},"system":{"name":null,"release":null},"cpu":null,"openssl_version":null,"setuptools_version":null,"rustc_version":null,"ci":true}

File hashes

Hashes for ncloud_mlx_data_manager-1.2.0-py3-none-any.whl
Algorithm	Hash digest
SHA256	`019676cfb8f140b123e0c4aad5b6b25ddb1ad9a5586b26e591a1a1258bc24263`
MD5	`7b5224ccf906629ddf763cb52220eb05`
BLAKE2b-256	`ab9f49c7812a714043634f401b6b58842dd15457b40a74f97308635f396920f3`

See more details on using hashes here.

ncloud-mlx-data-manager 1.2.0

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Project description

ML expert Platform Data Manager SDK

🚀 주요 특징

📦 설치

pip을 사용한 설치

⚙️ 환경 설정

🏃‍♂️ 빠른 시작

기본 사용법

스트리밍 모드

데이터 전처리

📖 지원하는 데이터 형식

🔧 고급 기능

데이터셋 설정 및 분할

태그 및 버전 관리

대용량 파일 업로드

🔍 데이터셋 검색

📊 지원하는 ML 프레임워크

🛠️ 문제 해결

일반적인 문제들

📄 라이선스

🔗 관련 프로젝트

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes