No project description provided
Project description
🧠 Pandatools – SƠN AI DataFrame Cleaner
Pandatools là một phần mở rộng (accessor) cho Pandas DataFrame, giúp tự động hóa quá trình phân tích chất lượng dữ liệu, làm sạch (cleaning) và tích hợp AI (SƠN AI) để xử lý dữ liệu thông minh chỉ với vài dòng mã.
🚀 Tính năng chính
.clean.intoo(): Hiển thị bảng phân tích dữ liệu cực đẹp trên Terminal với các gợi ý xử lý và mã code thực thi đi kèm..clean.summary(): Thống kê chi tiết từng cột: min, max, mean, skewness, unique values..clean.info_memory(): Kiểm tra memory usage chi tiết từng cột, top 5 cột nặng nhất..clean.auto(): Tự động làm sạch toàn bộ DataFrame (không cần API) chỉ với 1 dòng lệnh..clean.fix_dtypes(): Tự động nhận diện và chuyển đổi kiểu dữ liệu (object chứa số → numeric, object chứa ngày → datetime, ít unique → category, float nguyên → Int64, int 0/1 → bool)..clean.fill_missing(): Điền giá trị thiếu thông minh (numeric → median, datetime → forward fill, string → mode hoặc "Unknown")..clean.strip_strings(): Loại bỏ khoảng trắng thừa ở đầu/cuối của tất cả các cột văn bản..clean.drop_dupes(): Xóa hàng trùng lặp, thông báo chính xác số lượng đã xóa..clean.normalize_text(): Chuẩn hóa text Unicode NFC (tốt cho tiếng Việt), xóa multiple spaces..clean.clip_outliers(): Phát hiện và xử lý outliers bằng phương pháp IQR..clean.normalize_column_names(): Chuẩn hóa tên cột (lowercase, thay space/dấu gạch bằng underscore)..clean.optimize_memory(): Tối ưu memory (downcast int64, float64)..clean.remove_uninformative(): Xóa cột >70% missing hoặc cột chỉ có 1 giá trị duy nhất.- 🤖 SƠN AI (
.clean.son()): Tích hợp AI (OpenAI GPT-4o, Gemini) để viết code xử lý dữ liệu theo ngữ cảnh thực tế, có cache thông minh, fallback tự động. - 🐘 Big Data Mode (
.clean.bigdata()): Tự động chunking & sampling cho dataset hàng triệu dòng. - 📊 Biểu đồ: 8 loại biểu đồ (auto-detect, bar, line, pie, scatter, hist, box, heatmap).
- 💾 Export: Lưu CSV (utf-8-sig), Excel, Parquet.
🚀 Tính năng chính
.clean.intoo(): Hiển thị bảng phân tích dữ liệu cực đẹp trên Terminal với các gợi ý xử lý và mã code thực thi đi kèm..clean.summary(): Thống kê chi tiết từng cột: min, max, mean, skewness, unique values..clean.info_memory(): Kiểm tra memory usage chi tiết từng cột, top 5 cột nặng nhất..clean.auto(): Tự động làm sạch toàn bộ DataFrame (không cần API) chỉ với 1 dòng lệnh..clean.fix_dtypes(): Tự động nhận diện và chuyển đổi kiểu dữ liệu (object chứa số → numeric, object chứa ngày → datetime, ít unique → category, float nguyên → Int64, int 0/1 → bool)..clean.fill_missing(): Điền giá trị thiếu thông minh (numeric → median, datetime → forward fill, string → mode hoặc "Unknown")..clean.strip_strings(): Loại bỏ khoảng trắng thừa ở đầu/cuối của tất cả các cột văn bản..clean.drop_dupes(): Xóa hàng trùng lặp, thông báo chính xác số lượng đã xóa..clean.normalize_text(): Chuẩn hóa text Unicode NFC (tốt cho tiếng Việt), xóa multiple spaces..clean.clip_outliers(): Phát hiện và xử lý outliers bằng phương pháp IQR..clean.normalize_column_names(): Chuẩn hóa tên cột (lowercase, thay space/dấu gạch bằng underscore)..clean.optimize_memory(): Tối ưu memory (downcast int64, float64)..clean.remove_uninformative(): Xóa cột >70% missing hoặc cột chỉ có 1 giá trị duy nhất.- 🤖 SƠN AI (
.clean.son()): Tích hợp AI (OpenAI GPT-4o, Gemini) để viết code xử lý dữ liệu theo ngữ cảnh thực tế, có cache thông minh, fallback tự động. - 🐘 Big Data Mode (
.clean.bigdata()): Tự động chunking & sampling cho dataset hàng triệu dòng. - 📊 Biểu đồ: 8 loại biểu đồ (auto-detect, bar, line, pie, scatter, hist, box, heatmap).
- 💾 Export: Lưu CSV (utf-8-sig), Excel, Parquet.
📦 Cài đặt
Cực kỳ đơn giản, không yêu cầu cấu hình máy phức tạp:
pip install git+https://github.com/sonbuwin-beep/pandatools.git
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
pandatools-2.0.5.tar.gz
(17.7 kB
view details)
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file pandatools-2.0.5.tar.gz.
File metadata
- Download URL: pandatools-2.0.5.tar.gz
- Upload date:
- Size: 17.7 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.12.1
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
4fa0882215e43fa680f06e878189bf9fee39538c438135c98737435f59455ec4
|
|
| MD5 |
23ed166bab8a808079dc8533e2610d78
|
|
| BLAKE2b-256 |
b094e93c8900a46b1fb7b789f34fcc7eed835977663eb00578ab49d0eac20b20
|
File details
Details for the file pandatools-2.0.5-py3-none-any.whl.
File metadata
- Download URL: pandatools-2.0.5-py3-none-any.whl
- Upload date:
- Size: 17.1 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.12.1
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
4d2db1160dd9efafb4c199351fcd9f7622818e203cfcdd4350512d430448bb0e
|
|
| MD5 |
7d2332fe2978cd7bbc34b86b6fcf6084
|
|
| BLAKE2b-256 |
4b14f460313d07cbec1e24f49437a9c220c9c1da3d3e35c4f341776b639a3ff4
|