Skip to main content

No project description provided

Project description

🧠 Pandatools – SƠN AI DataFrame Cleaner

Pandatools là một phần mở rộng (accessor) cho Pandas DataFrame, giúp tự động hóa quá trình phân tích chất lượng dữ liệu, làm sạch (cleaning) và tích hợp AI (SƠN AI) để xử lý dữ liệu thông minh chỉ với vài dòng mã.


🚀 Tính năng chính

  • .clean.intoo(): Hiển thị bảng phân tích dữ liệu cực đẹp trên Terminal với các gợi ý xử lý và mã code thực thi đi kèm.
  • .clean.summary(): Thống kê chi tiết từng cột: min, max, mean, skewness, unique values.
  • .clean.info_memory(): Kiểm tra memory usage chi tiết từng cột, top 5 cột nặng nhất.
  • .clean.auto(): Tự động làm sạch toàn bộ DataFrame (không cần API) chỉ với 1 dòng lệnh.
  • .clean.fix_dtypes(): Tự động nhận diện và chuyển đổi kiểu dữ liệu (object chứa số → numeric, object chứa ngày → datetime, ít unique → category, float nguyên → Int64, int 0/1 → bool).
  • .clean.fill_missing(): Điền giá trị thiếu thông minh (numeric → median, datetime → forward fill, string → mode hoặc "Unknown").
  • .clean.strip_strings(): Loại bỏ khoảng trắng thừa ở đầu/cuối của tất cả các cột văn bản.
  • .clean.drop_dupes(): Xóa hàng trùng lặp, thông báo chính xác số lượng đã xóa.
  • .clean.normalize_text(): Chuẩn hóa text Unicode NFC (tốt cho tiếng Việt), xóa multiple spaces.
  • .clean.clip_outliers(): Phát hiện và xử lý outliers bằng phương pháp IQR.
  • .clean.normalize_column_names(): Chuẩn hóa tên cột (lowercase, thay space/dấu gạch bằng underscore).
  • .clean.optimize_memory(): Tối ưu memory (downcast int64, float64).
  • .clean.remove_uninformative(): Xóa cột >70% missing hoặc cột chỉ có 1 giá trị duy nhất.
  • 🤖 SƠN AI (.clean.son()): Tích hợp AI (OpenAI GPT-4o, Gemini) để viết code xử lý dữ liệu theo ngữ cảnh thực tế, có cache thông minh, fallback tự động.
  • 🐘 Big Data Mode (.clean.bigdata()): Tự động chunking & sampling cho dataset hàng triệu dòng.
  • 📊 Biểu đồ: 8 loại biểu đồ (auto-detect, bar, line, pie, scatter, hist, box, heatmap).
  • 💾 Export: Lưu CSV (utf-8-sig), Excel, Parquet.

🚀 Tính năng chính

  • .clean.intoo(): Hiển thị bảng phân tích dữ liệu cực đẹp trên Terminal với các gợi ý xử lý và mã code thực thi đi kèm.
  • .clean.summary(): Thống kê chi tiết từng cột: min, max, mean, skewness, unique values.
  • .clean.info_memory(): Kiểm tra memory usage chi tiết từng cột, top 5 cột nặng nhất.
  • .clean.auto(): Tự động làm sạch toàn bộ DataFrame (không cần API) chỉ với 1 dòng lệnh.
  • .clean.fix_dtypes(): Tự động nhận diện và chuyển đổi kiểu dữ liệu (object chứa số → numeric, object chứa ngày → datetime, ít unique → category, float nguyên → Int64, int 0/1 → bool).
  • .clean.fill_missing(): Điền giá trị thiếu thông minh (numeric → median, datetime → forward fill, string → mode hoặc "Unknown").
  • .clean.strip_strings(): Loại bỏ khoảng trắng thừa ở đầu/cuối của tất cả các cột văn bản.
  • .clean.drop_dupes(): Xóa hàng trùng lặp, thông báo chính xác số lượng đã xóa.
  • .clean.normalize_text(): Chuẩn hóa text Unicode NFC (tốt cho tiếng Việt), xóa multiple spaces.
  • .clean.clip_outliers(): Phát hiện và xử lý outliers bằng phương pháp IQR.
  • .clean.normalize_column_names(): Chuẩn hóa tên cột (lowercase, thay space/dấu gạch bằng underscore).
  • .clean.optimize_memory(): Tối ưu memory (downcast int64, float64).
  • .clean.remove_uninformative(): Xóa cột >70% missing hoặc cột chỉ có 1 giá trị duy nhất.
  • 🤖 SƠN AI (.clean.son()): Tích hợp AI (OpenAI GPT-4o, Gemini) để viết code xử lý dữ liệu theo ngữ cảnh thực tế, có cache thông minh, fallback tự động.
  • 🐘 Big Data Mode (.clean.bigdata()): Tự động chunking & sampling cho dataset hàng triệu dòng.
  • 📊 Biểu đồ: 8 loại biểu đồ (auto-detect, bar, line, pie, scatter, hist, box, heatmap).
  • 💾 Export: Lưu CSV (utf-8-sig), Excel, Parquet.

📦 Cài đặt

Cực kỳ đơn giản, không yêu cầu cấu hình máy phức tạp:

pip install git+https://github.com/sonbuwin-beep/pandatools.git

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

pandatools-2.0.5.tar.gz (17.7 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

pandatools-2.0.5-py3-none-any.whl (17.1 kB view details)

Uploaded Python 3

File details

Details for the file pandatools-2.0.5.tar.gz.

File metadata

  • Download URL: pandatools-2.0.5.tar.gz
  • Upload date:
  • Size: 17.7 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.12.1

File hashes

Hashes for pandatools-2.0.5.tar.gz
Algorithm Hash digest
SHA256 4fa0882215e43fa680f06e878189bf9fee39538c438135c98737435f59455ec4
MD5 23ed166bab8a808079dc8533e2610d78
BLAKE2b-256 b094e93c8900a46b1fb7b789f34fcc7eed835977663eb00578ab49d0eac20b20

See more details on using hashes here.

File details

Details for the file pandatools-2.0.5-py3-none-any.whl.

File metadata

  • Download URL: pandatools-2.0.5-py3-none-any.whl
  • Upload date:
  • Size: 17.1 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.12.1

File hashes

Hashes for pandatools-2.0.5-py3-none-any.whl
Algorithm Hash digest
SHA256 4d2db1160dd9efafb4c199351fcd9f7622818e203cfcdd4350512d430448bb0e
MD5 7d2332fe2978cd7bbc34b86b6fcf6084
BLAKE2b-256 4b14f460313d07cbec1e24f49437a9c220c9c1da3d3e35c4f341776b639a3ff4

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page