Skip to main content

No project description provided

Project description

🧠 Pandatools – SƠN AI DataFrame Cleaner

Pandatools là một phần mở rộng (accessor) cho Pandas DataFrame, giúp tự động hóa quá trình phân tích chất lượng dữ liệu, làm sạch (cleaning) và tích hợp AI (SƠN AI) để xử lý dữ liệu thông minh chỉ với vài dòng mã.


🚀 Tính năng chính

  • .clean.intoo(): Hiển thị bảng phân tích dữ liệu cực đẹp trên Terminal với các gợi ý xử lý và mã code thực thi đi kèm.
  • .clean.summary(): Thống kê chi tiết từng cột: min, max, mean, skewness, unique values.
  • .clean.info_memory(): Kiểm tra memory usage chi tiết từng cột, top 5 cột nặng nhất.
  • .clean.auto(): Tự động làm sạch toàn bộ DataFrame (không cần API) chỉ với 1 dòng lệnh.
  • .clean.fix_dtypes(): Tự động nhận diện và chuyển đổi kiểu dữ liệu (object chứa số → numeric, object chứa ngày → datetime, ít unique → category, float nguyên → Int64, int 0/1 → bool).
  • .clean.fill_missing(): Điền giá trị thiếu thông minh (numeric → median, datetime → forward fill, string → mode hoặc "Unknown").
  • .clean.strip_strings(): Loại bỏ khoảng trắng thừa ở đầu/cuối của tất cả các cột văn bản.
  • .clean.drop_dupes(): Xóa hàng trùng lặp, thông báo chính xác số lượng đã xóa.
  • .clean.normalize_text(): Chuẩn hóa text Unicode NFC (tốt cho tiếng Việt), xóa multiple spaces.
  • .clean.clip_outliers(): Phát hiện và xử lý outliers bằng phương pháp IQR.
  • .clean.normalize_column_names(): Chuẩn hóa tên cột (lowercase, thay space/dấu gạch bằng underscore).
  • .clean.optimize_memory(): Tối ưu memory (downcast int64, float64).
  • .clean.remove_uninformative(): Xóa cột >70% missing hoặc cột chỉ có 1 giá trị duy nhất.
  • 🤖 SƠN AI (.clean.son()): Tích hợp AI (OpenAI GPT-4o, Gemini) để viết code xử lý dữ liệu theo ngữ cảnh thực tế, có cache thông minh, fallback tự động.
  • 🐘 Big Data Mode (.clean.bigdata()): Tự động chunking & sampling cho dataset hàng triệu dòng.
  • 📊 Biểu đồ: 8 loại biểu đồ (auto-detect, bar, line, pie, scatter, hist, box, heatmap).
  • 💾 Export: Lưu CSV (utf-8-sig), Excel, Parquet.

🚀 Tính năng chính

  • .clean.intoo(): Hiển thị bảng phân tích dữ liệu cực đẹp trên Terminal với các gợi ý xử lý và mã code thực thi đi kèm.
  • .clean.summary(): Thống kê chi tiết từng cột: min, max, mean, skewness, unique values.
  • .clean.info_memory(): Kiểm tra memory usage chi tiết từng cột, top 5 cột nặng nhất.
  • .clean.auto(): Tự động làm sạch toàn bộ DataFrame (không cần API) chỉ với 1 dòng lệnh.
  • .clean.fix_dtypes(): Tự động nhận diện và chuyển đổi kiểu dữ liệu (object chứa số → numeric, object chứa ngày → datetime, ít unique → category, float nguyên → Int64, int 0/1 → bool).
  • .clean.fill_missing(): Điền giá trị thiếu thông minh (numeric → median, datetime → forward fill, string → mode hoặc "Unknown").
  • .clean.strip_strings(): Loại bỏ khoảng trắng thừa ở đầu/cuối của tất cả các cột văn bản.
  • .clean.drop_dupes(): Xóa hàng trùng lặp, thông báo chính xác số lượng đã xóa.
  • .clean.normalize_text(): Chuẩn hóa text Unicode NFC (tốt cho tiếng Việt), xóa multiple spaces.
  • .clean.clip_outliers(): Phát hiện và xử lý outliers bằng phương pháp IQR.
  • .clean.normalize_column_names(): Chuẩn hóa tên cột (lowercase, thay space/dấu gạch bằng underscore).
  • .clean.optimize_memory(): Tối ưu memory (downcast int64, float64).
  • .clean.remove_uninformative(): Xóa cột >70% missing hoặc cột chỉ có 1 giá trị duy nhất.
  • 🤖 SƠN AI (.clean.son()): Tích hợp AI (OpenAI GPT-4o, Gemini) để viết code xử lý dữ liệu theo ngữ cảnh thực tế, có cache thông minh, fallback tự động.
  • 🐘 Big Data Mode (.clean.bigdata()): Tự động chunking & sampling cho dataset hàng triệu dòng.
  • 📊 Biểu đồ: 8 loại biểu đồ (auto-detect, bar, line, pie, scatter, hist, box, heatmap).
  • 💾 Export: Lưu CSV (utf-8-sig), Excel, Parquet.

📦 Cài đặt

Cực kỳ đơn giản, không yêu cầu cấu hình máy phức tạp:

pip install git+https://github.com/sonbuwin-beep/pandatools.git

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

pandatools-2.0.4.tar.gz (17.7 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

pandatools-2.0.4-py3-none-any.whl (17.1 kB view details)

Uploaded Python 3

File details

Details for the file pandatools-2.0.4.tar.gz.

File metadata

  • Download URL: pandatools-2.0.4.tar.gz
  • Upload date:
  • Size: 17.7 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.12.1

File hashes

Hashes for pandatools-2.0.4.tar.gz
Algorithm Hash digest
SHA256 a134b9335617848b35e16dd57d8885510d3b898bcbf90311b0d32e75463f87f5
MD5 e015f964fae232a76b89e2b9e1655173
BLAKE2b-256 2140be79c4ac141e9bc01f2a38f9a0b603988b28a8fd7f940518c87efeac860b

See more details on using hashes here.

File details

Details for the file pandatools-2.0.4-py3-none-any.whl.

File metadata

  • Download URL: pandatools-2.0.4-py3-none-any.whl
  • Upload date:
  • Size: 17.1 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.12.1

File hashes

Hashes for pandatools-2.0.4-py3-none-any.whl
Algorithm Hash digest
SHA256 30d1e336cd2d35ed036aec8d649e6c24cd6671d5353358b6e64c8d061a8835ea
MD5 3b9c146d3a3139a20c9836098ee28956
BLAKE2b-256 ead78d8518b9c6073eb47443d86079fa052a63ebe50b91266893a05670ba10fb

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page