Skip to main content

An ecosystem for data analysis

Project description

  • Đây là công cụ giúp so sánh phân bố giữa 2 dataset theo từng biến riêng rẽ. Tất cả các hình vẽ ssau đó sẽ được lưu lại trong directory mặc định là 'your_current_working_directory/data1_data2/picture/'

Ví dụ

from ngocbien_analysis import DistributionPlot
plot = DistributionPlot(data1, data2).plot2data()

Với câu lệnh trên, tất cả các biến sẽ đc so sánh, visualize và lưu vào directory như trên.

from ngocbien_analysis import DistributionPlot
DistributionPlot(data1, data2, nmax=9, label=['data1', 'data2'], is_save=True).plot2data()

Ta có một số key paramater như sau:

  • nmax : Số hình vẽ tối đa trong 1 khung hình, ở đây 9 tức ta sẽ có 3x3 hình trong 1 pictures. Nếu bạn có quá nhiều biến bạn có thể chọn là 16, hay chọn là 3 trong trường hợp ngược lại.
  • is_save : Mặc định là True để lưu hình vẽ vào folder trên.
  • label: mặc định là data1 và data2, bạn có thể thay đổi để phù hợp, ví dụ good, bad, các label này được dùng làm legend trong hình vẽ và tạo ra tên folder chứa các hình vẽ đó.
  • Ngoài ra, ta có thể chỉnh độ sáng, màu sắc, và nhiều lựa chọn khác cho các hình vẽ này bằng cách chỉnh các tham số dưới đây.
class DistributionPlot:
    def __init__(self, data1, data2=None, is_save=True,  **kwargs):
        self.data1 = data1
        self.data2 = data2
        self.nmax = 9
        self.label = ['data1', 'data2']
        self.num_types = ['float32', 'float64', 'int16', 'int32', 'int64', 'bool', 'int8']
        self.is_save = is_save
        self.alpha = [.6, .4]
        self.width = .9
        self.wspace = .15
        self.hspace = .25
        self.disable_xticks = False
        self.disable_yticks = True
  • Như vậy ta có thể thay đổi các tham số mặc định, ví dụ như:
from ngocbien_analysis import DistributionPlot
plot = DistributionPlot(data1=data1, data2=data2)
plot.label = ['good', 'bad']
plot.nmax = 4
plot.plot2data()

Các dự định tiếp theo:

  • Visualize đơn biến cho 1 dataset.
  • Xây dựng 1 hàm để lựa chọn ra top các features có phân bố khác biệt nhất giữa 2 tập data set. Việc này giúp quá trình phân tích tốt hơn trong trường hợp có quá nhiều features.
  • Xây dựng một số các công cụ phân tích đa biến. Công cụ này có thể tích hợp công hợp công cụ test để chỉ lọc ra các phân tích giá trị để visualize, giúp các phân tích có chất lượng tốt hơn.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distributions

No source distribution files available for this release.See tutorial on generating distribution archives.

Built Distribution

ngocbien_analysis-0.3-py3-none-any.whl (8.8 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page