This packages enables a quick creation of a report comparing quality of several ML models

These details have been verified by PyPI

Maintainers

denis.arnaud francesco086 khrapovs sebangst

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

Model Quality Report

This packages enables a quick creation of a model quality report, which is returned as a dict.

Main ingredients are a data splitter creating test and training data according various rules and the quality report itself. The quality report takes care of the splitting, fitting, predicting and finally deriving quality metrics.

Installing the package

Latest available code:

pip install model_quality_report

Specific version:

pip install model_quality_report==X.Y.Z

Quickstart

The RandomDataSplitter splits data randomly using sklearn.model_selection.train_test_split:

X = pd.DataFrame({'a': [1, 2, 3, 4, 5], 'b': ['a', 'b', 'c', 'd', 'e']})
y = pd.Series(data=range(5))

splitter = RandomDataSplitter(test_size=0.33, random_state=2)
X_train, X_test, y_train, y_test = splitter.split(X, y)

The TimeDeltaDataSplitter divides such that data from last period of length time_delta is used as test data. Here a pd.Timedelta and the date column name is provided:

splitter = TimeDeltaDataSplitter(date_column_name='shipping_date', time_delta=pd.Timedelta(3, unit='h')) 
X_train, X_test, y_train, y_test = splitter.split(X, y)

The SplitDateDataSplitter splits such that data after a provided date are used as test data. Additionally, the name of the date column has to be provided:

splitter = SplitDateDataSplitter(date_column_name='shipping_date', split_date=pd.Timstamp('2016-01-01'))
X_train, X_test, y_train, y_test = splitter.split(X, y)

The SortedDataSplitter requires a column with sortable values. Data are divided such that the test data set encompasses last fraction test_size. Sorting can be in ascending and descending order.

splitter = SortedDataSplitter(sortable_column_name='shipping_date', test_size=0.2, ascending=True)
X_train, X_test, y_train, y_test = splitter.split(X, y)

Using RegressionQualityReport class a quality report for a regression model can be created as following:

splitter = SplitDateDataSplitter(date_column_name='shipping_date', split_date=pd.Timstamp('2016-01-01'))
model = sklearn.linear_model.LinearRegression()
quality_reporter = RegressionQualityReport(model, splitter)
report = quality_reporter.create_quality_report_and_return_dict(X, y)

An exemplary report looks as follows:

{'metrics': 
    {'explained_variance_score': -6.018595041322246, 
     'mape': 0.3863636363636345, 
     'mean_absolute_error': 4.242424242424224, 
     'mean_squared_error': 29.426997245178825, 
     'median_absolute_error': 2.272727272727268, 
     'r2_score': -10.03512396694206}, 
 'data': 
    {'true': {3: 10, 4: 12, 2: 8}, 
     'predicted': {3: 12.272727272727268, 4: 20.999999999999964, 2: 6.545454545454561}}}

Note that the model must have a model.fit and a model.predict function.

Available Features

Data Splitter

RandomDataSplitter: splits randomly TimeDeltaDataSplitter: uses data in last period of length as test data SplitDateDataSplitter: uses data with timestamp newer than split date as test data SortedDataSplitter: sorts data along given column and takes last fraction of size x_test as test data ByHorizon: produces a list of splits of temporal data such that each consecutive train set has one more observation and test set one less ByFrequency: produces a list of splits of temporal data such that the data is split by a series of dates on a specified frequency

Quality Report

RegressionQualityReport: creates a quality report for a regression model

Quality Metrics

RegressionQualityMetrics: holds following functions:

explained_variance_score
mean_absolute_error
mean_squared_error
median_absolute_error
r2_score
mape

Developers should know

Create a virtual environment and activate it

python -m venv venv
source venv/bin/activate

Install the development packages

pip install -e .[dev]

and use pre-commit to make sure that your code is blackified automatically (used the black package):

pre-commit install

Run tests:

pip install -e .[test]
coverage run -m unittest discover tests
coverage report

Build documentation (see more details here):

pip install -e .[doc]
mkdocs build

or use

mkdocs serve

if you prefer a live, self-refreshing, documentation.

Project details

These details have been verified by PyPI

Maintainers

denis.arnaud francesco086 khrapovs sebangst

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

1.3.0

Feb 7, 2022

1.2.1

Nov 15, 2021

1.2.1rc0 pre-release

Nov 15, 2021

1.2.0

Oct 14, 2021

1.1.0

Jul 15, 2021

1.0.0

Jul 14, 2021

1.0.0rc18 pre-release

Jul 12, 2021

1.0.0rc17 pre-release

Jul 10, 2021

1.0.0rc16 pre-release

Jul 8, 2021

1.0.0rc15 pre-release

Jul 8, 2021

1.0.0rc14 pre-release

Jul 7, 2021

1.0.0rc13 pre-release

Jul 7, 2021

1.0.0rc12 pre-release

Jul 6, 2021

1.0.0rc11 pre-release

Jul 6, 2021

1.0.0rc10 pre-release

Jun 14, 2021

1.0.0rc9 pre-release

May 17, 2021

1.0.0rc8 pre-release

May 11, 2021

1.0.0rc7 pre-release

May 10, 2021

1.0.0rc6 pre-release

May 5, 2021

1.0.0rc5 pre-release

Apr 29, 2021

1.0.0rc4 pre-release

Apr 28, 2021

1.0.0rc3 pre-release

Apr 27, 2021

1.0.0rc2 pre-release

Apr 26, 2021

This version

1.0.0rc1 pre-release

Apr 23, 2021

0.2.0

Nov 21, 2019

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

model_quality_report-1.0.0rc1.tar.gz (27.0 kB view hashes)

Uploaded Apr 23, 2021 Source

Built Distribution

model_quality_report-1.0.0rc1-py3-none-any.whl (20.4 kB view hashes)

Uploaded Apr 23, 2021 Python 3

Hashes for model_quality_report-1.0.0rc1.tar.gz

Hashes for model_quality_report-1.0.0rc1.tar.gz
Algorithm	Hash digest
SHA256	`3cca8dfb5edd683c0024e46f909f8ec962059534d6201f4718385d852216acec`
MD5	`ce61b6cfbfdb523197e5c39c4302b661`
BLAKE2b-256	`b0ce860464bef6df1781c9a9c06371d583045ddf7d0e81ca55ece990f6bfa05c`

Hashes for model_quality_report-1.0.0rc1-py3-none-any.whl

Hashes for model_quality_report-1.0.0rc1-py3-none-any.whl
Algorithm	Hash digest
SHA256	`87d18b73786f457b568ea682b919179f957b8986504a2a8867b45e041da9c18f`
MD5	`2fbafbbedb67d53b9972b08e51c252ac`
BLAKE2b-256	`f44e8ce1a0668e5b5f52bc2a060adfbf1b007a2022d578301d31a1b267955a54`