finetuner

Task-oriented finetuning for better embeddings on neural search.

These details have not been verified by PyPI

Project links

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

Finetuner logo: Finetuner helps you to create experiments in order to improve embeddings on search tasks. It accompanies you to deliver the last mile of performance-tuning for neural search applications.

Task-oriented finetuning for better embeddings on neural search

Fine-tuning is an effective way to improve the performance on neural search tasks. However, it is non-trivial for many deep learning engineers.

Finetuner makes fine-tuning easier, faster and performant by streamlining the workflow and handling all complexity and infrastructure on the cloud. With Finetuner, one can easily uplift pre-trained models to be more performant and production ready.

📈 Performance promise: uplift pretrained model and deliver SOTA performance on domain-specific neural search applications.

🔱 Simple yet powerful: easy access to 40+ mainstream losses, 10+ optimisers, layer pruning, weights freezing, dimensionality reduction, hard-negative mining, cross-modal model, distributed training.

☁ All-in-cloud: instant training with our free GPU; manage runs, experiments and artifacts on Jina AI Cloud without worrying about provisioning resources, integration complexity and infrastructure.

Documentation

Benchmark

Model	Task	Metric	Pretrained	Finetuned	Delta
BERT	Quora Question Answering	mRR	0.835	0.967	15.8%
BERT	Quora Question Answering	Recall	0.915	0.963	5.3%
ResNet	Visual similarity search on TLL	mAP	0.110	0.196	78.2%
ResNet	Visual similarity search on TLL	Recall	0.249	0.460	84.7%
CLIP	Deep Fashion text-to-image search	mRR	0.575	0.676	17.4%
CLIP	Deep Fashion text-to-image search	Recall	0.473	0.564	19.2%

_{^{All metrics are evaluated on k@20 after training for 5 epochs using Adam optimizer with learning rates of 1e-4 for ResNet, 1e-7 for CLIP and 1e-5 for the BERT models.}}

Install

Make sure you have Python 3.7+ installed. Finetuner can be installed via pip by executing:

pip install -U finetuner

If you want to encode docarray.DocumentArray objects with the finetuner.encode function, you need to install "finetuner[full]". In this case, some extra dependencies are installed which are necessary to do the inference, e.g., torch, torchvision, and open clip:

pip install "finetuner[full]"

From 0.5.0, Finetuner computing is hosted on Jina AI Cloud. THe last local version is 0.4.1, one can install it via pip or check out git tags/releases here.

Get Started

The following code snippet describes how to fine-tune ResNet50 on Totally Looks Like dataset, it can be run as-is:

import finetuner
from finetuner.callback import EvaluationCallback

finetuner.login()

run = finetuner.fit(
    model='resnet50',
    run_name='resnet50-tll-run',
    train_data='tll-train-data',
    callbacks=[
        EvaluationCallback(
            query_data='tll-test-query-data',
            index_data='tll-test-index-data',
        )
    ],
)

Here, the training data used is gathered from the Jina AI Cloud, however data can also be passed as a CSV file or DocumentArray, as described here.
Fine-tuning might take 5 minutes to finish. You can later re-connect your run with:

import finetuner

finetuner.login()

run = finetuner.get_run('resnet50-tll-run')

for log_entry in run.stream_logs():
    print(log_entry)

run.save_artifact('resnet-tll')

Specifically, the code snippet describes the following steps:

Login to Jina AI Cloud.
Select backbone model, training and evaluation data for your evaluation callback.
Start the cloud run.
Monitor the status: check the status and logs of the run.
Save model for further use and integration.

Finally, you can use the model to encode images:

import finetuner
from docarray import Document, DocumentArray

da = DocumentArray([Document(uri='~/Pictures/your_img.png')])

model = finetuner.get_model('resnet-tll')
finetuner.encode(model=model, data=da)

da.summary()

When encoding, you can provide data either as a DocumentArray or a list. Since the modality of your input data can be inferred from the model being used, there is no need to provide any additional information besides the content you want to encode. When providing data as a list, the finetuner.encode method will return a np.ndarray of embeddings, instead of a docarray.DocumentArray:

import finetuner
from docarray import Document, DocumentArray

images = ['~/Pictures/your_img.png']

model = finetuner.get_model('resnet-tll')
embeddings = finetuner.encode(model=model, data=images)

Training on your own data

If you want to train a model using your own dataset instead of one on the Jina AI Cloud, you can provide labeled data in a CSV file in the following way:

This is an apple    apple_label
This is a pear      pear_label
...

You can then provide the path to your CSV file as your training data:

run = finetuner.fit(
    model='bert-base-cased',
    run_name='bert-my-own-run',
    train_data='path/to/some/data.csv',
)

More information on providing your own training data is found in the Prepare Training Data section of the walkthrough.

Next steps

Take the walkthrough and submit your first fine-tuning job.
Try out different search tasks:

Intrigued? That's only scratching the surface of what Finetuner is capable of. Read our docs to learn more.

Support

Use Discussions to talk about your use cases, questions, and support queries.
Join our Slack community and chat with other Jina AI community members about ideas.
Join our Engineering All Hands meet-up to discuss your use case and learn Jina AI new features.
- When? The second Tuesday of every month
- Where? Zoom (see our public events calendar/.ical) and live stream on YouTube
Subscribe to the latest video tutorials on our YouTube channel

Join Us

Finetuner is backed by Jina AI and licensed under Apache-2.0. We are actively hiring AI engineers, solution engineers to build the next neural search ecosystem in opensource.

Project details

These details have not been verified by PyPI

Project links

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

0.8.1

Jul 26, 2023

0.8.0

Jul 13, 2023

0.7.8

Jun 8, 2023

0.7.7

May 24, 2023

0.7.6

Apr 18, 2023

0.7.5

Apr 14, 2023

0.7.4

Mar 29, 2023

0.7.3

Mar 16, 2023

0.7.2

Mar 2, 2023

0.7.1

Feb 15, 2023

0.7.0

Jan 18, 2023

0.6.7

Nov 25, 2022

0.6.6

Nov 24, 2022

This version

0.6.5

Nov 11, 2022

0.6.4

Oct 27, 2022

0.6.3

Oct 13, 2022

0.6.2

Sep 29, 2022

0.6.1

Sep 27, 2022

0.6.0

Sep 9, 2022

0.5.2

Aug 31, 2022

0.5.1

Jul 15, 2022

0.5.0

Jun 30, 2022

0.4.2.dev13 pre-release

May 20, 2022

0.4.2.dev11 pre-release

Apr 19, 2022

0.4.2.dev8 pre-release

Mar 11, 2022

0.4.2.dev6 pre-release

Feb 25, 2022

0.4.2.dev3 pre-release

Feb 21, 2022

0.4.2.dev2 pre-release

Feb 21, 2022

0.4.1

Feb 17, 2022

0.4.1.dev11 pre-release

Feb 17, 2022

0.4.1.dev10 pre-release

Feb 16, 2022

0.4.1.dev9 pre-release

Feb 11, 2022

0.4.1.dev8 pre-release

Feb 11, 2022

0.4.1.dev7 pre-release

Feb 10, 2022

0.4.1.dev6 pre-release

Feb 8, 2022

0.4.1.dev5 pre-release

Feb 8, 2022

0.4.1.dev4 pre-release

Feb 8, 2022

0.4.1.dev3 pre-release

Feb 7, 2022

0.4.1.dev2 pre-release

Feb 7, 2022

0.4.0

Jan 27, 2022

0.3.1

Jan 27, 2022

0.3.1.dev43 pre-release

Jan 27, 2022

0.3.1.dev42 pre-release

Jan 27, 2022

0.3.1.dev41 pre-release

Jan 27, 2022

0.3.1.dev40 pre-release

Jan 26, 2022

0.3.1.dev39 pre-release

Jan 26, 2022

0.3.1.dev38 pre-release

Jan 26, 2022

0.3.1.dev37 pre-release

Jan 25, 2022

0.3.1.dev36 pre-release

Jan 25, 2022

0.3.1.dev35 pre-release

Jan 25, 2022

0.3.1.dev34 pre-release

Jan 24, 2022

0.3.1.dev33 pre-release

Jan 24, 2022

0.3.1.dev32 pre-release

Jan 18, 2022

0.3.1.dev31 pre-release

Jan 18, 2022

0.3.1.dev29 pre-release

Jan 13, 2022

0.3.1.dev28 pre-release

Jan 12, 2022

0.3.1.dev27 pre-release

Jan 11, 2022

0.3.1.dev26 pre-release

Jan 11, 2022

0.3.1.dev25 pre-release

Jan 11, 2022

0.3.1.dev23 pre-release

Jan 10, 2022

0.3.1.dev22 pre-release

Jan 7, 2022

0.3.1.dev21 pre-release

Jan 7, 2022

0.3.1.dev20 pre-release

Jan 6, 2022

0.3.1.dev19 pre-release

Jan 4, 2022

0.3.1.dev16 pre-release

Jan 4, 2022

0.3.1.dev15 pre-release

Jan 3, 2022

0.3.1.dev14 pre-release

Dec 23, 2021

0.3.1.dev13 pre-release

Dec 22, 2021

0.3.1.dev12 pre-release

Dec 22, 2021

0.3.1.dev11 pre-release

Dec 22, 2021

0.3.1.dev10 pre-release

Dec 22, 2021

0.3.1.dev7 pre-release

Dec 22, 2021

0.3.1.dev6 pre-release

Dec 21, 2021

0.3.1.dev5 pre-release

Dec 20, 2021

0.3.1.dev4 pre-release

Dec 20, 2021

0.3.1.dev3 pre-release

Dec 20, 2021

0.3.1.dev2 pre-release

Dec 16, 2021

0.3.0

Dec 16, 2021

0.2.5.dev31 pre-release

Dec 16, 2021

0.2.5.dev29 pre-release

Dec 15, 2021

0.2.5.dev28 pre-release

Dec 14, 2021

0.2.5.dev27 pre-release

Dec 14, 2021

0.2.5.dev26 pre-release

Dec 14, 2021

0.2.5.dev25 pre-release

Dec 14, 2021

0.2.5.dev24 pre-release

Dec 10, 2021

0.2.5.dev23 pre-release

Dec 10, 2021

0.2.5.dev22 pre-release

Dec 9, 2021

0.2.5.dev18 pre-release

Dec 7, 2021

0.2.5.dev17 pre-release

Dec 7, 2021

0.2.5.dev16 pre-release

Dec 7, 2021

0.2.5.dev15 pre-release

Dec 6, 2021

0.2.5.dev14 pre-release

Dec 6, 2021

0.2.5.dev13 pre-release

Dec 3, 2021

0.2.5.dev12 pre-release

Dec 2, 2021

0.2.5.dev11 pre-release

Nov 30, 2021

0.2.5.dev10 pre-release

Nov 30, 2021

0.2.5.dev8 pre-release

Nov 29, 2021

0.2.5.dev6 pre-release

Nov 26, 2021

0.2.5.dev5 pre-release

Nov 26, 2021

0.2.5.dev4 pre-release

Nov 26, 2021

0.2.5.dev3 pre-release

Nov 24, 2021

0.2.5.dev0 pre-release

Dec 16, 2021

0.2.4

Nov 24, 2021

0.2.4.dev2 pre-release

Nov 24, 2021

0.2.3

Nov 24, 2021

0.2.3.dev6 pre-release

Nov 24, 2021

0.2.3.dev5 pre-release

Nov 24, 2021

0.2.3.dev4 pre-release

Nov 23, 2021

0.2.3.dev3 pre-release

Nov 23, 2021

0.2.3.dev2 pre-release

Nov 22, 2021

0.2.3.dev0 pre-release

Nov 24, 2021

0.2.2

Nov 21, 2021

0.2.2.dev4 pre-release

Nov 21, 2021

0.2.2.dev3 pre-release

Nov 21, 2021

0.2.1

Nov 20, 2021

0.2.1.dev5 pre-release

Nov 20, 2021

0.2.1.dev3 pre-release

Nov 20, 2021

0.2.1.dev2 pre-release

Nov 19, 2021

0.2.0

Nov 19, 2021

0.1.6.dev6 pre-release

Nov 19, 2021

0.1.6.dev3 pre-release

Nov 16, 2021

0.1.6.dev2 pre-release

Nov 10, 2021

0.1.5

Nov 8, 2021

0.1.5.dev7 pre-release

Nov 5, 2021

0.1.5.dev6 pre-release

Nov 5, 2021

0.1.5.dev4 pre-release

Nov 4, 2021

0.1.5.dev3 pre-release

Nov 4, 2021

0.1.5.dev2 pre-release

Nov 3, 2021

0.1.4

Nov 2, 2021

0.1.4.dev6 pre-release

Nov 2, 2021

0.1.4.dev5 pre-release

Nov 2, 2021

0.1.4.dev2 pre-release

Oct 27, 2021

0.1.3

Oct 27, 2021

0.1.3.dev0 pre-release

Oct 27, 2021

0.1.2

Oct 26, 2021

0.1.2.dev4 pre-release

Oct 26, 2021

0.1.2.dev3 pre-release

Oct 26, 2021

0.1.2.dev2 pre-release

Oct 24, 2021

0.1.1

Oct 24, 2021

0.1.1.dev13 pre-release

Oct 23, 2021

0.1.1.dev12 pre-release

Oct 23, 2021

0.1.1.dev11 pre-release

Oct 23, 2021

0.1.1.dev9 pre-release

Oct 21, 2021

0.1.1.dev8 pre-release

Oct 21, 2021

0.1.1.dev7 pre-release

Oct 21, 2021

0.1.1.dev5 pre-release

Oct 20, 2021

0.1.1.dev3 pre-release

Oct 20, 2021

0.1.0

Oct 20, 2021

0.1.0.dev0 pre-release

Oct 20, 2021

0.0.4

Oct 20, 2021

0.0.4.dev10 pre-release

Oct 20, 2021

0.0.4.dev7 pre-release

Oct 20, 2021

0.0.4.dev2 pre-release

Oct 19, 2021

0.0.3

Oct 19, 2021

0.0.3.dev66 pre-release

Oct 19, 2021

0.0.3.dev65 pre-release

Oct 19, 2021

0.0.3.dev64 pre-release

Oct 19, 2021

0.0.3.dev63 pre-release

Oct 19, 2021

0.0.3.dev62 pre-release

Oct 19, 2021

0.0.3.dev61 pre-release

Oct 19, 2021

0.0.3.dev60 pre-release

Oct 19, 2021

0.0.3.dev59 pre-release

Oct 19, 2021

0.0.3.dev57 pre-release

Oct 18, 2021

0.0.3.dev56 pre-release

Oct 18, 2021

0.0.3.dev51 pre-release

Oct 17, 2021

0.0.3.dev50 pre-release

Oct 16, 2021

0.0.3.dev49 pre-release

Oct 16, 2021

0.0.3.dev48 pre-release

Oct 15, 2021

0.0.3.dev47 pre-release

Oct 15, 2021

0.0.3.dev46 pre-release

Oct 15, 2021

0.0.3.dev45 pre-release

Oct 15, 2021

0.0.3.dev42 pre-release

Oct 14, 2021

0.0.3.dev40 pre-release

Oct 14, 2021

0.0.3.dev37 pre-release

Oct 14, 2021

0.0.3.dev36 pre-release

Oct 14, 2021

0.0.3.dev35 pre-release

Oct 14, 2021

0.0.3.dev34 pre-release

Oct 14, 2021

0.0.3.dev33 pre-release

Oct 14, 2021

0.0.3.dev32 pre-release

Oct 13, 2021

0.0.3.dev31 pre-release

Oct 13, 2021

0.0.3.dev30 pre-release

Oct 13, 2021

0.0.3.dev29 pre-release

Oct 13, 2021

0.0.3.dev28 pre-release

Oct 13, 2021

0.0.3.dev27 pre-release

Oct 13, 2021

0.0.3.dev26 pre-release

Oct 13, 2021

0.0.3.dev25 pre-release

Oct 11, 2021

0.0.3.dev24 pre-release

Oct 11, 2021

0.0.3.dev23 pre-release

Oct 8, 2021

0.0.3.dev22 pre-release

Oct 8, 2021

0.0.3.dev21 pre-release

Oct 8, 2021

0.0.3.dev20 pre-release

Oct 8, 2021

0.0.3.dev18 pre-release

Oct 8, 2021

0.0.3.dev17 pre-release

Oct 7, 2021

0.0.3.dev16 pre-release

Oct 6, 2021

0.0.3.dev15 pre-release

Oct 6, 2021

0.0.3.dev14 pre-release

Oct 6, 2021

0.0.3.dev13 pre-release

Oct 6, 2021

0.0.3.dev11 pre-release

Oct 6, 2021

0.0.3.dev10 pre-release

Oct 6, 2021

0.0.3.dev9 pre-release

Oct 6, 2021

0.0.3.dev8 pre-release

Oct 6, 2021

0.0.3.dev7 pre-release

Oct 5, 2021

0.0.3.dev6 pre-release

Oct 5, 2021

0.0.3.dev5 pre-release

Oct 5, 2021

0.0.3.dev4 pre-release

Oct 5, 2021

0.0.2

Oct 4, 2021

0.0.1

Oct 4, 2021

0.0.0

Aug 25, 2021

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

finetuner-0.6.5.tar.gz (32.3 kB view hashes)

Uploaded Nov 11, 2022 Source

Hashes for finetuner-0.6.5.tar.gz

Hashes for finetuner-0.6.5.tar.gz
Algorithm	Hash digest
SHA256	`dc681051860464f3e3d0c8c7f51cbb4e0a56d4c94ccc348901f9668cd5fa6cd8`
MD5	`08123f017e2336406b898f625cdd6865`
BLAKE2b-256	`6ef4abd411c4d57dd3cd75f3d25610b3e3048b993415081e5bcf339ee70d9e8e`