Skip to main content

Simple operations for navigation

Project description

dataprocess

TODO : Make better validators for pydantic classes, especially for addresses.

things to do: When we process an entry, we should directly, from the pydantic class, or any other indication, know that the thing has to have a value. If the thing is None, for some values it means the line should be discarded. For some others, it just means it should be casted in the corresponding value (like "" for a string).

Solution pour traiter un nouveau dataset Construire les nouvelles colonnes à partir des anciennes. On construit les colonnes une par une, et ensuite on vire les anciennes

Procédure: Pour chaque box OCR: Voir si il y a des ocurrences exactes de certains champs. Si c'est le cas, ça veut dire que les champs correspondent. On peut calculer la distance entre l'embedding du champ et l'embedding de la box, pour voir à quoi correspond une distance entre deux embeddings qui se correspondent vraiment. Ensuite, pour les champs pour lesquels on a pas trouvé, calculer la distance entre leurs embeddings et les embeddings des champs, voir si on trouve des distances similaires.

Faire une petite revue des distances entre strings pour comprendre un peu. On doit aussi analyser chacun des numéros (telephone, regex email ? Code postal, tva etc...) pour voir si il y a quelque chose à en tirer. Parce que si il y a seulement des parties de la string de l'entree qui correspond a la box, ça peut être le bon truc quand même. On va diviser les trucs ligne par ligne dans les box, mais garder un indice indiquant la ligne. Sur les boxes avec une ligne cet indice sera 1. C'est normal. Ça permet d'indiquer de façon soft la position des éléments dans une box.

To change the interpreter:

Cmd+Shift+P -> /anaconda3/bin/python

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

cleankit-0.0.5.tar.gz (10.0 kB view details)

Uploaded Source

Built Distribution

cleankit-0.0.5-py3-none-any.whl (8.6 kB view details)

Uploaded Python 3

File details

Details for the file cleankit-0.0.5.tar.gz.

File metadata

  • Download URL: cleankit-0.0.5.tar.gz
  • Upload date:
  • Size: 10.0 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.0.0 CPython/3.11.7

File hashes

Hashes for cleankit-0.0.5.tar.gz
Algorithm Hash digest
SHA256 b043ad14b86d03b92adae73ee256d8e9b62fcb2d342364e98a825c402dc2899b
MD5 b4855f650871dd1411dcb1e32ca34d47
BLAKE2b-256 ed9ebd9eb16a40856b6b32756e06093fd1d6be6949106ddf98fd44d9ff9d8a4a

See more details on using hashes here.

File details

Details for the file cleankit-0.0.5-py3-none-any.whl.

File metadata

  • Download URL: cleankit-0.0.5-py3-none-any.whl
  • Upload date:
  • Size: 8.6 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.0.0 CPython/3.11.7

File hashes

Hashes for cleankit-0.0.5-py3-none-any.whl
Algorithm Hash digest
SHA256 91e0c4a485522e8c1ad47ca3c50aea2cecdaf54820ab4dc5e98446c49b452079
MD5 f88aa0b214aa80013377e84801a8a5e1
BLAKE2b-256 b0f96625b04de18e2298b8a774e1bfe891348ea416e05fd7dc7a184a9cb2dbe6

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page