Skip to main content

package to execute some ner ops

Project description

NER-API

Ce package permet le traitemnt du texte , l'extraction des entités(inclus code swift et code imo), ainsi que le highlighting des ces entités présente dans un fichier pdf

Installation

pip install myNer

Usage/Exemples

Preprocessing:

from myner  import text_preprocessing
text_preprocessing.text_preprocessing(text,accented=True,stopw=True,punctuation=True,lowercase=True,lemmatize=True,spelling=True,expand_contraction=True,urls=True)

cette fonction permet de traiter le text en utilisant les filtres présents comme argument

from myner  import text_preprocessing
text_preprocessing.spacy_preprocessing(text,lowercase=True,stopw=True,punctuation=True,alphabetic=True,lemmatize=True,)

Permet de faire du traitement du texte à l'aide de spacy

Après le preprocessing tout les caractères sont en miniscule, les retour en ligne et les multiples espaces sont éliminés , seulement un seul espace est ajouté lorsqu'on reconstitue le texte, les caractères spéciaux sont supprimés ,meme les "-" et les "+" sont supprimés dans les codes et les references ce qui peut poser problème, toutefois les fonctions du preprocessing possèdent des filtres qu'on peut ajuster selon le cas

Méthodes d'extraction des entités:

on a utilisé dans ce projet :

1)reconnaissance à l'aide d'expression régulière:

ner.find_imo(text)
ner.find_swift(text)
  1. reconnaissance à l'aide de composante ner du modèle linguistique de spacy:
ner.ner_spacy(text)
  1. reconnaissance à l'aide des dictionnaires et du fuzzy matching:
ner.ner_dicts(text,db,table)

Après avoir créer une base de données postgresql pour les ports , banques et navires , on utilise cette db pour extraire les entités de ce type. Sauf que cette méthode se montre dépendante des données présentes dans la base de données(par exemple si le nom compet d'une banque est présent dans la base, un nom courant de la banque ne sera pas reconnu )

Pdf highlighting:

from myner import highlight_pdf 
highlight_pdf.output(input_file,output_path)

cette fonction prend en argument le chemin vers un fichier pdf , et le chemin de l'output, extrait les entités,les highlight , et enregistre le pdf highlighté dans le dossier courant sous le nom "output.pdf"

Il existe aussi deux fonctions pour l'encodage du pdf en base64 et l'inverse,pour permettre l'interaction avec l'API

highlight_pdf.pdf_to_base64(pdf)
highlight_pdf.base64_to_pdf(base64)

batch preprocessing:

highlight_pdf.batch_ner(dir_path): prend le chemin vers un dossier contenant des pdf et execute du batch preprocessing sur ces derniers

API Reference

get_entities(text)

Prend un texte(String) et retourne ses entités

highlight_pdf(pdf)

Prend le pdf encodé en base64 et retourne le pdf highlighté encodé en base64 ainsi que les entités détectées sous format : # positions format: a dict containing entities as keys, and the values a list of tuples:(list of Rect positions,page number)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

myner-0.0.6.tar.gz (134.3 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

myner-0.0.6-py3-none-any.whl (93.4 kB view details)

Uploaded Python 3

File details

Details for the file myner-0.0.6.tar.gz.

File metadata

  • Download URL: myner-0.0.6.tar.gz
  • Upload date:
  • Size: 134.3 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.1 CPython/3.9.7

File hashes

Hashes for myner-0.0.6.tar.gz
Algorithm Hash digest
SHA256 51422d857987020f5091e1c7114b6208677f642d973da2011a28b3642a1e82fc
MD5 d0b3111e26186a912408ea5486a96243
BLAKE2b-256 2f82ae174fc3b0e7d29ed9b98fba42bc5cc2917444d5b2d40f4e7f863d7ed9ee

See more details on using hashes here.

File details

Details for the file myner-0.0.6-py3-none-any.whl.

File metadata

  • Download URL: myner-0.0.6-py3-none-any.whl
  • Upload date:
  • Size: 93.4 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.1 CPython/3.9.7

File hashes

Hashes for myner-0.0.6-py3-none-any.whl
Algorithm Hash digest
SHA256 875df4b5fbc90361f6f91673e463fd3113691a9f66bdb3fb7652beee92de85a0
MD5 adbeb213c00eef843ba81caa25edae6f
BLAKE2b-256 c68cf8c4cab2f38f12c77b5dd2c7f49dad1c264fd70e53336bef22fb5faa7d50

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page