Skip to main content

package to execute some ner ops

Project description

NER-API

Ce package permet le traitemnt du texte , l'extraction des entités(inclus code swift et code imo), ainsi que le highlighting des ces entités présente dans un fichier pdf

Installation

pip install myNer

Usage/Exemples

Preprocessing:

from myner  import text_preprocessing
text_preprocessing.text_preprocessing(text,accented=True,stopw=True,punctuation=True,lowercase=True,lemmatize=True,spelling=True,expand_contraction=True,urls=True)

cette fonction permet de traiter le text en utilisant les filtres présents comme argument

from myner  import text_preprocessing
text_preprocessing.spacy_preprocessing(text,lowercase=True,stopw=True,punctuation=True,alphabetic=True,lemmatize=True,)

Permet de faire du traitement du texte à l'aide de spacy

Après le preprocessing tout les caractères sont en miniscule, les retour en ligne et les multiples espaces sont éliminés , seulement un seul espace est ajouté lorsqu'on reconstitue le texte, les caractères spéciaux sont supprimés ,meme les "-" et les "+" sont supprimés dans les codes et les references ce qui peut poser problème, toutefois les fonctions du preprocessing possèdent des filtres qu'on peut ajuster selon le cas

Méthodes d'extraction des entités:

on a utilisé dans ce projet :

1)reconnaissance à l'aide d'expression régulière:

ner.find_imo(text)
ner.find_swift(text)
  1. reconnaissance à l'aide de composante ner du modèle linguistique de spacy:
ner.ner_spacy(text)
  1. reconnaissance à l'aide des dictionnaires et du fuzzy matching:
ner.ner_dicts(text,db,table)

Après avoir créer une base de données postgresql pour les ports , banques et navires , on utilise cette db pour extraire les entités de ce type. Sauf que cette méthode se montre dépendante des données présentes dans la base de données(par exemple si le nom compet d'une banque est présent dans la base, un nom courant de la banque ne sera pas reconnu )

Pdf highlighting:

from myner import highlight_pdf 
highlight_pdf.output(input_file,output_path)

cette fonction prend en argument le chemin vers un fichier pdf , et le chemin de l'output, extrait les entités,les highlight , et enregistre le pdf highlighté dans le dossier courant sous le nom "output.pdf"

Il existe aussi deux fonctions pour l'encodage du pdf en base64 et l'inverse,pour permettre l'interaction avec l'API

highlight_pdf.pdf_to_base64(pdf)
highlight_pdf.base64_to_pdf(base64)

batch preprocessing:

highlight_pdf.batch_ner(dir_path): prend le chemin vers un dossier contenant des pdf et execute du batch preprocessing sur ces derniers

API Reference

get_entities(text)

Prend un texte(String) et retourne ses entités

highlight_pdf(pdf)

Prend le pdf encodé en base64 et retourne le pdf highlighté encodé en base64 ainsi que les entités détectées sous format : # positions format: a dict containing entities as keys, and the values a list of tuples:(list of Rect positions,page number)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

myner-0.0.6.tar.gz (134.3 kB view hashes)

Uploaded Source

Built Distribution

myner-0.0.6-py3-none-any.whl (93.4 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page