HuSpaCy: industrial strength Hungarian natural language processing

These details have not been verified by PyPI

Project links

Project description

project logo

PyPI - Wheel

HuSpaCy is a spaCy library providing industrial-strength Hungarian language processing facilities through spaCy models. The released pipelines consist of a tokenizer, sentence splitter, lemmatizer, tagger (predicting morphological features as well), dependency parser and a named entity recognition module. Word and phrase embeddings are also available through spaCy's API. All models have high throughput, decent memory usage and close to state-of-the-art accuracy. A live demo is available here, model releases are published to Hugging Face Hub.

This repository contains material to build HuSpaCy and all of its models in a reproducible way.

Installation

To get started using the tool, first, we need to download one of the models. The easiest way to achieve this is to install huspacy (from PyPI) and then fetch a model through its API.

pip install huspacy

import huspacy

# Download the latest CPU optimized model
huspacy.download()

Install the models directly

You can install the latest models directly from 🤗 Hugging Face Hub:

CPU optimized large model: pip install https://huggingface.co/huspacy/hu_core_news_lg/resolve/main/hu_core_news_lg-any-py3-none-any.whl
GPU optimized transformers model: pip install https://huggingface.co/huspacy/hu_core_news_trf/resolve/main/hu_core_news_trf-any-py3-none-any.whl

To speed up inference on GPUs, CUDA should be installed as described in https://spacy.io/usage.

Quickstart

HuSpaCy is fully compatible with spaCy's API, newcomers can easily get started with spaCy 101 guide.

Although HuSpacy models can be loaded with spacy.load(...), the tool provides convenience methods to easily access downloaded models.

# Load the model using spacy.load(...)
import spacy
nlp = spacy.load("hu_core_news_lg")

# Load the default large model (if downloaded)
import huspacy
nlp = huspacy.load()

# Load the model directly as a module
import hu_core_news_lg
nlp = hu_core_news_lg.load()

To process texts, you can simply call the loaded model (i.e. the nlp callable object)

doc = nlp("Csiribiri csiribiri zabszalma - négy csillag közt alszom ma.")

As HuSpaCy is built on spaCy, the returned doc document contains all the annotations given by the pipeline components.

API Documentation is available in our website.

Models overview

We provide several pretrained models:

hu_core_news_lg is a CNN-based large model which achieves a good balance between accuracy and processing speed. This default model provides tokenization, sentence splitting, part-of-speech tagging (UD labels w/ detailed morphosyntactic features), lemmatization, dependency parsing and named entity recognition and ships with pretrained word vectors.
hu_core_news_trf is built on huBERT and provides the same functionality as the large model except the word vectors. It comes with much higher accuracy in the price of increased computational resource usage. We suggest using it with GPU support.
hu_core_news_md greatly improves on hu_core_news_lg's throughput by loosing some accuracy. This model could be a good choice when processing speed is crucial.
hu_core_news_trf_xl is an experimental model built on XLM-RoBERTa-large. It provides the same functionality as the hu_core_news_trf model, however it comes with slightly higher accuracy in the price of significantly increased computational resource usage. We suggest using it with GPU support.

HuSpaCy's model versions follows spaCy's versioning scheme.

A demo of the models is available at Hugging Face Spaces.

To read more about the model's architecture we suggest reading the relevant sections from spaCy's documentation.

Comparison

Models	`md`	`lg`	`trf`	`trf_xl`
Embeddings	100d floret	300d floret	transformer: `huBERT`	transformer: `XLM-RoBERTa-large`
Target hardware	CPU	CPU	GPU	GPU
Accuracy	⭑⭑⭑⭒	⭑⭑⭑⭑	⭑⭑⭑⭑⭒	⭑⭑⭑⭑⭑
Resource usage	⭑⭑⭑⭑⭑	⭑⭑⭑⭑	⭑⭑	⭒

Citation

If you use HuSpaCy or any of its models, please cite it as:

@InProceedings{HuSpaCy:2023,
    author= {"Orosz, Gy{\"o}rgy and Szab{\'o}, Gerg{\H{o}} and Berkecz, P{\'e}ter and Sz{\'a}nt{\'o}, Zsolt and Farkas, Rich{\'a}rd"},
    editor= {"Ek{\v{s}}tein, Kamil and P{\'a}rtl, Franti{\v{s}}ek and Konop{\'i}k, Miloslav"},
    title = {{"Advancing Hungarian Text Processing with HuSpaCy: Efficient and Accurate NLP Pipelines"}},
    booktitle = {{"Text, Speech, and Dialogue"}},
    year = "2023",
    publisher = {{"Springer Nature Switzerland"}},
    address = {{"Cham"}},
    pages = "58--69",
    isbn = "978-3-031-40498-6"
}

@InProceedings{HuSpaCy:2021,
  title = {{HuSpaCy: an industrial-strength Hungarian natural language processing toolkit}},
  booktitle = {{XVIII. Magyar Sz{\'a}m{\'\i}t{\'o}g{\'e}pes Nyelv{\'e}szeti Konferencia}},
  author = {Orosz, Gy{\"o}rgy and Sz{\' a}nt{\' o}, Zsolt and Berkecz, P{\' e}ter and Szab{\' o}, Gerg{\H o} and Farkas, Rich{\' a}rd},
  location = {{Szeged}},
  pages = "59--73",
  year = {2022},
}

Contact

For feature requests, issues and bugs please use the GitHub Issue Tracker. Otherwise, reach out to us in the Discussion Forum.

Authors

HuSpaCy is implemented in the SzegedAI team, coordinated by Orosz György in the Hungarian AI National Laboratory, MILAB program.

License

This library is released under the Apache 2.0 License

Trained models have their own license (CC BY-SA 4.0) as described on the models page.

Project details

These details have not been verified by PyPI

Project links

Release history Release notifications | RSS feed

0.11.0.dev261 pre-release

Jan 3, 2024

0.11.0.dev260 pre-release

Dec 19, 2023

0.11.0.dev259 pre-release

Dec 11, 2023

0.11.0.dev258 pre-release

Oct 27, 2023

0.11.0.dev257 pre-release

Oct 27, 2023

0.11.0.dev256 pre-release

Oct 27, 2023

0.10.1.dev255 pre-release

Oct 27, 2023

0.10.1.dev254 pre-release

Oct 27, 2023

0.10.1.dev253 pre-release

Oct 27, 2023

0.10.1.dev252 pre-release

Oct 25, 2023

0.10.1.dev251 pre-release

Aug 30, 2023

This version

0.10.0.dev250 pre-release

Aug 30, 2023

0.10.0.dev249 pre-release

Aug 30, 2023

0.9.0.dev248 pre-release

Aug 25, 2023

0.9.0.dev247 pre-release

Aug 25, 2023

0.9.0.dev246 pre-release

Aug 25, 2023

0.9.0.dev245 pre-release

Aug 25, 2023

0.9.0.dev243 pre-release

Aug 4, 2023

0.9.0.dev242 pre-release

Aug 4, 2023

0.9.0.dev241 pre-release

Jul 3, 2023

0.9.0.dev240 pre-release

Jun 14, 2023

0.9.0.dev239 pre-release

Jun 14, 2023

0.9.0.dev237 pre-release

Jun 13, 2023

0.9.0.dev236 pre-release

Jun 13, 2023

0.9.0.dev235 pre-release

Jun 13, 2023

0.9.0.dev234 pre-release

Jun 13, 2023

0.9.0.dev233 pre-release

Jun 13, 2023

0.9.0.dev232 pre-release

Jun 13, 2023

0.9.0.dev225 pre-release

May 24, 2023

0.9.0.dev224 pre-release

May 24, 2023

0.9.0.dev223 pre-release

May 23, 2023

0.9.0.dev222 pre-release

May 23, 2023

0.9.0.dev221 pre-release

May 23, 2023

0.9.0.dev220 pre-release

May 23, 2023

0.9.0.dev219 pre-release

May 23, 2023

0.9.0.dev218 pre-release

May 23, 2023

0.8.1.dev217 pre-release

May 23, 2023

0.8.1.dev215 pre-release

May 22, 2023

0.8.1.dev214 pre-release

May 19, 2023

0.8.1.dev213 pre-release

May 19, 2023

0.8.1.dev212 pre-release

May 19, 2023

0.8.1.dev211 pre-release

May 9, 2023

0.8.1.dev208 pre-release

Apr 21, 2023

0.8.1.dev207 pre-release

Apr 21, 2023

0.8.1.dev206 pre-release

Mar 24, 2023

0.8.1.dev205 pre-release

Mar 24, 2023

0.8.1.dev204 pre-release

Mar 24, 2023

0.8.0.dev203 pre-release

Mar 24, 2023

0.8.0.dev202 pre-release

Mar 23, 2023

0.7.0.dev201 pre-release

Mar 22, 2023

0.7.0.dev200 pre-release

Mar 22, 2023

0.7.0.dev199 pre-release

Mar 21, 2023

0.7.0.dev198 pre-release

Mar 21, 2023

0.7.0.dev197 pre-release

Mar 20, 2023

0.7.0.dev195 pre-release

Feb 13, 2023

0.7.0.dev194 pre-release

Feb 8, 2023

0.7.0.dev193 pre-release

Feb 8, 2023

0.7.0.dev192 pre-release

Feb 8, 2023

0.7.0.dev191 pre-release

Feb 8, 2023

0.7.0.dev190 pre-release

Feb 8, 2023

0.7.0.dev189 pre-release

Feb 8, 2023

0.7.0.dev188 pre-release

Feb 8, 2023

0.7.0.dev187 pre-release

Feb 8, 2023

0.7.0.dev186 pre-release

Feb 8, 2023

0.7.0.dev185 pre-release

Feb 8, 2023

0.6.0.dev184 pre-release

Feb 8, 2023

0.6.0.dev183 pre-release

Feb 3, 2023

0.6.0.dev182 pre-release

Feb 3, 2023

0.6.0.dev181 pre-release

Feb 3, 2023

0.6.0.dev179 pre-release

Nov 11, 2022

0.6.0.dev177 pre-release

Nov 11, 2022

0.5.1.dev176 pre-release

Nov 11, 2022

0.5.1.dev175 pre-release

Nov 11, 2022

0.5.1.dev174 pre-release

Nov 9, 2022

0.5.1.dev173 pre-release

Nov 9, 2022

0.5.1.dev172 pre-release

Nov 9, 2022

0.5.1.dev171 pre-release

Nov 9, 2022

0.5.1.dev170 pre-release

Nov 8, 2022

0.5.1.dev169 pre-release

Nov 8, 2022

0.5.1.dev168 pre-release

Nov 8, 2022

0.5.1.dev167 pre-release

Nov 8, 2022

0.5.1.dev166 pre-release

Nov 7, 2022

0.5.1.dev165 pre-release

Nov 4, 2022

0.5.1.dev164 pre-release

Nov 4, 2022

0.5.1.dev163 pre-release

Nov 4, 2022

0.5.1.dev162 pre-release

Nov 4, 2022

0.5.1.dev161 pre-release

Nov 4, 2022

0.5.1.dev160 pre-release

Nov 4, 2022

0.5.1.dev159 pre-release

Nov 4, 2022

0.5.1.dev156 pre-release

Nov 4, 2022

0.5.1.dev155 pre-release

Nov 3, 2022

0.5.1.dev150 pre-release

Nov 2, 2022

0.5.1.dev147 pre-release

Nov 2, 2022

0.5.1.dev146 pre-release

Nov 2, 2022

0.5.1.dev126 pre-release

Oct 31, 2022

0.5.1.dev125 pre-release

Oct 27, 2022

0.5.1.dev121 pre-release

Oct 26, 2022

0.5.1.dev119 pre-release

Oct 25, 2022

0.5.1.dev117 pre-release

Oct 25, 2022

0.5.1.dev112 pre-release

Oct 25, 2022

0.5.0.dev110 pre-release

Oct 24, 2022

0.5.0.dev100 pre-release

Oct 12, 2022

0.4.4.dev94 pre-release

Oct 7, 2022

0.4.4.dev92 pre-release

Oct 7, 2022

0.4.4.dev90 pre-release

Oct 7, 2022

0.4.4.dev82 pre-release

Oct 4, 2022

0.4.4.dev81 pre-release

Oct 4, 2022

0.4.4.dev80 pre-release

Oct 4, 2022

0.4.4.dev71 pre-release

Sep 23, 2022

0.4.4.dev70 pre-release

Sep 21, 2022

0.4.4.dev69 pre-release

Sep 21, 2022

0.4.4.dev68 pre-release

Sep 21, 2022

0.4.4.dev66 pre-release

Sep 20, 2022

0.4.4.dev65 pre-release

Sep 20, 2022

0.4.4.dev55 pre-release

Sep 7, 2022

0.4.4.dev51 pre-release

Aug 11, 2022

0.4.4.dev49 pre-release

Jul 29, 2022

0.4.4.dev46 pre-release

Jul 29, 2022

0.4.4.dev38 pre-release

May 31, 2022

0.4.4.dev37 pre-release

May 13, 2022

0.4.3.dev31 pre-release

May 11, 2022

0.4.3.dev29 pre-release

May 6, 2022

0.4.3.dev21 pre-release

Apr 27, 2022

0.4.2.dev19 pre-release

Apr 27, 2022

0.4.2.dev18 pre-release

Apr 27, 2022

0.4.2.dev13 pre-release

Apr 5, 2022

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distributions

No source distribution files available for this release.See tutorial on generating distribution archives.

Built Distribution

huspacy_nightly-0.10.0.dev250-py3-none-any.whl (92.9 kB view details)

Uploaded Aug 30, 2023 Python 3

File details

Details for the file huspacy_nightly-0.10.0.dev250-py3-none-any.whl.

File metadata

Download URL: huspacy_nightly-0.10.0.dev250-py3-none-any.whl
Upload date: Aug 30, 2023
Size: 92.9 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/4.0.2 CPython/3.10.12

File hashes

Hashes for huspacy_nightly-0.10.0.dev250-py3-none-any.whl
Algorithm	Hash digest
SHA256	`ec233d9b48dc4b87de9b5288c2540ee5fbfc7b65f74568980860dda82dd57bd4`
MD5	`b839e23d4350d390f242406f018a0ab9`
BLAKE2b-256	`37c14d0777fe9272cc2c9bb0f4a578385b92d71477e79821bf3c513589326c45`