HuSpaCy: industrial strength Hungarian natural language processing

These details have not been verified by PyPI

Project links

Project description

PyPI - Wheel

HuSpaCy: Industrial-strength Hungarian NLP

HuSpaCy is a spaCy model and a library providing industrial-strength Hungarian language processing facilities. The released pipeline consists of a tokenizer, sentence splitter, lemmatizer, tagger (predicting morphological features as well), dependency parser and a named entity recognition module. Word and phrase embeddings are also available through spaCy's API. All models have high throughput, decent memory usage and close to state-of-the-art accuracy. A live demo is available here, model releases are published to Hugging Face Hub.

This repository contains material to build HuSpaCy's models from the ground up.

Installation

To get started using the tool, first, you need to do download the model. The easiest way to achieve this is fetch the model by installing the huspacy package from PyPI:

pip install huspacy

This utility package exposes convenience methods for downloading and using the latest model:

import huspacy

# Download the latest model
huspacy.download()

# Download the specified model 
huspacy.download(version="v0.4.2")

# Load the previously downloaded model (hu_core_news_lg)
nlp = huspacy.load()

Alternatively, one can install the latest model from Hugging Face Hub directly:

pip install https://huggingface.co/huspacy/hu_core_news_lg/resolve/main/hu_core_news_lg-any-py3-none-any.whl

To speed up inference using GPUs, CUDA support can be installed as described in https://spacy.io/usage.

Usage

HuSpaCy is fully compatible with spaCy's API, newcomers can easily get started using spaCy 101 guide.

Although HuSpacy models can be leaded with spacy.load(), the tool provides convenience methods to easily access downloaded models.

# Load the model using huspacy
import huspacy
nlp = huspacy.load()

# Load the mode using spacy.load()
import spacy
nlp = spacy.load("hu_core_news_lg")

# Load the model directly as a module
import hu_core_news_lg
nlp = hu_core_news_lg.load()

# Either way you get the same model and can start processing texts.
doc = nlp("Csiribiri csiribiri zabszalma - négy csillag közt alszom ma.")

Available Models

Currently, we provide a single large model which achieves a good balance between accuracy and processing speed. A demo of this model is available at Hugging Face Spaces. This default model (hu_core_news_lg) provides tokenization, sentence splitting, part-of-speech tagging (UD labels w/ detailed morphosyntactic features), lemmatization, dependency parsing and named entity recognition and ships with pretrained word vectors.

Models' changes are recorded in the changelog.

Development

Installing requirements

poetry install will install all the dependencies
For better performance you might need to reinstall spacy with GPU support, e.g. poetry add spacy[cuda92] will add support for CUDA 9.2

Repository structure

├── .github            -- Github configuration files
├── data               -- Data files
│   ├── external       -- External models required to train models (e.g. word vectors)
│   ├── processed      -- Processed data ready to feed spacy
│   └── raw            -- Raw data, mostly corpora as they are obtained from the web
├── hu_core_news_lg    -- Spacy 3.x project files for building a model for news texts
│   ├── configs        -- Spacy pipeline configuration files
│   ├── project.lock   -- Auto-generated project script
│   ├── project.yml    -- Spacy3 Project file describing steps needed to build the model
│   └── README.md      -- Instructions on building a model from scratch
├── huspacy            -- subproject for the PyPI distributable package
├── tools              -- Source package for tools
│   └── cli            -- Command line scripts (Python)
├── models             -- Trained models and their metadata
├── resources          -- Resource files
├── scripts            -- Bash scripts
├── tests              -- Test files 
├── CHANGELOG.md       -- Keeps the changelog
├── LICENSE            -- License file
├── poetry.lock        -- Locked poetry dependencies files
├── poetry.toml        -- Poetry configurations
├── pyproject.toml     -- Python project configutation, including dependencies managed with Poetry 
└── README.md          -- This file

Citing

If you use the models or this library in your research please cite this paper.
Additionally, please indicate the version of the model you used so that your research can be reproduced.

@misc{HuSpaCy:2021,
  title = {{HuSpaCy: an industrial-strength Hungarian natural language processing toolkit}},
  booktitle = {{XVIII. Magyar Sz{\'a}m{\'\i}t{\'o}g{\'e}pes Nyelv{\'e}szeti Konferencia}},
  author = {Orosz, Gy{\"o}rgy and Sz{\' a}nt{\' o}, Zsolt and Berkecz, P{\' e}ter and Szab{\' o}, Gerg{\H o} and Farkas, Rich{\' a}rd}, 
  location = {{Szeged}},
  year = {in press 2021},
}

License

This library is released under the Apache 2.0 License

The trained models have their own license (CC BY-SA 4.0) as described on the models page.

Contact

For feature request issues and bugs please use the GitHub Issue Tracker. Otherwise, please use the Discussion Forums.

Authors

HuSpaCy is implemented in the SzegedAI team, coordinated by Orosz György in the Hungarian AI National Laboratory, MILAB program.

Project details

These details have not been verified by PyPI

Project links

Release history Release notifications | RSS feed

0.11.0.dev261 pre-release

Jan 3, 2024

0.11.0.dev260 pre-release

Dec 19, 2023

0.11.0.dev259 pre-release

Dec 11, 2023

0.11.0.dev258 pre-release

Oct 27, 2023

0.11.0.dev257 pre-release

Oct 27, 2023

0.11.0.dev256 pre-release

Oct 27, 2023

0.10.1.dev255 pre-release

Oct 27, 2023

0.10.1.dev254 pre-release

Oct 27, 2023

0.10.1.dev253 pre-release

Oct 27, 2023

0.10.1.dev252 pre-release

Oct 25, 2023

0.10.1.dev251 pre-release

Aug 30, 2023

0.10.0.dev250 pre-release

Aug 30, 2023

0.10.0.dev249 pre-release

Aug 30, 2023

0.9.0.dev248 pre-release

Aug 25, 2023

0.9.0.dev247 pre-release

Aug 25, 2023

0.9.0.dev246 pre-release

Aug 25, 2023

0.9.0.dev245 pre-release

Aug 25, 2023

0.9.0.dev243 pre-release

Aug 4, 2023

0.9.0.dev242 pre-release

Aug 4, 2023

0.9.0.dev241 pre-release

Jul 3, 2023

0.9.0.dev240 pre-release

Jun 14, 2023

0.9.0.dev239 pre-release

Jun 14, 2023

0.9.0.dev237 pre-release

Jun 13, 2023

0.9.0.dev236 pre-release

Jun 13, 2023

0.9.0.dev235 pre-release

Jun 13, 2023

0.9.0.dev234 pre-release

Jun 13, 2023

0.9.0.dev233 pre-release

Jun 13, 2023

0.9.0.dev232 pre-release

Jun 13, 2023

0.9.0.dev225 pre-release

May 24, 2023

0.9.0.dev224 pre-release

May 24, 2023

0.9.0.dev223 pre-release

May 23, 2023

0.9.0.dev222 pre-release

May 23, 2023

0.9.0.dev221 pre-release

May 23, 2023

0.9.0.dev220 pre-release

May 23, 2023

0.9.0.dev219 pre-release

May 23, 2023

0.9.0.dev218 pre-release

May 23, 2023

0.8.1.dev217 pre-release

May 23, 2023

0.8.1.dev215 pre-release

May 22, 2023

0.8.1.dev214 pre-release

May 19, 2023

0.8.1.dev213 pre-release

May 19, 2023

0.8.1.dev212 pre-release

May 19, 2023

0.8.1.dev211 pre-release

May 9, 2023

0.8.1.dev208 pre-release

Apr 21, 2023

0.8.1.dev207 pre-release

Apr 21, 2023

0.8.1.dev206 pre-release

Mar 24, 2023

0.8.1.dev205 pre-release

Mar 24, 2023

0.8.1.dev204 pre-release

Mar 24, 2023

0.8.0.dev203 pre-release

Mar 24, 2023

0.8.0.dev202 pre-release

Mar 23, 2023

0.7.0.dev201 pre-release

Mar 22, 2023

0.7.0.dev200 pre-release

Mar 22, 2023

0.7.0.dev199 pre-release

Mar 21, 2023

0.7.0.dev198 pre-release

Mar 21, 2023

0.7.0.dev197 pre-release

Mar 20, 2023

0.7.0.dev195 pre-release

Feb 13, 2023

0.7.0.dev194 pre-release

Feb 8, 2023

0.7.0.dev193 pre-release

Feb 8, 2023

0.7.0.dev192 pre-release

Feb 8, 2023

0.7.0.dev191 pre-release

Feb 8, 2023

0.7.0.dev190 pre-release

Feb 8, 2023

0.7.0.dev189 pre-release

Feb 8, 2023

0.7.0.dev188 pre-release

Feb 8, 2023

0.7.0.dev187 pre-release

Feb 8, 2023

0.7.0.dev186 pre-release

Feb 8, 2023

0.7.0.dev185 pre-release

Feb 8, 2023

0.6.0.dev184 pre-release

Feb 8, 2023

0.6.0.dev183 pre-release

Feb 3, 2023

0.6.0.dev182 pre-release

Feb 3, 2023

0.6.0.dev181 pre-release

Feb 3, 2023

0.6.0.dev179 pre-release

Nov 11, 2022

0.6.0.dev177 pre-release

Nov 11, 2022

0.5.1.dev176 pre-release

Nov 11, 2022

0.5.1.dev175 pre-release

Nov 11, 2022

0.5.1.dev174 pre-release

Nov 9, 2022

0.5.1.dev173 pre-release

Nov 9, 2022

0.5.1.dev172 pre-release

Nov 9, 2022

0.5.1.dev171 pre-release

Nov 9, 2022

0.5.1.dev170 pre-release

Nov 8, 2022

0.5.1.dev169 pre-release

Nov 8, 2022

0.5.1.dev168 pre-release

Nov 8, 2022

0.5.1.dev167 pre-release

Nov 8, 2022

0.5.1.dev166 pre-release

Nov 7, 2022

0.5.1.dev165 pre-release

Nov 4, 2022

0.5.1.dev164 pre-release

Nov 4, 2022

0.5.1.dev163 pre-release

Nov 4, 2022

0.5.1.dev162 pre-release

Nov 4, 2022

0.5.1.dev161 pre-release

Nov 4, 2022

0.5.1.dev160 pre-release

Nov 4, 2022

0.5.1.dev159 pre-release

Nov 4, 2022

0.5.1.dev156 pre-release

Nov 4, 2022

0.5.1.dev155 pre-release

Nov 3, 2022

0.5.1.dev150 pre-release

Nov 2, 2022

0.5.1.dev147 pre-release

Nov 2, 2022

0.5.1.dev146 pre-release

Nov 2, 2022

0.5.1.dev126 pre-release

Oct 31, 2022

0.5.1.dev125 pre-release

Oct 27, 2022

0.5.1.dev121 pre-release

Oct 26, 2022

0.5.1.dev119 pre-release

Oct 25, 2022

0.5.1.dev117 pre-release

Oct 25, 2022

0.5.1.dev112 pre-release

Oct 25, 2022

0.5.0.dev110 pre-release

Oct 24, 2022

0.5.0.dev100 pre-release

Oct 12, 2022

0.4.4.dev94 pre-release

Oct 7, 2022

0.4.4.dev92 pre-release

Oct 7, 2022

0.4.4.dev90 pre-release

Oct 7, 2022

0.4.4.dev82 pre-release

Oct 4, 2022

0.4.4.dev81 pre-release

Oct 4, 2022

0.4.4.dev80 pre-release

Oct 4, 2022

0.4.4.dev71 pre-release

Sep 23, 2022

0.4.4.dev70 pre-release

Sep 21, 2022

0.4.4.dev69 pre-release

Sep 21, 2022

0.4.4.dev68 pre-release

Sep 21, 2022

0.4.4.dev66 pre-release

Sep 20, 2022

0.4.4.dev65 pre-release

Sep 20, 2022

0.4.4.dev55 pre-release

Sep 7, 2022

0.4.4.dev51 pre-release

Aug 11, 2022

0.4.4.dev49 pre-release

Jul 29, 2022

0.4.4.dev46 pre-release

Jul 29, 2022

0.4.4.dev38 pre-release

May 31, 2022

0.4.4.dev37 pre-release

May 13, 2022

0.4.3.dev31 pre-release

May 11, 2022

0.4.3.dev29 pre-release

May 6, 2022

0.4.3.dev21 pre-release

Apr 27, 2022

0.4.2.dev19 pre-release

Apr 27, 2022

0.4.2.dev18 pre-release

Apr 27, 2022

This version

0.4.2.dev13 pre-release

Apr 5, 2022

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distributions

No source distribution files available for this release.See tutorial on generating distribution archives.

Built Distribution

huspacy_nightly-0.4.2.dev13-py3-none-any.whl (5.2 kB view details)

Uploaded Apr 5, 2022 Python 3

File details

Details for the file huspacy_nightly-0.4.2.dev13-py3-none-any.whl.

File metadata

Download URL: huspacy_nightly-0.4.2.dev13-py3-none-any.whl
Upload date: Apr 5, 2022
Size: 5.2 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/4.0.0 CPython/3.8.12

File hashes

Hashes for huspacy_nightly-0.4.2.dev13-py3-none-any.whl
Algorithm	Hash digest
SHA256	`3f4f1ed3dbbb1d2bfb38dd505d3e95af4ef6cdf9dfbb8e20f35537e8e0fa4130`
MD5	`ff653020b47838c195c280576f9edef6`
BLAKE2b-256	`e31030e0091baa7f4a7767059ab1b700245561b9a06701cf0cb54377b66fc9e6`