Skip to main content

Tokenization of Norwegian texts

Project description


author: Lars G Johnsen organization: Nasjonalbiblioteket date: juni 2014

Tokenisator for ngramleser (evt. parsing).

Tokenisatorens oppgave er å danne token eller ord fra en sekvens med tegn. I utgangspunktet fungerer skilletegn og mellomrom som ordgrenser, men det er unntak, se listen nedenfor. Skilletegn danner som oftest egne token, men spesielt punktum og komma brukes på flere måter, noe det må tas høyde for.

Noen ord (token) har bestanddeler i form av skilletegn, som forkortelser, tall, i tillegg kan ordene selv være bundet sammen med bindestrek:

p-pille (bindestrek) 3.3 (punktum i seksjonsnummerering) etc. (forkortelser) 10 000 (token over mellomrom) 3,14 (desimaltall med komma) co2 (bokstaver og tall i kjemiske formler) co2-forurensning (bokstaver tall pluss bindestrek) 17. (ordenstall som i 17. mai) P. A. Munch (punktum i initialer) ... tre eller flere punktum Når punktum følger tall vil tokenisatoren la punktum tilhøre tallet med mindre punktumet følges av mellomrom og stor bokstav.

Punktum tilhører alle forkortelser som tar punktum uavhenging av kontekst. Den kan imidlertid gjøres følsom for påfølgende stor bokstav, men det er altså ikke gjort her. Punktum tillates inne i ord og deler ikke opp ord med punktum i seg.

Alle skilletegn ellers utgjør egne token, bortsett fra § som kan sekvensieres, så § og §§ vil være egne tokener; de benyttes en hel del i lovtekster for entall og flertall.

Tall skrevet med mellomrom blir ett token om de er på formen xx xxx, altså 1 eller 3 siffer etterfulgt av grupper på tre siffer skilt med ett mellomrom. Så 3 1995 vil være to tokener, mens 3 995 blir ett token, 4000 398 blir igjen to token. (Mulig det er endret)

Tall som følger etter § (adskilt med maks ett mellomrom) vil aldri tiltrekke seg punktum.

Øvrige tegn som ikke passer inn med mønstrene over behandles som separate token.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

nb_tokenizer-0.1.0.tar.gz (4.4 kB view details)

Uploaded Source

Built Distribution

nb_tokenizer-0.1.0-py3-none-any.whl (5.5 kB view details)

Uploaded Python 3

File details

Details for the file nb_tokenizer-0.1.0.tar.gz.

File metadata

  • Download URL: nb_tokenizer-0.1.0.tar.gz
  • Upload date:
  • Size: 4.4 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.6.1 CPython/3.11.4 Linux/5.14.0-1048-oem

File hashes

Hashes for nb_tokenizer-0.1.0.tar.gz
Algorithm Hash digest
SHA256 2921fa1daf86ec3c6cf65a8e188c3b2e1e1d99897d9d6ce7e7f715ba517f0684
MD5 a0a474b616f336b60652dd3c7368e914
BLAKE2b-256 9a3d94a50735d63d282871197e5a8a505faf75cf8ac9273db1dc5ab258f100e5

See more details on using hashes here.

File details

Details for the file nb_tokenizer-0.1.0-py3-none-any.whl.

File metadata

  • Download URL: nb_tokenizer-0.1.0-py3-none-any.whl
  • Upload date:
  • Size: 5.5 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.6.1 CPython/3.11.4 Linux/5.14.0-1048-oem

File hashes

Hashes for nb_tokenizer-0.1.0-py3-none-any.whl
Algorithm Hash digest
SHA256 a7a621df5c633a3606265359ca70043a52655d59c897eda4c8b366fc8023f8c7
MD5 e86267601e782c192c3532b789d7fdf3
BLAKE2b-256 ddbcefb80902582293aa5a993e6823da4b2a37c96614af32fdfadd632bc6efc3

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page