Skip to main content

Publicly available SAOL as a simple Python library

Project description

python-saol

Python-paketering av den senaste SAOL-utgåvan som är fritt tillgänglig, SAOL 14 från 2015[^1].

SAOL 14 är licensierad under Creative Commons Attribution 4.0 International (CC-BY-4.0).

Mer information om SAOL som datakälla: https://spraakbanken.gu.se/resurser/historiska-saol

Jag som gjort det här pythonpaketet har ingen koppling till SAOL, Språkbanken eller Göteborgs universitet.

Användning

Ordlistan exponeras som en enkel lista med ord, ordklass och böjningar. Ett exempel på användning:

from saol import all_upos_by_word, saol14

print(f"Ordlistan innehåller {len(saol14)} ord.")
print("Första ordet i listan:")
print(saol14[0])
print()

part_of_speech_by_word = all_upos_by_word(saol14)

for word in "en putslustig talgoxe äter sin finfördelade goja".split():
    upos = part_of_speech_by_word.get(word, None)
    if upos:
        print(
            f'"{word}" finns i ordlistan och är märkt med ordklass(er)'
            f' {", ".join(upos)}.'
        )
    else:
        print(f'"{word}" finns inte i ordlistan.')

Exemplet ger följande utskrift:

Ordlistan innehåller 126900 ord.
Första ordet i listan:
SaolEntry(word='a', upos='NOUN', conj='a:et; pl. a:n el. a, best. pl. a:na')

"en" finns i ordlistan och är märkt med ordklass(er) PRON, X, NOUN.
"putslustig" finns i ordlistan och är märkt med ordklass(er) ADJ.
"talgoxe" finns i ordlistan och är märkt med ordklass(er) NOUN.
"äter" finns inte i ordlistan.
"sin" finns i ordlistan och är märkt med ordklass(er) PRON, X, NOUN.
"finfördelade" finns inte i ordlistan.
"goja" finns i ordlistan och är märkt med ordklass(er) NOUN.

Notera att endast ord i grundform förekommer i listan: finfördela finns med, men inte finfördelad. Likaså äta men inte äter.

Det finns också ett antal "ord" (2432 stycken) som består av flera ord, till exempel haka på, fylla i samt ruska av sig.

Framtida arbete

  • Tillgänggliggör böjningar av ord. Här bör man kunna använda conj-fältet (motsvarande conj i faksimilfilen) för att härleda hur andra former ser ut.

Om indataformatet

Här följer lite anteckningar kring indatan i faksimilfilen, som laddas ner från Språkbanken då paketet byggs.

  • Ordklasser i upos-fältet är taggade enligt Universal Dependencies.
  • Ordklasser i ordkl-fältet är taggade på svenska, och ibland även med böjningssuffix i en <i></i>-tagg.
  • normaliserat_ord är normalt det ord man vill använda, då det är rensat från betoningsmarkeringar och liknande.
  • text-fältet verkar innehålla samma sak som böjningssuffixen i ordkl-fältet.

[^1]: Svenska Akademien (2025). SAOL 14 (2015) - faksimil (uppdaterad: 2025-12-11). [Data set]. Språkbanken Text. https://doi.org/10.23695/fqh2-af42

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

saol-0.2.0.tar.gz (3.3 MB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

saol-0.2.0-py3-none-any.whl (831.0 kB view details)

Uploaded Python 3

File details

Details for the file saol-0.2.0.tar.gz.

File metadata

  • Download URL: saol-0.2.0.tar.gz
  • Upload date:
  • Size: 3.3 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: uv/0.11.21 {"installer":{"name":"uv","version":"0.11.21","subcommand":["publish"]},"python":null,"implementation":{"name":null,"version":null},"distro":{"name":"Ubuntu","version":"24.04","id":"noble","libc":null},"system":{"name":null,"release":null},"cpu":null,"openssl_version":null,"setuptools_version":null,"rustc_version":null,"ci":true}

File hashes

Hashes for saol-0.2.0.tar.gz
Algorithm Hash digest
SHA256 62535af317a5ff6739e75756af3ad195a673b4254e8c9c16d11f2d501c25a2ea
MD5 a9e45159b94fad4d909ca96fccf54bb4
BLAKE2b-256 22909a5d8357ff6e030a431518bb040d77cb51d7807b1ab2d905d0b7ab074383

See more details on using hashes here.

File details

Details for the file saol-0.2.0-py3-none-any.whl.

File metadata

  • Download URL: saol-0.2.0-py3-none-any.whl
  • Upload date:
  • Size: 831.0 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: uv/0.11.21 {"installer":{"name":"uv","version":"0.11.21","subcommand":["publish"]},"python":null,"implementation":{"name":null,"version":null},"distro":{"name":"Ubuntu","version":"24.04","id":"noble","libc":null},"system":{"name":null,"release":null},"cpu":null,"openssl_version":null,"setuptools_version":null,"rustc_version":null,"ci":true}

File hashes

Hashes for saol-0.2.0-py3-none-any.whl
Algorithm Hash digest
SHA256 b8fecc93bd69941e5896bb5ebf437c0dcdd4c11498b77af038ad2222920ae245
MD5 d1268ebd146abbca7f825145238a78ee
BLAKE2b-256 3b39535b090fe19bfe27f61ba8ebb01fe32cf478465193c3c3842f69e8a66347

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page