Publicly available SAOL as a simple Python library
Project description
python-saol
Python-paketering av den senaste SAOL-utgåvan som är fritt tillgänglig, SAOL 14 från 2015[^1].
SAOL 14 är licensierad under Creative Commons Attribution 4.0 International (CC-BY-4.0).
Mer information om SAOL som datakälla: https://spraakbanken.gu.se/resurser/historiska-saol
Jag som gjort det här pythonpaketet har ingen koppling till SAOL, Språkbanken eller Göteborgs universitet.
Användning
Ordlistan exponeras som en enkel lista med ord, ordklass och böjningar. Ett exempel på användning:
from saol import all_upos_by_word, saol14
print(f"Ordlistan innehåller {len(saol14)} ord.")
print("Första ordet i listan:")
print(saol14[0])
print()
part_of_speech_by_word = all_upos_by_word(saol14)
for word in "en putslustig talgoxe äter sin finfördelade goja".split():
upos = part_of_speech_by_word.get(word, None)
if upos:
print(
f'"{word}" finns i ordlistan och är märkt med ordklass(er)'
f' {", ".join(upos)}.'
)
else:
print(f'"{word}" finns inte i ordlistan.')
Exemplet ger följande utskrift:
Ordlistan innehåller 126900 ord.
Första ordet i listan:
SaolEntry(word='a', upos='NOUN', conj='a:et; pl. a:n el. a, best. pl. a:na')
"en" finns i ordlistan och är märkt med ordklass(er) PRON, X, NOUN.
"putslustig" finns i ordlistan och är märkt med ordklass(er) ADJ.
"talgoxe" finns i ordlistan och är märkt med ordklass(er) NOUN.
"äter" finns inte i ordlistan.
"sin" finns i ordlistan och är märkt med ordklass(er) PRON, X, NOUN.
"finfördelade" finns inte i ordlistan.
"goja" finns i ordlistan och är märkt med ordklass(er) NOUN.
Notera att endast ord i grundform förekommer i listan: finfördela finns med, men inte finfördelad.
Likaså äta men inte äter.
Det finns också ett antal "ord" (2432 stycken) som består av flera ord, till exempel haka på, fylla i samt ruska av sig.
Framtida arbete
- Tillgänggliggör böjningar av ord. Här bör man kunna använda
conj-fältet (motsvarandeconji faksimilfilen) för att härleda hur andra former ser ut.
Om indataformatet
Här följer lite anteckningar kring indatan i faksimilfilen, som laddas ner från Språkbanken då paketet byggs.
- Ordklasser i
upos-fältet är taggade enligt Universal Dependencies. - Ordklasser i
ordkl-fältet är taggade på svenska, och ibland även med böjningssuffix i en<i></i>-tagg. normaliserat_ordär normalt det ord man vill använda, då det är rensat från betoningsmarkeringar och liknande.text-fältet verkar innehålla samma sak som böjningssuffixen iordkl-fältet.
[^1]: Svenska Akademien (2025). SAOL 14 (2015) - faksimil (uppdaterad: 2025-12-11). [Data set]. Språkbanken Text. https://doi.org/10.23695/fqh2-af42
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file saol-0.2.0.tar.gz.
File metadata
- Download URL: saol-0.2.0.tar.gz
- Upload date:
- Size: 3.3 MB
- Tags: Source
- Uploaded using Trusted Publishing? Yes
- Uploaded via: uv/0.11.21 {"installer":{"name":"uv","version":"0.11.21","subcommand":["publish"]},"python":null,"implementation":{"name":null,"version":null},"distro":{"name":"Ubuntu","version":"24.04","id":"noble","libc":null},"system":{"name":null,"release":null},"cpu":null,"openssl_version":null,"setuptools_version":null,"rustc_version":null,"ci":true}
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
62535af317a5ff6739e75756af3ad195a673b4254e8c9c16d11f2d501c25a2ea
|
|
| MD5 |
a9e45159b94fad4d909ca96fccf54bb4
|
|
| BLAKE2b-256 |
22909a5d8357ff6e030a431518bb040d77cb51d7807b1ab2d905d0b7ab074383
|
File details
Details for the file saol-0.2.0-py3-none-any.whl.
File metadata
- Download URL: saol-0.2.0-py3-none-any.whl
- Upload date:
- Size: 831.0 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? Yes
- Uploaded via: uv/0.11.21 {"installer":{"name":"uv","version":"0.11.21","subcommand":["publish"]},"python":null,"implementation":{"name":null,"version":null},"distro":{"name":"Ubuntu","version":"24.04","id":"noble","libc":null},"system":{"name":null,"release":null},"cpu":null,"openssl_version":null,"setuptools_version":null,"rustc_version":null,"ci":true}
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
b8fecc93bd69941e5896bb5ebf437c0dcdd4c11498b77af038ad2222920ae245
|
|
| MD5 |
d1268ebd146abbca7f825145238a78ee
|
|
| BLAKE2b-256 |
3b39535b090fe19bfe27f61ba8ebb01fe32cf478465193c3c3842f69e8a66347
|