Ukrainian address parser
Project description
Описание
Разборка украинского адреса на типы
Read this in other language: English, Русский, Український
Требования
- python3
- spacy
- re
- pandas
- xlrd
- csv
- os
- signal
- threading
Создание модели
python3 train.py
Обучить модель
python3 -m spacy train config/config.cfg --paths.train training/train.spacy --paths.dev training/test.spacy --output models
Обучить более точнее модель
python3 -m spacy train config/config_acc.cfg --paths.train training/train.spacy --paths.dev training/test.spacy --output models
Проверка модели
python3 example.py
Создать файл описания модели
python3 -m spacy init fill-config config/base_config.cfg config/config.cfg
Создать файл описания более точной модели
python3 -m spacy init fill-config config/base_config_acc.cfg config/config_acc.cfg
Примеры
import uaddresspacy
print(uaddresspacy.parse(", - полтавська чутівський жовтневе вул. -, буд. -, кв.,"))
# [('полтавська', 'Locality'), ('чутівський', 'CountyType'), ('жовтневе', 'Locality'), ('вул.', 'StreetType'), ('буд.', 'HouseNumberType'), ('кв.', 'ApartmentType')]
print(uaddresspacy.parse(", 01000 київ, місто київ, місто київ воровського, буд. 43-б, кв. 14,"))
# [('01000', 'PostCode'), ('київ', 'Region'), ('місто', 'LocalityType'), ('київ', 'Locality'), ('воровського', 'Street'), ('буд.', 'HouseNumberType'), ('43-б', 'HouseNumber'), ('кв.', 'ApartmentType'), ('14', 'Apartment')]
Структура
| Файл | Описание |
|---|---|
| pretrain.py | Подготовка данных для обучения модели |
| train.py | Подготовка модели |
| example.py | Получить пример разборки адреса на типы |
| raw.csv | Данные для обучения |
| report.csv | Пример результата обработки на типы |
| addresses.csv | Список адресов для проверки |
| training/pretrain.csv | Данные для обучения модели |
Типы
| Название | Описание |
|---|---|
| Country | Страна |
| RegionType | Тип области |
| Region | Область |
| CountyType | Тип района |
| County | Район |
| Included | Входит в состав |
| LocalityType | Тип населённого пункта |
| Locality | Населённый пункт |
| StreetType | Тип улицы |
| Street | Улица |
| HousingType | Тип корпуса |
| Housing | Корпус |
| HostelType | Тип общежития |
| Hostel | Общежитие |
| HouseNumberType | Тип номера дома |
| HouseNumber | Номер дома |
| HouseNumberAdditionally | Дополнительный номер дома |
| SectionType | Тип секции |
| Section | Секция |
| ApartmentType | Тип квартиры |
| Apartment | Квартира |
| RoomType | Тип комнаты |
| Room | Комната |
| Sector | Сектор |
| FloorType | Тип этажа |
| Floor | Этаж |
| PostCode | Индекс |
| Manually | Набор типов для дальнейшей разборки адреса |
| NotAddress | Не адрес |
| Comment | Комментарий |
| AdditionalData | Дополнительные данные |
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
uaddresspacy-1.0.0.tar.gz
(3.4 kB
view details)
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
uaddresspacy-1.0.0-py3.8.egg
(3.8 kB
view details)
File details
Details for the file uaddresspacy-1.0.0.tar.gz.
File metadata
- Download URL: uaddresspacy-1.0.0.tar.gz
- Upload date:
- Size: 3.4 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.1.1 pkginfo/1.4.2 requests/2.25.1 setuptools/60.2.0 requests-toolbelt/0.8.0 tqdm/4.62.3 CPython/3.8.10
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
2561acf2ff5c5dd5b595efe47d9274bccd7071c000880529b57fdd9c9dce57f6
|
|
| MD5 |
7fa70c8f767a79614191e45a9b88877c
|
|
| BLAKE2b-256 |
50e98ace6abceec3caf915ed5b0d7b1174d48733351fb06755ac45119468c07e
|
File details
Details for the file uaddresspacy-1.0.0-py3.8.egg.
File metadata
- Download URL: uaddresspacy-1.0.0-py3.8.egg
- Upload date:
- Size: 3.8 kB
- Tags: Egg
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.1.1 pkginfo/1.4.2 requests/2.25.1 setuptools/60.2.0 requests-toolbelt/0.8.0 tqdm/4.62.3 CPython/3.8.10
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
2091153a550d94b924e9ea11ee4ef279354e18d8d339d9e3896a9f7fdd753196
|
|
| MD5 |
f28b3bd1bf054ff1e794ac1a04203425
|
|
| BLAKE2b-256 |
5a62d560c43e196f8d7cbc07d908bef2b8f1e82eed6a4c396065bb187ec71a2c
|