search for addresses in the text
Project description
address_templeter
Библиотека предназначена для поиска, смысловому разделению и чистки адресных строк.
Пример использования
- Метод parse возвращает массив с метками для каждого токена:
<<< address_templeter.parse("г. Судак Солнечная 9 а")
>>> [('г', 'PlacePretext'), ('Судак', 'Place'), ('Солнечная', 'Street'), ('9', 'HouseNumber'), ('а', 'HouseNumber')]
-
Метод clean возвращает строку без знаков препинания и лишних пробелов. Параметр prefix указывает возвращать ли значения не являющиеся наименованиями. Параметры: name_building указывает возвращать ли наименование объекта (если оно имеется):
-
address:str - строка с адрессом
-
prefix:bool - возвращать типы объектов, например город, село, улица и тд.. По умолчанию False;
-
house:bool - возвращать номер дома (например 21-Б), наименования объекта, и его префикс (магазин, парк, прочее). По умолчанию False;
-
index:bool - возвращать почтовый индекс. По умолчанию False.
<<< address_templeter.clean("Ясниноватский район, возле белого магазина, Донецкая область, улица Садовая, 26а", prefix=False, house=True)
>>> Ясниноватский Садовая 26а
Установка
pip install address-templeter
Формирования дата сета и обучение
По умолчанию, библиотека уже содержит модель для использования необходимых методов.
Для формирования своей уникальной модели, необходимо:
- Сформировать xml файл для обучения можно выполнив checked_to_xml.ipynb (необходим jupyter notebook).
- Выполнить следующие команды для создания файла модели:
cd /path/to/Address_Templeter
pip install parserator
parserator train /training/dataset.xml address_templeter
# По окончание обучения получится файл можели learned_settings.crfsuite
- Переустановить библиотеку address_templeter
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.