No project description provided
Project description
address_templeter
Библиотека предназначена для поиска, смысловому разделению и чистки адресных строк.
Пример использования
- Метод parse возвращает массив с метками для каждого токена:
<<< address_templeter.parse("г. Судак Солнечная 9 а")
>>> [('г', 'PlacePretext'), ('Судак', 'Place'), ('Солнечная', 'Street'), ('9', 'HouseNumber'), ('а', 'HouseNumber')]
- Метод clean возвращает строку без знаков препинания и лишних пробелов. Параметр prefix указывает возвращать ли значения не являющиеся наименованиями:
<<< address_templeter.clean("Ясниноватский район, возле белого магазина, Донецкая область, улица Садовая, 26а", prefix=False)
>>> Ясниноватский Садовая 26а
Установка
git clone http://git.tocan.com.ua:10001/Saylermb/addresstempleter.git
pip install .
Формирования дата сета и обучение
По умолчанию, библиотека уже содержит модель для использования необходимых методов.
Для формирования своей уникальной модели, необходимо:
- Сформировать xml файл для обучения можно выполнив checked_to_xml.ipynb (необходим jupyter notebook).
- Выполнить следующие команды для создания файла модели:
cd /path/to/Address_Templeter
parserator train /training/dataset.xml address_templeter
# По окончание обучения получится файл можели learned_settings.crfsuite
- Переустановить библиотеку address_templeter
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
address_templeter-1.4.tar.gz
(20.4 kB
view hashes)