Library for city identity analysis from social media posts and comments
Project description
SLOYKA
SLOYKA - это библиотека, нацеленная на обогащение цифровых моделей городов данными, получаемыми из текстовых данных цифрового следа горожан, а также на моделирование вернакулярной оценки качества городской среды.
Основным ее элементом является конструируемый пространственно-семантический граф, пополняемый при помощи машинного распознавания городских сущностей и локаций.
SLOYKA включает в себя две группы методов: методы для генерации пространственно-семантического графа и методы для моделирования социальных процессов с его помощью.
Схематичное описание работы библиотеки:
Модуль генерации пространственного-семантического графа
Пространственно-семантический граф состоит из двух взаимосвязанных компонентов:
- Пространственный граф, отображающий географическую близость различных именованных сущностей на территории города (улиц, организаций, парков, точек притяжения и др.)
- Семантический граф, отображающий смысловую и фактологическую близость различных городских сущностей (природных явлений, объектов городской среды, городских пользователей).
Пространственный граф строится по следующему алгоритму:
- Пользователь подает на вход набор текстов и указание на территорию
- Из OSM загружается сеть УДС в виде графа и именованные сущности
- От именованных сущностей строится евклидово расстояние до ближайшего узла графа, оно пишется в новое ребро
- В текстах выявляются урбанонимы (городские названия). Процесс выполняется при помощи дообученной модели RuBert и набора эвристик для геокодирования без использования сторонних сервисов
- Сначала они геокодируются по адресной системе, потом по названиям объектов
Семантический граф строится по следующему алгоритму:
- Пользователь подает на вход набор текстов
- Извлекаются урбанонимы, и далее тексты группируются по ним.
- Из текстов по каждому урбанониму извлекаются ключевые сущности: явления, акторы, действия, объекты городской среды.
- На основе опорных узлов-урбанонимов и соответствующих ключевых сущностей формируется семантический граф.
- Определяется семантическая близость сущностей, между наиболее близкими формируются дополнительные ребра.
Модуль моделирования социальных процессов с помощью пространственного-семантического графа
- В процессе разработки -
Предполагаемые сценарии использования методов:
- Отслеживание социально значимых ситуаций
- Прогнозирование динамики семантического графа
- Нахождение городских сообществ
- Определение идентичности мест
- Определение вернакулярных районов
- Определение точек притяжения
Особенности SLOYKA
- Готовый к использованию инструмент для исследователей и аналитиков, работающих с неструктурированными социальными данными. Наша библиотека поможет извлечь факты из текстов, описывающих городские процессы и явления
- Модульная структура библиотеки позволяет получать и использовать только необходимые части, например, если ваша единственная цель - обогащение модели города пространственными данными о дорожно-транспортных происшествиях
- Эта библиотека может быть использована для моделирования и анализа социальных процессов в городе на основе текстовых данных, выявляя их смысловые и пространственные параметры
Структура проекта
Последняя стабильная версия библиотеки SLOYKA находится в master branch
Лицензия
Проект имеет лицензию MIT License.
Контакты
- НЦКР - Национальный Центр Когнитивных Разработок;
- ИДУ - Институт Дизайна и Урбанистики;
- Если у вас есть вопросы или предложения, вы можете связаться с нами по следующему адресу: asantonov@itmo.ru (Александр Антонов).
Цитирование
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.