Skip to main content

Library for city identity analysis from social media posts and comments

Project description

SLOYKA

Project Status: Active – The project has reached a stable, usable state and is being actively developed. Documentation Status PythonVersion Black Tests sloyka_community_chat

Open In Colab

Your Banner

SLOYKA - это библиотека, нацеленная на обогащение цифровых моделей городов данными, получаемыми из текстовых данных цифрового следа горожан, а также на моделирование вернакулярной оценки качества городской среды.

Основным ее элементом является конструируемый пространственно-семантический граф, пополняемый при помощи машинного распознавания городских сущностей и локаций.

SLOYKA включает в себя две группы методов: методы для генерации пространственно-семантического графа и методы для моделирования социальных процессов с его помощью.

Схематичное описание работы библиотеки:

scheme

Модуль генерации пространственного-семантического графа

Пространственно-семантический граф состоит из двух взаимосвязанных компонентов:

  • Пространственный граф, отображающий географическую близость различных именованных сущностей на территории города (улиц, организаций, парков, точек притяжения и др.)
  • Семантический граф, отображающий смысловую и фактологическую близость различных городских сущностей (природных явлений, объектов городской среды, городских пользователей).

Пространственный граф строится по следующему алгоритму:

  1. Пользователь подает на вход набор текстов и указание на территорию
  2. Из OSM загружается сеть УДС в виде графа и именованные сущности
  3. От именованных сущностей строится евклидово расстояние до ближайшего узла графа, оно пишется в новое ребро
  4. В текстах выявляются урбанонимы (городские названия). Процесс выполняется при помощи дообученной модели RuBert и набора эвристик для геокодирования без использования сторонних сервисов
  5. Сначала они геокодируются по адресной системе, потом по названиям объектов. Также учитываются варианты народных написаний
  6. Для событий в тексте определяется вероятность локализации. Она может быть увеличена при появлении новых текстов для тех же событий
  7. Процесс может выполняться периодично, в таком случае появляется возможность определения активных и латентных территорий

Семантический граф строится по следующему алгоритму:

  1. Пользователь подает на вход набор текстов и указание на территорию (Санкт-Петербург)
  2. Из текста извлекаются сущности, их контекст, добавляются в узлы
  3. Определяется семантическая близость сущностей, наиболее близкие объединяются
  4. Дополнительно выделяются опорные узлы-урбанонимы
  5. Формируются фактологические связи в виде ребер
  6. Сущности не удаляются из графа с течением времени, но имеют период активности. Повторное упоминание обновляет его

Модуль моделирования социальных процессов с помощью пространственного-семантического графа

  • В процессе разработки -

Предполагаемые сценарии использования методов:

  • Отслеживание социально значимых ситуаций
  • Прогнозирование динамики семантического графа
  • Нахождение городских сообществ
  • Определение идентичности мест
  • Определение вернакулярных районов
  • Определение точек притяжения

Особенности SLOYKA

  • Готовый к использованию инструмент для исследователей и аналитиков, работающих с неструктурированными социальными данными. Наша библиотека поможет извлечь факты из текстов, описывающих городские процессы и явления
  • Модульная структура библиотеки позволяет получать и использовать только необходимые части, например, если ваша единственная цель - обогащение модели города пространственными данными о дорожно-транспортных происшествиях
  • Эта библиотека может быть использована для моделирования и анализа социальных процессов в городе на основе текстовых данных, выявляя их смысловые и пространственные параметры

Структура проекта

Последняя стабильная версия библиотеки SLOYKA находится в master branch

Лицензия

Проект имеет лицензию MIT License.

Контакты

  • НЦКР - Национальный Центр Когнитивных Разработок;
  • ИДУ - Институт Дизайна и Урбанистики;
  • Если у вас есть вопросы или предложения, вы можете связаться с нами по следующему адресу: asantonov@itmo.ru (Александр Антонов).

Цитирование


Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

sloyka-0.0.1.tar.gz (23.7 MB view hashes)

Uploaded Source

Built Distribution

sloyka-0.0.1-py3-none-any.whl (24.1 MB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page