Skip to main content

Utilities for geocoding and preprocessing real estate data

Project description

Репозиторий data-processing

Репозиторий содержит функции геокодирования и предобработки исходных данных от BNMAP.

1. Структура репозитория

📦 s4b-data-processing
 ┣ 📂 geocoding
 ┃ ┣ 📂 core
 ┃ ┃ ┣ 📜 dubious_marker.py
 ┃ ┃ ┣ 📜 exceptions.py
 ┃ ┃ ┣ 📜 geocoder.py
 ┃ ┃ ┣ 📜 utils.py
 ┃ ┃ ┣ 📜 yandex_modified.py
 ┃ ┃ ┗ 📜 __init__.py
 ┃ ┣ 📂 scripts
 ┃ ┃ ┣ 📜 correct_dubious_geo.py
 ┃ ┃ ┣ 📜 geocode.py
 ┃ ┃ ┣ 📜 update_market_deals.py
 ┃ ┃ ┣ 📜 ya_api_keys.csv
 ┃ ┃ ┗ 📜 __init__.py
 ┃ ┗ 📜 __init__.py
 ┣ 📂 preprocessing
 ┃ ┣ 📜 preprocessing.py
 ┃ ┣ 📜 features.py
 ┃ ┣ 📜 utils.py
 ┃ ┗ 📜 __init__.py
 ┣ 📜 preprocessing_example.ipynb
 ┣ 📜 requirements.txt
 ┣ 📜 README.md
 ┗ 📜 __init__.py

2. Первичный сбор гео-координат домов в регионе

Необходимо наличие директории data с данными по регионам и со следующей структурой:

📂data
 ┣ 📂regions
 ┃ ┣ 📂ekb
 ┃ ┣ 📂msk
 ┃ ┃ ┣ 📂market_deals
 ┃ ┃ ┃ ┣ файл_со_сделками.parquet
 ┃ ┃ ┃ ┗ или файл_со_сделками.xlsx
 ┃ ┃ ┗ 📂project_declarations
 ┃ ┃   ┣ файл_с_проектными_декларациями.parquet
 ┃ ┃   ┗ или файл_с_проектными_декларациями.xlsx
 ┃ ┗ 📂nsk
 ┗ 📜__init__.py

Для запуска первичного сбора гео-координат запустите через консоль скрипт geocode.py:

python -m scripts.geocode

Вам могут понадобиться границы поиска гео-координат:

United MSK: 35.203810,54.167977~40.624199,56.982672
United NSK: 74.312415,57.654077~86.551184,52.812563
EKB: 60.326783, 56.985508~60.942358, 56.634953

Везде далее необходимо наличие директории data с данными по регионам и со следующей структурой:

📂data
 ┣ 📂preprocessing
 ┣ 📂regions
 ┃ ┣ 📂ekb
 ┃ ┣ 📂msk
 ┃ ┃ ┣ 📂geolocations  
 ┃ ┃ ┃ ┣ 📜bbox.txt
 ┃ ┃ ┃ ┣ 📜coordinates.pkl 
 ┃ ┃ ┃ ┗ 📜near_nspd.pkl   
 ┃ ┃ ┣ 📂market_deals
 ┃ ┃ ┃ ┣ 📜сделки.parquet
 ┃ ┃ ┃ ┗ 📜сделки.xlsx
 ┃ ┃ ┗ 📂project_declarations
 ┃ ┃   ┣ 📜проектные декларации.parquet
 ┃ ┃   ┗ 📜проектные декларации.xlsx
 ┃ ┗ 📂nsk
 ┗ 📜__init__.py

Директория geolocations c необходимыми файлами будет создана после первичного сбора гео-координат.

3. Обновление гео-координат домов в регионе

Для запуска обновления гео-координат запустите через консоль скрипт geocode.py:

python -m scripts.geocode

4. Исправление сомнительных гео-координат домов в регионе

Чтобы исправить сомнительные гео-координаты запустите через консоль скрипт correct_dubious_geo.py:

python -m scripts.correct_dubious_geo

5. Слияние необработанных сделок с гео-координатами

Чтобы получить сделки с гео-коориднатами запустите через консоль скрипт update_market_deals.py:

python -m scripts.update_market_deals

6. Предобработка данных

Пример предобработки данных приведён в ноутбуке preprocessing_example.ipynb.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

s4b_data_processing-0.3.0.tar.gz (24.5 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

s4b_data_processing-0.3.0-py3-none-any.whl (29.4 kB view details)

Uploaded Python 3

File details

Details for the file s4b_data_processing-0.3.0.tar.gz.

File metadata

  • Download URL: s4b_data_processing-0.3.0.tar.gz
  • Upload date:
  • Size: 24.5 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.10.17

File hashes

Hashes for s4b_data_processing-0.3.0.tar.gz
Algorithm Hash digest
SHA256 034442acb40e30a5168bd0d1c4430e1bce522b08894700f91c2ca2da1d0047d7
MD5 e703973c5756ea4344f9a4165461cbaf
BLAKE2b-256 cc0169cc3d0e0c0955ad409aacc0f6cb3c956be156982896e1d6ff87bf3bc89d

See more details on using hashes here.

File details

Details for the file s4b_data_processing-0.3.0-py3-none-any.whl.

File metadata

File hashes

Hashes for s4b_data_processing-0.3.0-py3-none-any.whl
Algorithm Hash digest
SHA256 f4a964d87213e339d4c20d0c7b3a6aa016a407416c78e688b59e7cc17679c97b
MD5 2a3372580821c80e77ad286eb0269418
BLAKE2b-256 38c86038ef4cfb5cde59f46aa53b8e866fdbccf2c79bb4f4272a94a93c63b4a5

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page