Utilities for geocoding and preprocessing real estate data
Project description
Репозиторий data-processing
Репозиторий содержит функции геокодирования и предобработки исходных данных от BNMAP.
1. Структура репозитория
📦 s4b-data-processing
┣ 📂 geocoding
┃ ┣ 📂 core
┃ ┃ ┣ 📜 dubious_marker.py
┃ ┃ ┣ 📜 exceptions.py
┃ ┃ ┣ 📜 geocoder.py
┃ ┃ ┣ 📜 utils.py
┃ ┃ ┣ 📜 yandex_modified.py
┃ ┃ ┗ 📜 __init__.py
┃ ┣ 📂 scripts
┃ ┃ ┣ 📜 correct_dubious_geo.py
┃ ┃ ┣ 📜 geocode.py
┃ ┃ ┣ 📜 update_market_deals.py
┃ ┃ ┣ 📜 ya_api_keys.csv
┃ ┃ ┗ 📜 __init__.py
┃ ┗ 📜 __init__.py
┣ 📂 preprocessing
┃ ┣ 📜 preprocessing.py
┃ ┣ 📜 features.py
┃ ┣ 📜 utils.py
┃ ┗ 📜 __init__.py
┣ 📜 preprocessing_example.ipynb
┣ 📜 requirements.txt
┣ 📜 README.md
┗ 📜 __init__.py
2. Первичный сбор гео-координат домов в регионе
Необходимо наличие директории data с данными по регионам и со следующей структурой:
📂data
┣ 📂regions
┃ ┣ 📂ekb
┃ ┣ 📂msk
┃ ┃ ┣ 📂market_deals
┃ ┃ ┃ ┣ файл_со_сделками.parquet
┃ ┃ ┃ ┗ или файл_со_сделками.xlsx
┃ ┃ ┗ 📂project_declarations
┃ ┃ ┣ файл_с_проектными_декларациями.parquet
┃ ┃ ┗ или файл_с_проектными_декларациями.xlsx
┃ ┗ 📂nsk
┗ 📜__init__.py
Для запуска первичного сбора гео-координат запустите через консоль скрипт geocode.py:
python -m scripts.geocode
Вам могут понадобиться границы поиска гео-координат:
United MSK: 35.203810,54.167977~40.624199,56.982672
United NSK: 74.312415,57.654077~86.551184,52.812563
EKB: 60.326783, 56.985508~60.942358, 56.634953
Везде далее необходимо наличие директории data с данными по регионам и со следующей структурой:
📂data
┣ 📂preprocessing
┣ 📂regions
┃ ┣ 📂ekb
┃ ┣ 📂msk
┃ ┃ ┣ 📂geolocations
┃ ┃ ┃ ┣ 📜bbox.txt
┃ ┃ ┃ ┣ 📜coordinates.pkl
┃ ┃ ┃ ┗ 📜near_nspd.pkl
┃ ┃ ┣ 📂market_deals
┃ ┃ ┃ ┣ 📜сделки.parquet
┃ ┃ ┃ ┗ 📜сделки.xlsx
┃ ┃ ┗ 📂project_declarations
┃ ┃ ┣ 📜проектные декларации.parquet
┃ ┃ ┗ 📜проектные декларации.xlsx
┃ ┗ 📂nsk
┗ 📜__init__.py
Директория geolocations c необходимыми файлами будет создана после первичного сбора гео-координат.
3. Обновление гео-координат домов в регионе
Для запуска обновления гео-координат запустите через консоль скрипт geocode.py:
python -m scripts.geocode
4. Исправление сомнительных гео-координат домов в регионе
Чтобы исправить сомнительные гео-координаты запустите через консоль скрипт correct_dubious_geo.py:
python -m scripts.correct_dubious_geo
5. Слияние необработанных сделок с гео-координатами
Чтобы получить сделки с гео-коориднатами запустите через консоль скрипт update_market_deals.py:
python -m scripts.update_market_deals
6. Предобработка данных
Пример предобработки данных приведён в ноутбуке preprocessing_example.ipynb.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file s4b_data_processing-0.3.0.tar.gz.
File metadata
- Download URL: s4b_data_processing-0.3.0.tar.gz
- Upload date:
- Size: 24.5 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.10.17
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
034442acb40e30a5168bd0d1c4430e1bce522b08894700f91c2ca2da1d0047d7
|
|
| MD5 |
e703973c5756ea4344f9a4165461cbaf
|
|
| BLAKE2b-256 |
cc0169cc3d0e0c0955ad409aacc0f6cb3c956be156982896e1d6ff87bf3bc89d
|
File details
Details for the file s4b_data_processing-0.3.0-py3-none-any.whl.
File metadata
- Download URL: s4b_data_processing-0.3.0-py3-none-any.whl
- Upload date:
- Size: 29.4 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.10.17
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
f4a964d87213e339d4c20d0c7b3a6aa016a407416c78e688b59e7cc17679c97b
|
|
| MD5 |
2a3372580821c80e77ad286eb0269418
|
|
| BLAKE2b-256 |
38c86038ef4cfb5cde59f46aa53b8e866fdbccf2c79bb4f4272a94a93c63b4a5
|