Парсер данных NSPD.GOV.RU/ЕГРН для работы с кадастровыми номерами
Project description
EGRN Data Parser
Этот скрипт предназначен для парсинга данных ЕГРН по кадастровым номерам. На вход подается JSON-файл, содержащий список кадастровых номеров, а на выходе можно получить данные в формате XLSX или JSON.
Требования
- Python 3.6+
- Selenium
pip install selenium
- OpenPyXL
pip install openpyxl
- ChromeDriver для Google Chrome
Убедитесь, что версия ChromeDriver соответствует установленной версии браузера и он находится в PATH.
Структура файлов
bot.py: Содержит функциюnspd_bot, которая открывает сайт, осуществляет необходимые действия и возвращает текстовое содержимое страницы.config.py: Файл конфигурации, содержащий, например, переменнуюfields— список ключевых полей для парсинга.script.py: Основной скрипт, который осуществляет чтение входных данных, обработку и сохранение результатов.
Формат входного файла
Входной файл должен быть в формате JSON и содержать список кадастровых номеров. Пример файла cad_numbers.json:
[
"31:05:1901001:831",
"31:05:1901001:832",
"31:05:1901001:978",
"31:05:1901001:982",
"31:05:1901001:985"
]
Аргументы командной строки
input_file: Путь к входному файлу JSON с кадастровыми номерами.-o, --output: Путь к выходному файлу (по умолчанию:земельный_участок.xlsx).-f, --format: Выходной формат данных. Допустимые значения:xlsx– сохранение в Excel (по умолчанию)json– сохранение в JSON
Примеры использования
Сохранение в Excel:
python script.py cad_numbers.json -o result.xlsx -f xlsx
Сохранение в JSON:
python script.py cad_numbers.json -o result.json -f json
Как работает скрипт
- Чтение входного файла: Скрипт считывает список кадастровых номеров из указанного JSON-файла.
- Обработка данных: Для каждого кадастрового номера:
- Инициализируется Selenium WebDriver
- Вызывается функция
nspd_bot, которая взаимодействует с сайтом и возвращает текстовую информацию - Полученный текст парсится функцией
parse_egrn_data, которая извлекает необходимые поля
- Сохранение результатов: Собранные данные сохраняются в указанный файл в формате XLSX или JSON.
Примечания
- Для работы в headless-режиме можно модифицировать инициализацию драйвера в скрипте, добавив соответствующие опции.
- Убедитесь, что все зависимости установлены, а ChromeDriver настроен корректно.
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file nspd_parser-0.1.0.tar.gz.
File metadata
- Download URL: nspd_parser-0.1.0.tar.gz
- Upload date:
- Size: 4.9 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.11.0
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
8030272be4dd025235a579168e9faa0635ce1ab3d5a87ed0a5221e0d64a20337
|
|
| MD5 |
c01a45c16dba24f92c3a4e4f68244d28
|
|
| BLAKE2b-256 |
04ca58931674db6d98a417b4d7423abcf0da40b79a03c6c28a6ea0971fb8e4df
|
File details
Details for the file nspd_parser-0.1.0-py3-none-any.whl.
File metadata
- Download URL: nspd_parser-0.1.0-py3-none-any.whl
- Upload date:
- Size: 5.8 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.11.0
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
96d4354bbb5267f1fee40414c88cb31f0169c2fd1c8cf0c1fb8409d80ee9f6d9
|
|
| MD5 |
2d887813256b84d6d8c83c8486358d3e
|
|
| BLAKE2b-256 |
69d1e4674b7600154d32c06c07970a3d96ec9c72fbcb52218da24510c231f3d4
|