Библиотека для работы с файлами во время парсинга
Project description
Библиотека для работы с файлами во время парсинга
Во время парсинга часто приходится скачивать html-страницы, работать с json- и csv-файлами. Эта библиотека призвана облегчить написание кода для такого рода задач. Библиотека создавалась для удобства работы во время парсинга, но ничто не мешает использовать её просто для работы с json, csv и прогресс-барами.
В библиотеке есть три класса для отдельных работ: Pars для работы с запросами и bs4, JsonManager для работы с json и CsvManager для работы с csv. Так же есть один класс для улучшения пользовательского опыта — ProgressBarManager, который создаёт прогресс-бар
Установить библиотеку:
pip install ipars
Работа с Pars
Класс Pars не принимает никаких данных для конструкторов.
from ipars import Pars
p = Pars()
Коротко о методах:
-
Метод getStaticPage принимает url страницы, путь, по которому сохранится страница, метод записи и заголовки запроса. Метод записи «wb» используется для сохранения картинок, по умолчанию writeMethod установлен как «w», что используется для html-страниц. Если заголовки запросов не указаны, то будут использоваться встроенные, но при желании можно указать свои. Метод возвращает статус ответа сайта, что должно использоваться для введения проверок
-
Метод getDynamicPage с помощью библиотеки Selenium получает динамически обновляемую страницу. Это помогает, когда контент на странице подгружается динамически. Принимает url страницы, путь сохранения, closeWindow и timeSleep. По умолчанию браузер Selenium открывается в фоновом режиме, и работу браузера не видно, но если closeWindow указать как False, то будет виден процесс выполнения кода. С помощью timeSleep можно увеличить время загрузки страницы если контент на ней долго подгружается
-
Метод gpsa (get page semi-automatically) похож на метод getDynamicPage, но работает в полуавтоматическом режиме. Он открывает страницу сайта и ждёт пока не будет нажат Enter в терминале. В этот момент можно зарегистрироваться на сайте и/или перейти на нужную вкладку сайта, после чего нажать Enter и метод спарсит страницу. Подходит для лент соцсетей, где неавторизованным пользователям контент ограничен. Принисает такие же аргументы для таких же целей, что и getDynamicPage, за исключением closeWindow
-
Метод returnBs4Object возвращает объект beautifulsoup4. Принимает путь до html-страницы, содержимое которой преобразует в объект beautifulsoup, кодировку открытия файла (по умолчанию UTF-8) и тип парсера (по умолчанию lxml).
-
Метод getAttributes нужена чтобы получить список атрибутов из списка объектов bs4. Принимает список объектов bs4 и название атрибута который будет извлекаться из элементов списка
-
Метод getTexts нужена чтобы получить список текста из списка объектов bs4. Принимает список объектов bs4 и параметр needFix. Если этот параметр установлен как True, то из текста будут удалены \n, \t и пробелы с концов
-
Метод pprint используется для вывода значений переменных у которых большая вложеность. Например, если у Вас есть массив объектов, где в качестве значения ключа используется другой массив объектов
-
Метод mkdir используется для создания папки с именем nameDir если она ещё не существует
Пример парсера с использованием ipars:
# О классе ProgressBarManager читай ниже
from ipars import Pars, ProgressBarManager
p = Pars()
nameFile = 'index.html'
# Получаем html страницу
p.getDinamicPage(nameFile, 'https://duckduckgo.com/?q=теплица+социальных+технологий+youtube&iar=videos&atb=v454-1', closeWindow=0)
# Получаем объект BautifullSoup
soup = p.returnBs4Object(nameFile)
# Находим все карточки ответов
# Первые результаты выдачи те что хотелось получить, а остальные нет. Поэтому нам желательно получить первые 84 элемента
allCards = soup.find_all(class_='b_NgmZrVnRtV8MZMEjLs')[:84]
# Получаем все изображения
allImg = [card.find('img') for card in allCards]
# Получаем все ссылки
allSrc = p.getAttributes(allImg, 'src')
# Создаём папку img если её ещё нет
nameFolder = 'img'
p.mkdir(nameFolder)
# Создаём объект ProgressBarManager
bar = ProgressBarManager(len(allSrc))
# Скачиваем картинки
for index, url in enumerate(allSrc):
url = 'https:' + url
p.getStaticPage(f'./{nameFolder}/img{index}.png', url, writeMethod='wb')
bar.next()
bar.finish()
Пример использование методов getAttributes и getTexts
from ipars import Pars
p = Pars()
p.getStaticPage('./index.html', 'https://google.com')
soup = p.returnBs4Object('./index.html')
allTegA = soup.find_all('a')
a1 = p.getTexts(allTegA, needFix=1)
p.pprint(a1)
a2 = p.getAttributes(allTegA, 'href')
p.pprint(a2)
Работа с JsonManager
JsonManager принимает принимает только один аргумент — кодировку в которой будут читаться файлы. По умолчанию это UTF-8
from ipars import JsonManager
j = JsonManager()
Коротко о методах
-
Метод load используется для получения данных из json-файла по указанному пути
-
Метод dump используется для записи данных в json-файл. Принимает путь до файла и данные для записи
-
Метод pprint такой же как и у Pars
from ipars import JsonManager
j = JsonManager()
# Записываем данные
j.dump('./data.json', [1, 2, 3, 4, 5, 6, 7])
# Получаем данные
data = j.load('./data.json')
j.pprint(data) # [1, 2, 3, 4, 5, 6, 7]
Работа с CsvManager
Класс CsvManager принимает три аргумента: символ переноса на новую строку newline (по умолчанию — это пустая строка), кодировку открываемых файлов encoding (по умолчанию UTF-8) и разделитель который используется в csv файле delimiter (по умолчанию ";")
from ipars import CsvManager
c = CsvManager()
Коротко о методах
-
Метод writerow записывает строку с csv файл. Метод принимает путь до csv файла, метод записи и список данных которые будут записанн в строку файла
-
Метод writerows принимает теже самые аргументы что и writerow, только row должен быть двойным списком с данными для записи. Разница между этими методами в том что writerow записывает одну, а writerows столько сколько есть в двойном списке
-
Метод getRows используется для получения списка строк в csv файле. Метод принимает путь до файла откуда будут получены строки
-
Метод pprint такой же как и у Pars
from ipars import CsvManager
c = CsvManager()
# записываем заголовки
writer = c.writerow('./data.csv', 'w', ['Количество', 'Цена', 'Итог'])
# записываем данные
writer = c.writerows('./data.csv', 'a', [
["5", "5", "25"],
["6", "6", "36"],
["7", "7", "49"],
])
# получаем строки из таблицы
rows = c.getRows('./data.csv')
# выводим строки таблицы
c.pprint(rows)
Работа с ProgressBarManager
Класс создаёт прогресс-бар для лучшей видимости выполнения кода. Принимает пять аргументов:
-
max: обязательный параметр, который указывает максимальное значение итераций в прогресс-баре
-
message: сообщение перед прогресс-баром
-
color: цвет прогресс-бара
-
fill: заполнитель для сделанной части
-
width: размер прогресс-бара в символах
from ipars import ProgressBarManager
bar = ProgressBarManager(100) # Здесь max установлен как 100
Коротко о методах
-
Метод next запускает следущую итерацию прогресс-бара
-
Метод finish завершает работу прогресс-бара
# Импортируем библиотеки
from ipars import ProgressBarManager
from time import sleep
maxValue = 300
# Создаём прогресс-бар по умолчанию
bar = ProgressBarManager(maxValue)
# Имитируем работу
for _ in range(maxValue//2):
sleep(0.1)
bar.next()
# Выключаем прогресс-бар
bar.finish()
# Создаём более кастомизированный прогресс-бар
bar = ProgressBarManager(
maxValue,
message='Процесс скачивания',
color='red',
width=50
)
# Имитируем работу
for _ in range(maxValue):
sleep(0.1)
bar.next()
# Выключаем прогресс-бар
bar.finish()
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file ipars-3.5.0.tar.gz.
File metadata
- Download URL: ipars-3.5.0.tar.gz
- Upload date:
- Size: 12.1 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.11.4
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
4a35c8aac4fbcd61a584645be27bbdba40bf1c22e2f3f03772582703a6808627
|
|
| MD5 |
6ea31a8caded6603c7e0e3379bcb80eb
|
|
| BLAKE2b-256 |
233e976debc7be597e6c68369af2c1221b53f690cb754a8373879b643e675585
|
File details
Details for the file ipars-3.5.0-py3-none-any.whl.
File metadata
- Download URL: ipars-3.5.0-py3-none-any.whl
- Upload date:
- Size: 10.8 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.11.4
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
6e88d9230a3f845769b42adedcda29460057f675b1e22c53d62977f6a0cb52f8
|
|
| MD5 |
4e45529b11e818562098290e2be58a16
|
|
| BLAKE2b-256 |
5a04c59ad42c8a2b92b248284295f6777d0cf357226e18022ee91f63e621f4d6
|