26 Apr 15:43 avatar

Конспектирование книги "Скрапинг сайтов на Python"

Документация BeuatifulSoup — www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all

Минимальный набор кода для работы с BS4:
from urllib.request import urlopen # импортируем функцию для получения html - кода
from bs4 import BeautifulSoup # импортируем BeautifulSoup 

#открываем адрес и получаем html
html = urlopen("http://solovievspb.biznlife.ru/?utm_source=vktarget21-35&utm_medium=test_zagolovkov&utm_campaign=ob4")

# преобразуем Hmtl код в объект BeautifulSoup (с помощью этого объекта мы можем получать информацию)
bsObj = BeautifulSoup(html)

# с помощью объекта BeautifulSoup и функции findAll() получаем все тэги <p> в виде списка
Plist = bsObj.findAll("p")

# проходим по каждому члену списка, функция get_text() отделяет тэги от контента тэгов и возвращает этот контент
for p in Plist:
    print(p.get_text())


Глава 1. Резюме.

0 комментариев

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.