Конспектирование книги "Скрапинг сайтов на Python"
Документация BeuatifulSoup — www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all
Минимальный набор кода для работы с BS4:
Глава 1. Резюме.
Минимальный набор кода для работы с BS4:
from urllib.request import urlopen # импортируем функцию для получения html - кода
from bs4 import BeautifulSoup # импортируем BeautifulSoup
#открываем адрес и получаем html
html = urlopen("http://solovievspb.biznlife.ru/?utm_source=vktarget21-35&utm_medium=test_zagolovkov&utm_campaign=ob4")
# преобразуем Hmtl код в объект BeautifulSoup (с помощью этого объекта мы можем получать информацию)
bsObj = BeautifulSoup(html)
# с помощью объекта BeautifulSoup и функции findAll() получаем все тэги <p> в виде списка
Plist = bsObj.findAll("p")
# проходим по каждому члену списка, функция get_text() отделяет тэги от контента тэгов и возвращает этот контент
for p in Plist:
print(p.get_text())
Глава 1. Резюме.
0 комментариев