Для парсинга веб-страницы с помощью BeautifulSoup и Python, вам понадобится библиотека requests для получения HTML-кода страницы и BeautifulSoup из пакета bs4 для анализа и извлечения данных. Вот пример кода, который показывает, как можно извлечь оглавление со страницы Википедии о Python:
import requests
from bs4 import BeautifulSoup
Сначала отправим GET-запрос к указанному URL, чтобы получить HTML-контент.
url = 'https://ru.wikipedia.org/wiki/Python'
response = requests.get(url)
Затем используем BeautifulSoup для парсинга полученного HTML-кода.
soup = BeautifulSoup(response.text, 'html.parser')
Оглавление на странице Википедии обычно находится в элементах с классом toc
, и каждый пункт оглавления заключен в теги <li>
.
toc = soup.find(class_='toc')
items = toc.find_all('li')
Для каждого элемента в items
извлечем текст, который представляет собой пункты оглавления.
for item in items:
print(item.get_text())
Этот код найдет и распечатает оглавление указанной страницы Википедии. Обратите внимание, что структура веб-страниц может изменяться, поэтому этот код может потребовать обновления в будущем для соответствия актуальной структуре сайта.
Содержание: