парсинг Википедии с BeautifulSoup в Python

Практический пример парсинга Википедии с BeautifulSoup в Python

Для парсинга веб-страницы с помощью BeautifulSoup и Python, вам понадобится библиотека requests для получения HTML-кода страницы и BeautifulSoup из пакета bs4 для анализа и извлечения данных. Вот пример кода, который показывает, как можно извлечь оглавление со страницы Википедии о Python:

Импорт необходимых библиотек

import requests
from bs4 import BeautifulSoup

Запрос к странице

Сначала отправим GET-запрос к указанному URL, чтобы получить HTML-контент.

url = 'https://ru.wikipedia.org/wiki/Python'
response = requests.get(url)

Парсинг HTML с помощью BeautifulSoup

Затем используем BeautifulSoup для парсинга полученного HTML-кода.

soup = BeautifulSoup(response.text, 'html.parser')

Извлечение оглавления

Оглавление на странице Википедии обычно находится в элементах с классом toc, и каждый пункт оглавления заключен в теги <li>.

toc = soup.find(class_='toc')
items = toc.find_all('li')

Вывод оглавления

Для каждого элемента в items извлечем текст, который представляет собой пункты оглавления.

for item in items:
    print(item.get_text())

Этот код найдет и распечатает оглавление указанной страницы Википедии. Обратите внимание, что структура веб-страниц может изменяться, поэтому этот код может потребовать обновления в будущем для соответствия актуальной структуре сайта.

Подпишись на наш telegram-канал FullStacker и получай свежие статьи, мануалы и шпаргалки по Python первым

Содержание:

Читайте в Telegram