04.07.2019 в 15:39

Python: Scrapy, Selenium, Beautiful Soup что лучше для парсинга веб сайтов

Самые популярные библиотеки, используемые веб-разработчиками в Python, это Beautiful soup, Scrapy и Selenium, но у каждой библиотеки есть свои плюсы и минусы. Ничто не идеально в этом мире. Чтобы объяснить различные аспекты каждой библиотеки и ее различия, прежде всего я хотел бы начать с реализации ядра каждого модуля и его рабочего механизма. после этого мы углубимся в различные различия каждого модуля. Давайте начнем наше объяснение с библиотеки Scrapy.

Scrapy

Scrapy - это платформа для совместной работы с открытым исходным кодом для извлечения данных с веб-сайтов. Его производительность невероятно высока, и это одна из самых мощных доступных библиотек. Одним из ключевых преимуществ scrapy является то, что он построен на основе Twisted, асинхронной сетевой структуры, что означает, что scrapy использует неблокирующий механизм при отправке запросов пользователям.

Асинхронные запросы следуют за неблокирующими вызовами ввода-вывода на сервер. Он имеет гораздо больше преимуществ, чем синхронные запросы.

Ключевые особенности Scrapy:

Scrapy имеет встроенную поддержку для извлечения данных из источников HTML с использованием выражений XPath и CSS.
Это кросплатформенная библиотека, т.е. (Написана на Python и работает на Linux, Windows, Mac и BSD)
Легко расширяема
Быстрее, чем другие существующие библиотеки. Он может извлекать сайты в 20 раз быстрее, чем другие инструменты.
Он потребляет намного меньше памяти и ресурсов процессора.
Может помочь нам создать надежное и гибкое приложение с множеством функций.
Он имеет хорошую поддержку сообщества для разработчиков, но документация не очень хороша для начинающих.

Beautiful soup

Когда дело доходит до Beautiful soup, это действительно красивый инструмент для веб-парсинга из-за его основных функций. Он может помочь программисту быстро извлечь данные из определенной веб-страницы. Эта библиотека поможет нам извлечь данные из файлов HTML и XML. Но проблема с Beautiful Soup в том, что он не может выполнить всю работу самостоятельно. эта библиотека требует определенных модулей для работы.

Зависимости Beautiful soup

Необходима библиотека для отправки запроса на веб-сайт, потому что сам Beautiful soup не может сделать запрос на конкретный сервер. Для преодоления этой проблемы требуется помощь одной из популярных библиотек Requests или urlib2. Эти библиотеки помогут нам сделать запрос к серверу.
После загрузки данных HTML или XML на наш локальный компьютер Beautiful Soup требуется внешний анализатор для анализа загруженных данных. Наиболее известные парсеры - это XML-parser lxml, HTML-parser lxml, HTML5lib, html.parser.

Преимущества Beautiful soup:

1. Он легок в обучении и его легко освоить. например, если мы хотим извлечь все ссылки с веб-страницы. Это можно просто сделать следующим образом

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

for link in soup.find_all('a'):
   print(link.get('href'))

В приведенном выше коде мы используем html.parser для анализа содержимого html_doc. это одна из самых веских причин для разработчиков использовать Beautiful soup в качестве инструмента для очистки веб-страниц.

2. Он имеет хорошую всеобъемлющую документацию, которая помогает нам быстро освоить библиотеку.

3. Он имеет хорошую поддержку сообщества, чтобы выяснить проблемы, возникающие при работе с этой библиотекой.

Selenium

Прежде всего, вы должны помнить, что Selenium предназначен для автоматизации тестирования веб-приложений. Он позволяет разработчику писать тесты на нескольких популярных языках программирования, таких как C#, Java, Python, Ruby и другие. Эта среда разработана для автоматизации браузера. Давайте посмотрим на пример кода, который автоматизирует браузер.

# Импорт необходимых модулей
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome()
driver.get("http://www.python.org")
assert "Python" in driver.title
elem = driver.find_element_by_name("q")
elem.send_keys("selenium")
elem.send_keys(Keys.RETURN)
assert "Google" in driver.title
driver.close()

Из приведенного выше кода мы можем заключить, что API очень удобен для начинающих, вы можете легко написать код с помощью Selenium. Вот почему он так популярен в сообществе разработчиков. Selenium в основном используется для автоматизации тестов для веб-приложений, он также может быть использован для разработки веб-пауков, многие люди делали это раньше.

Ключевой особенностью Selenium является

Он может легко работать с основными концепциями Javascript (DOM)
Он может легко обрабатывать запросы AJAX и PJAX.

Выбор подходящей библиотеки

Когда дело доходит до выбора конкретной библиотеки для выполнения операции очистки веб-страниц, мы должны учитывать различные ключевые факторы, потому что у каждой библиотеки есть свои плюсы и минусы, поэтому в этом разделе мы обсудим различные факторы, которые нам необходимо учитывать. Ключевые факторы, на которые мы должны обратить внимание:

Гибкость

Scrapy: Архитектура Scrapy хорошо спроектирована так, чтобы настраивать промежуточное ПО для добавления наших собственных функциональных возможностей. Эта особенность помогает нам сделать наш проект более надежным и гибким.

Одним из самых больших преимуществ Scrapy является то, что мы можем очень легко перенести наш существующий проект в другой проект. Поэтому для больших / сложных проектов Scrapy - лучший выбор для разработки.

Если вашему проекту нужны прокси, конвейер данных, то Scrapy будет лучшим выбором.

Beautiful Soup: Когда речь идет о небольшом проекте, или о низкоуровневом сложном проекте Beautiful Soup может выполнить задачу довольно хорошо. Это помогает нам поддерживать наш код простым и гибким.

Если вы новичок, и хотите быстро что-то освоить, хотите выполнить операции по поиску в Интернете, то Beautiful Soup - лучший выбор.

Selenium: когда вы имеете дело с Javascript на сайте, Selenium будет лучшим выбором. но размер данных должен быть ограничен.

Производительность

Scrapy: самый быстрый из всех.

Beautiful Soup: довольно медленно выполняет определенную задачу, но мы можем преодолеть эту проблему с помощью концепции многопоточности, но программисту необходимо знать концепцию многопоточности очень хорошо. Это обратная сторона Beautiful Soup.

Selenium: он может работать довольно быстро, но не эквивалентно Scrapy.

Экосистема

Scrapy: у него хорошая экосистема, мы можем использовать прокси и VPN для автоматизации задач. Это одна из причин выбора библиотеки для сложных проектов. мы можем отправлять несколько запросов с нескольких прокси-адресов.

BeautifulSoup: эта библиотека имеет много зависимостей в экосистеме. Это один из недостатков этой библиотеки для сложного проекта

Selenium: у него хорошая экосистема для развития, но проблема в том, что мы не можем использовать прокси "из коробки".

Из трех перечисленных выше общих факторов вы должны решить, какой из них будет критичным для вашего следующего проекта.

Заключение

Надеюсь, у вас есть четкое понимание Scrapy, Selenium и Beautiful Soup. Я подробно рассказал обо всем, что касается самых популярных веб-библиотек.

#Python

16186

Войти на сайт