Модуль Wikipedia в Python: Подробное руководство
Добро пожаловать в новое руководство, здесь мы узнаем о модуле Wikipedia в Python. Мы увидим, как можно осуществлять поиск данных с помощью API Википедии. Скраппинг данных - это автоматизированное извлечение информации с веб-сайтов или других источников в интернете. Давайте посмотрим, как мы можем использовать самый информативный сайт в интернете, то есть Википедию, в наших Python-приложениях.
Знакомство с модулем Википедии в Python
Википедия - это большая онлайн-энциклопедия, в которой люди могут совместно писать и редактировать статьи на разные темы. Это широко используемый справочный сайт, доступный на нескольких языках. Wikipedia API - это инструмент на языке Python, который позволяет легко работать с Википедией с помощью кода. Он помогает находить статьи, получать содержание и краткое описание, а также различные сведения о статьях Википедии. Этот инструмент позволяет включать информацию из Википедии в ваши программы на Python для различных целей. Давайте узнаем о его установке и импорте.
Установка
Чтобы получить данные из Википедии, начните с установки библиотеки Wikipedia. Она содержит официальный API Википедии. Для установки используйте приведенную ниже команду в командной строке или терминале:
pip install wikipedia
После установки мы можем использовать Wikipedia API в Python для сбора информации из Википедии. Чтобы получить доступ к методам модуля Wikipedia, просто импортируйте его с помощью следующей команды:
import wikipedia
Начало работы с модулем Wikipedia
Теперь давайте рассмотрим различные варианты использования этого модуля Википедии.
Получение сводки статей Википедии
Сейчас мы рассмотрим, как использовать модуль Wikipedia в Python. Начнем с основ. Мы можем использовать метод summary()
для извлечения краткого содержания статьи Википедии на Python. Мы указываем название статьи в качестве параметра этого метода, и он возвращает заданное количество предложений для данного названия. Чтобы ограничить объем хранимых данных, вы можете включить в качестве параметра нужное количество предложений, как показано в следующем коде.
Пример:
import wikipedia
Title = "A. P. J. Abdul Kalam"
# Extract the summary with a specified number of sentences
Summary = wikipedia.summary(Title, sentences=5)
print("According to wikipedia : ")
print(Summary)
Выходные данные:
Краткое изложение для статьи с заданным названием будет напечатано в указанном количестве предложений, например, 5.
Однако очень важно отметить, что указанное название должно точно совпадать с названием страницы Википедии. В противном случае будет выдана ошибка распознавания, означающая, что страница не существует. Например, если заголовок был:
Title = "Dr APJ Abdul Kalam"
В результате будет выдана ошибка распознавания и указано, что данное название не соответствует ни одной странице.
Если существует много разных статей с разными значениями одного и того же слова в заголовке, например, "com", где страница не имеет однозначного толкования, будет показана ошибка в определении.
Title = "com"
Многие результаты соответствуют заголовку "com". Предположим, мы хотим получить сводку "Центр массы", тогда нам нужно указать его в заголовке, чтобы получить точные результаты, например:
Title = "Center of mass"
Теперь, при более конкретном запросе, в результатах отображается точная сводка.
Настройка языка страницы
Функция set_lang
в модуле Python Wikipedia используется для выбора языка для будущих запросов. Вы можете указать язык издания Википедии, из которого хотите получить информацию.
Пример:
import wikipedia
# Set the language to Hindi
wikipedia.set_lang("hi")
Summary = wikipedia.summary("Tiger")
print("According to wikipedia : ")
print(Summary)
Выходные данные:
В этом примере использование wikipedia.set_lang("hi")
устанавливает язык на хинди. После этого любые запросы к модулю Wikipedia будут получать информацию из издания на хинди. Функция сводки затем используется для получения краткого описания страницы Википедии на хинди под названием "Тигр".
Получение данных о странице Википедии
Мы используем функцию page
для получения всей страницы Википедии, задавая в качестве параметра заголовок страницы. Чтобы извлечь конкретную информацию из объекта страницы, мы указываем необходимые детали. Функция page
позволяет нам извлекать содержимое, категории, координаты, изображения, ссылки и другие метаданные со страницы Википедии. Давайте рассмотрим использование каждого объекта страницы по очереди.
1) .content
Когда мы используем функцию page
, мы получаем основное содержимое страницы Википедии с помощью атрибута .content
. Помните, что это содержимое может включать не только основной текст, но и разделы, ссылки и другую информацию со страницы.
Пример:
import wikipedia
Title = "William Shakespeare"
Content = wikipedia.page(Title).content
print("According to wikipedia : ")
print(Content)
Выходные данные:
2) .url
Если вы хотите получить URL-адрес данной страницы, вы можете использовать атрибут .url
, чтобы получить и отобразить его.
Пример:
import wikipedia
Title = "Walt Disney World"
URL = wikipedia.page(Title).url
print("According to wikipedia : ")
print(URL)
Выходные данные:
3) .references
Когда мы используем функцию страницы, применение атрибута .references
предназначено для получения ссылок или цитат со страницы Википедии.
Пример:
import wikipedia
Title = "International Women's Day"
References = wikipedia.page(Title).references
print("According to wikipedia : ")
print(References)
Выходные данные:
В этом примере у вас есть список URL-адресов или идентификаторов, представляющих ссылки или цитаты со страницы Википедии для "Международного женского дня". Эта информация пригодится вам, если вы захотите проанализировать или отобразить источники, использованные при создании содержимого страницы Википедии.
4) .links
Атрибут .links
используется для получения списка ссылок, присутствующих на странице Википедии.
Пример:
import wikipedia
Title = "Santorini"
Connected_links = wikipedia.page(Title).links
print("According to wikipedia : ")
print(Connected_links)
Выходные данные:
В этом примере использование wikipedia.page(Title).links
дает вам список ссылок со страницы Википедии, посвященной "Санторини". Каждый элемент в списке представляет собой ссылку, найденную на странице. Эта информация пригодится вам, если вы захотите извлечь и проанализировать ссылки внутри страницы Википедии или изучить связанные с ней темы. Обратите внимание, что список может включать различные типы ссылок, например внутренние ссылки на другие страницы Википедии, внешние ссылки и референсы.
5) .categories
Атрибут .categories
используется для получения списка категорий, к которым принадлежит страница Википедии.
Пример:
import wikipedia
Title = "Hill Forts of Rajasthan"
Belonged_categories = wikipedia.page(Title).categories
print("According to wikipedia : ")
print(Belonged_categories)
Выходные данные:
В этом примере использование wikipedia.page(Title).categories
дает вам список категорий, связанных со страницей Википедии "Холмы-форты Раджастана". Каждый элемент в списке представляет категорию, к которой относится страница. Это полезно, если вы хотите распределить страницы Википедии по категориям в зависимости от их тематики. Помните, что список категорий отражает то, как сообщество Википедии организовало и пометило содержимое страницы.
Получение случайной страницы Википедии
Метод random
в модуле Python Wikipedia используется для получения случайной страницы Википедии. Когда вы используете wikipedia.random()
, он выдает вам заголовок случайно выбранной страницы Википедии, позволяя вам исследовать различные темы.
Пример:
import wikipedia
Random = wikipedia.random()
Title = wikipedia.page(Random).title
Summary = wikipedia.summary(Random)
print("According to wikipedia : ")
print(Title)
print(Summary)
Код случайным образом выбирает название страницы Википедии с помощью модуля wikipedia
, извлекает название и краткое содержание соответствующей страницы Википедии и выводит эту информацию на консоль. Это обеспечивает быстрый способ изучения различных тем из Википедии.
Выходные данные:
Приведенный выше результат показывает, что программа случайным образом выбрала тему "Stielgranate 41" и отобразила краткое содержание по ней.
Получение списка названий
Метод search
в модуле Wikipedia в Python используется для поиска в Википедии и получения списка заголовков, соответствующих запросу. Он помогает найти страницы Википедии, относящиеся к определенной теме.
Пример:
import wikipedia
Query = wikipedia.search("Rajasthan")
print("Search results:")
for result in Query:
print(result)
Выходные данные:
В этом примере использование wikipedia.search("Rajasthan")
дает список названий страниц Википедии, связанных с "Rajasthan". Это удобно, когда вы хотите найти релевантные страницы Википедии по определенной теме. Полученные заголовки можно использовать для получения более подробной информации о соответствующих страницах.
Заключение
И вот мы подошли к концу этой статьи. Я надеюсь, что вам стала понятна роль модуля Wikipedia в программировании на Python. Теперь вы можете подтвердить свое понимание модуля Wikipedia, используя его в своих программах.