DevGang
Авторизоваться

Понятие о визуализации данных в Pandas, если вы пришли из Excel

Прочитав много уроков по визуализации данных Pandas, я до сих пор не могу понять их механику. Создание даже простого сюжета всегда требует от меня изучения документации.

И даже после запуска кода и получения правильного сюжета, это не делает меня уверенным, чтобы попробовать его самостоятельно. Возможно, я ищу связь с Excel. Связь между сюжетом и данными просто кажется интуитивно понятной с помощью графического интерфейса.

Имея это в виду, могу ли я каким-то образом донести это до Pandas?

Диаграммы в Excel и Pandas

Вот что я сделал, чтобы построить простой линейный график в Excel. Рассмотрим следующие данные (получите их здесь).

Число иммигрантов в Канаду из Китая и Индии 1980–2013 гг.
Число иммигрантов в Канаду из Китая и Индии 1980–2013 гг.

Затем я строю линейный график, используя функцию рекомендуемых диаграмм в Excel.

Хорошо. Легко и приятно.

Как насчет тех же данных, но в другом формате?

Число иммигрантов в Канаду из Китая и Индии, 1980–2013 годы (длинная форма)
Число иммигрантов в Канаду из Китая и Индии, 1980–2013 годы (длинная форма)

Замышляю это..

Это же полный бардак.

Как насчет Pandas? Давайте построим первый фрейм данных.

Хорошо. Это работает.

Как насчет второго кадра данных?

И Excel, и Pandas показали одинаковый график для обоих информационных фреймов.
И Excel, и Pandas показали одинаковый график для обоих информационных фреймов.

Кажется, Excel и Pandas отображают сюжет одинаково! Я кое-что понял.

Данные в широкой и длинной формах

Данные, с которыми мы работали некоторое время назад, представляют собой данные широкой и длинной формы соответственно.

Оба являются разумными образцами для хранения данных в табличном формате; вкратце, разница в следующем:

  • широкоформатные данные содержат по одной строке на независимую переменную, а метаданные записываются в метках строк и столбцов.
  • Данные длинных форм имеют одну строку для наблюдения, метаданные записываются в таблицу в качестве значений.
Широкая форма хорошо работает с линейной диаграммой, потому что я в основном строю независимую переменную (год) против ее метаданных (серия Гаити и Китая).

Будет ли эта линия мышления работать? Давай узнаем.

Создание основных сюжетов с помощью Pandas

Теперь давайте попробуем создать различные графики для наших широкоформатных данных, чтобы проверить мою гипотезу.

Гистограмма

Диаграмма участка

Box Plots

Гистограммы

Точечная диаграмма

Что происходит?
Что происходит?

К сожалению, точечная диаграмма приводит к ошибке

Мой второй момент озарения

Итак, оглядываясь на предыдущие сюжеты, теперь это имеет смысл.

Если вы строите несколько рядов относительно независимой переменной, то вы используете широкоформатную форму. В противном случае используйте длинную форму.

Давайте снова проверим эту гипотезу и посмотрим, верна ли она. Давайте сделаем точечный сюжет.

Точечная диаграмма

Ура! Это работает.

Поэтому я действительно не сравниваю две серии в точечной диаграмме, а строю график наблюдения, чтобы увидеть их распределение. Цвета не являются обязательными, и я могу сделать то же самое без него.

Но есть и другие библиотеки...

Я решил ограничить рассмотренное здесь графическое представление методом plot DataFrame.

Когда вы новичок в Pandas, пришедший из Excel, вы хотите быстро оценить, сможете ли вы воспроизвести обычные графики, которые вы используете в Excel, чтобы гарантировать переключение и постоянное использование Pandas.

Кроме того, эффективный анализ данных связан с быстрым созданием графиков; постройте этот график, манипулируйте данными, снова постройте график и так далее. Следовательно, вы будете увязать, если я попытаюсь включить здесь различные методы построения.

Примите это как принцип Pareto применительно к визуализации - вам нужно знать только 20% методов построения графика, чтобы добиться продуктивности.

Вывод

Таким образом, данные в широком формате хорошо работают, когда вы сравниваете или выводите несколько рядов на один индекс. В противном случае лучше придерживаться длинной формы.

Рабочий процесс заключается в том, что вам нужно сначала получить данные в правильной форме, чтобы получить желаемый график, который в первую очередь определяет правильный формат.

Цикл обратной связи между данными, сюжетом и вами.(Значок мозгового снаряжения от freesvg.org и значок сюжета от Needpix.com)
Цикл обратной связи между данными, сюжетом и вами.(Значок мозгового снаряжения от freesvg.org и значок сюжета от Needpix.com)

Только тогда вы можете создать или добавить элементы к сюжету, чтобы сделать его более привлекательным.

Это похоже на Excel при визуализации данных. Вы должны сначала получить правильные данные для Excel, чтобы выложить корректную диаграмму без наворотов. Затем вы меняете элементы диаграммы, добавляете заголовок и т. д, чтобы сделать его более эффективным.

Вместо того чтобы читать много учебников по визуализации данных Pandas, наличие ментальной модели того, как данные соответствуют сюжету, делает визуализацию данных более увлекательной. Цикл обратной связи между вашей ментальной моделью и инструментом делает обучение более эффективным.

Удачного кодирования!

Источник:

#Python #Pandas #Excel
Комментарии
Чтобы оставить комментарий, необходимо авторизоваться

Присоединяйся в тусовку

Поделитесь своим опытом, расскажите о новом инструменте, библиотеке или фреймворке. Для этого не обязательно становится постоянным автором.

Попробовать

Напиши статью и выиграй годовую подписку на Яндекс плюс или лицензию от Jet Brains

Участвовать