Интересные операции с диаграммой рассеяния в Python

Всегда важно визуализировать данные по проекту, потому что это помогает внести ясность и понимание в содержание при исследовании данных.
В нашей жизни не раз встречаются ситуации, при которых мы включаем в наши проекты диаграммы. Здесь же читателю будет представлены некоторые интересные вещи, которые можно сделать с диаграммой рассеяния.
В этом упражнении мы возьмем csv-файл gapminder и отфильтруем его до 2007 года:

Мы использовали функцию разброса matplotlib для создания базового точечного графика с ВВП на душу населения по оси x и ожидаемой продолжительностью жизни по оси y:

На следующем графике использован lmplot от seaborn, который отображает данные и регрессионную модель на основе фасетной сетки. В этом примере порядок равен 1, что довольно ясно показывает, что точечный график не следует линейному порядку:

На графике ниже установим порядок равным 2, что является более близким изображением линии, которую занимает точечный график, но все еще не является линейным:

В приведенном ниже примере мы пометим все точки на точечной диаграмме. Действительно, интересно знать, что каждая точка на диаграмме рассеяния представляет одну страну на нашем земном шаре.

Далее в нашем примере мы определим какие страны являются выбросами, поэтому отфильтруем фрейм данных dt_2007, чтобы учесть только те страны, у которых ВВП на душу населения превышает 40 000. Таким образом, у нас осталось пять стран: Ирландия, Соединенные Штаты, Сингапур, Кувейт и Норвегия:

Здесь продемонстрированы несколько интересных инструментов, которые можно сделать с помощью точечной диаграммы, чтобы придать содержащейся в ней информации больше смысла. Самая интересная часть там, где каждая точка была помечена, потому что она раскрывает гораздо больше о данных, чем то, что можно было бы получить без маркировки.