Интересные операции с диаграммой рассеяния в Python
![](/static/storage/139411473889186348363857518569546543028.png)
Всегда важно визуализировать данные по проекту, потому что это помогает внести ясность и понимание в содержание при исследовании данных.
В нашей жизни не раз встречаются ситуации, при которых мы включаем в наши проекты диаграммы. Здесь же читателю будет представлены некоторые интересные вещи, которые можно сделать с диаграммой рассеяния.
В этом упражнении мы возьмем csv-файл gapminder и отфильтруем его до 2007 года:
![](/static/storage/277382962175962690409940815654567459868.png)
Мы использовали функцию разброса matplotlib для создания базового точечного графика с ВВП на душу населения по оси x и ожидаемой продолжительностью жизни по оси y:
![](/static/storage/79425045570000827241684191357675853009.png)
На следующем графике использован lmplot от seaborn, который отображает данные и регрессионную модель на основе фасетной сетки. В этом примере порядок равен 1, что довольно ясно показывает, что точечный график не следует линейному порядку:
![](/static/storage/176476076018060902613218165195108843882.png)
На графике ниже установим порядок равным 2, что является более близким изображением линии, которую занимает точечный график, но все еще не является линейным:
![](/static/storage/16630680116507809083721253498222418448.png)
В приведенном ниже примере мы пометим все точки на точечной диаграмме. Действительно, интересно знать, что каждая точка на диаграмме рассеяния представляет одну страну на нашем земном шаре.
![](/static/storage/246236263299398791448595989171121976951.png)
Далее в нашем примере мы определим какие страны являются выбросами, поэтому отфильтруем фрейм данных dt_2007, чтобы учесть только те страны, у которых ВВП на душу населения превышает 40 000. Таким образом, у нас осталось пять стран: Ирландия, Соединенные Штаты, Сингапур, Кувейт и Норвегия:
![](/static/storage/51993135488171808490814655721650605963.png)
Здесь продемонстрированы несколько интересных инструментов, которые можно сделать с помощью точечной диаграммы, чтобы придать содержащейся в ней информации больше смысла. Самая интересная часть там, где каждая точка была помечена, потому что она раскрывает гораздо больше о данных, чем то, что можно было бы получить без маркировки.