Трюки Pandas и Python для Data Science и анализа данных
Здесь мы поделимся некоторыми приемами Python и Pandas, чтобы помочь аналитикам данных и специалистам по данным быстро освоить новые ценные концепции, о которых они могут не знать.
Pandas
Заменять значения из фрейма данных на основе условий
Если вы хотите заменить значения из фрейма данных на основе условий, вы можете использовать встроенную функцию 𝗺𝗮𝘀𝗸()
от Pandas.
Ниже приведена иллюстрация
Примените цвета к вашему фрейму данных Pandas
Вы когда-нибудь хотели быстро найти какую-то информацию, просто взглянув на свой фрейм данных?
Такие вещи, как:
- Какие значения отрицательны в каждом столбце?
- Каково максимальное или минимальное значение каждого столбца?
- Какие значения ниже или выше среднего?
Список можно продолжать и продолжать…
Отличным способом просмотра такой информации является использование цветов.
𝗣𝗮𝗻𝗱𝗮𝘀.𝘀𝘁𝘆𝗹𝗲 - это встроенный модуль, который предоставляет высокоуровневый интерфейс для оформления вашего фрейма данных.
Вот видеоиллюстрация!
Распечатайте фрейм данных Pandas в Markdown
Всегда лучше печатать фрейм данных таким образом, чтобы его было легче понять.
Один из способов сделать это - отобразить его в формате markdown с помощью функции .𝚝𝚘_𝚖𝚊𝚛𝚔𝚍𝚘𝚠𝚗()
.
С Markdown и без Markdown
SQL-подобные запросы через фрейм данных
Сила Pandas недостаточно изучена в науке о данных.
Как аналитик данных или ученый, вы, возможно, захотите отфильтровать свои данные, чтобы найти релевантную информацию.
Этого можно добиться с помощью встроенной функции 𝗾𝘂𝗲𝗿𝘆()
в Pandas.
Он выполняет запросы на основе логических выражений, как если бы вы писали предложение на естественном языке!
Ниже приведена иллюстрация
Преобразуйте обработку Scikit Learn в фрейм данных Pandas
Если вы более внимательно ознакомились с модулем предварительной обработки Scikits learn, вы, возможно, заметили, что базовые функции возвращают массив numpy.
Это может затруднить отслеживание исходных названий объектов в данных.
Разве не было бы неплохо вместо этого иметь фрейм данных Pandas без каких-либо дополнительных строк кода для сохранения имен этих функций?
Этого можно добиться с помощью 𝘀𝗲𝘁_𝗼𝘂𝘁𝗽𝘂𝘁
API из новой версии (1.2) Scikit Learn.
Ниже приведена иллюстрация
Извлеките периоды из столбца Datetime
Дни, недели, месяцы или кварталы, каждый из которых может играть важную роль в зависимости от поставленных задач.
С помощью функции 𝘁𝗼_𝗽𝗲𝗿𝗶𝗼𝗱()
вы можете извлечь из столбца даты каждую такую важную информацию.
Ниже приведена иллюстрация
Python
Количество элементов в списке
Все еще используете циклы для определения того, как часто каждый элемент встречается в списке?
Может быть, есть лучший и гораздо более элегантный Pythonic способ!
Вы можете использовать класс 𝗖𝗼𝘂𝗻𝘁𝗲𝗿
из Python для вычисления количества элементов в списке.
Ниже приведена иллюстрация
Объединяйте элементы из нескольких списков
Вы пытаетесь объединить элементы из нескольких списков?
Прекратите использовать петли 𝗳𝗼𝗿
и примените следующий подход.
Встроенная функция Python 𝘇𝗶𝗽()
.
Ниже приведена иллюстрация
Создайте несколько списков из агрегированных элементов
При попытке агрегировать элементы из нескольких списков наиболее элегантным и Pythonic-способом является использование встроенной функции 𝘇𝗶𝗽()
.
Теперь, что, если вы хотите действовать наоборот: создать несколько списков из этих агрегированных элементов.
Забудьте о циклах 𝗳𝗼𝗿
.
Просто объедините функцию 𝘇𝗶𝗽()
с 𝗮𝘀𝘁𝗲𝗿𝗶𝘀𝗸*
Ниже приведена иллюстрация
Поклонник понимания списков
Не просто кодируйте на Python, как большинство людей, используйте кратчайший и наиболее эффективный подход.
Представьте, что вы хотите создать список, содержащий только четные числа из существующего. Самая очевидная идея - использовать цикл “for
”. Но самый элегантный из них - это использование понимания списка, которое более компактно, проще и легче отлаживается.
Ниже приведена иллюстрация
Там, где есть понимание списка, есть понимание словаря
Аналогично пониманию списка, также возможно создать понимание по словарю. Это также обеспечивает те же преимущества по сравнению с пониманием списка.
Давайте рассмотрим наличие словаря, где ключами являются индексы, а значениями - фактические числа из исходного списка с ограничением на четное число.
Ниже приведена иллюстрация