Пожалуй, единственное, что в машинном обучении важнее, чем само машинное обучение, — это предварительная обработка данных
Это потому, что до машинного обучения было определено:
~science~ математика получения информации из реального мира, преобразования ее в числа, а затем ~finding~ изучения закономерности на ее основе
Информация в реальном мире приносит с собой тонну шума
Все, что вам нужно знать, чтобы освоить наиболее часто используемые структуры данных в Python
Если вы начали изучать Python, хотите ли вы стать инженером-программистом или специалистом по данным, вам абсолютно необходимо освоить структуры данных.
Вероятно, все, что вам когда-либо понадобится для Python Datetime
Работа с данными, содержащими дату и время, может быть легко утомительной, особенно если вы не совсем знакомы с тонкостями манипулирования датой и временем. Многие термины, такие как DatetimeIndex
, Timestamp
, Timedelta
, Timezone
и Offset
, могут сбивать с толку даже аналитиков среднего уровня. Это руководство поможет вам освоить манипулирование датой и временем и получить ценную информацию из ваших данных. Давайте начнем!
Резюме по программированию, ориентированному на данные, написанное Йехонатаном Шарвитом, но проиллюстрированное примерами Python (вместо JavaScript и Java)
«Data-Oriented Programming» Йехонатана Шарвита — отличная книга, в которой дается краткое введение в концепцию Data-Oriented Programming (DOP) как альтернативу старому доброму объектно-ориентированному программированию (OOP). Sharvit разбирает элементы сложности, которые иногда кажутся неизбежными в ООП, и резюмирует основные принципы DOP, которые помогают нам сделать систему более управляемой.
Ловите ли вы себя на том, что мечтаете о фреймворках данных и сериалах Pandas? Проводите ли вы часы напролет, выполняя сложные манипуляции и агрегации, едва замечая боль в спине и все это время думая: “Это так весело”?
Что ж, с таким же успехом вы могли бы быть продвинутым пользователем Pandas, даже не осознавая этого. Присоединяйтесь к клубу поклонников панд, достигших этого редкого уровня, и примите тот факт, что вы официально являетесь мастером обработки данных.
Изучение того, как использовать экосистему Python для аудита качества данных.
Вы не можете управлять тем, что не можете измерить — Питер Друкер
Python - это объектно-ориентированный язык программирования, и существуют различные способы представления данных в виде объектов. Простые объекты могут быть представлены словарями с парами ключ-значение. А более сложные могут быть представлены некоторыми специальными классами данных, включая namedtuple, data class и Pedantic models.
В этом посте мы познакомим вас с этими типами данных на простых примерах. Затем мы можем выбрать тот, который наиболее подходит для решения конкретных задач.
Pandas - одна из наиболее широко используемых библиотек в сообществе Data Science, и это идеальный инструмент для манипулирования данными, очистки и анализа.
Вы уже испытали на себе парадокс дня рождения. Мы в этом уверены.
Это один из тех парадоксов, которые имеют место в реальной жизни. Вспомните свое время в детском саду, начальной или старшей школе. Или даже подумайте о своей группе друзей. Сколько вы знаете случаев, когда у двух людей был один и тот же день рождения (день и месяц)?
Исследовательский анализ данных (EDA) - это процесс анализа данных с целью обобщения их основных характеристик, часто с помощью визуальных методов. Это важный шаг в процессе анализа данных, поскольку он помогает понять данные и выявить любые проблемы или инсайты, которые могут быть скрыты в них. Эта статья служит всеобъемлющим руководством по EDA, охватывающим его ключевые концепции, лучшие практики и примеры того, как выполнять EDA на реальных наборах данных из Kaggle.
Присоединяйся в тусовку
Поделитесь своим опытом, расскажите о новом инструменте, библиотеке или фреймворке. Для этого не обязательно становится постоянным автором.
В этом месте могла бы быть ваша реклама
Разместить рекламу