Очень важно обеспечить хорошее качество данных перед запуском моделей машинного обучения. Если мы введем некачественные данные в эти модели, это может привести к неожиданным или непреднамеренным последствиям. Однако проведение подготовительной работы с данными и попытка понять, что у вас есть, а чего нет, отнимают очень много времени. Часто этот процесс может занимать до 90% времени, доступного для проектов.
Pandas - одна из самых популярных библиотек Python для исследования и визуализации данных. Pandas предлагает множество API для выполнения задач по обработке данных, но при работе с большими наборами данных это приводит к сбоям или медленным вычислениям.
Графики водопада (или диаграммы) часто используются для демонстрации кумулятивного изменения определенного значения с течением времени. В качестве альтернативы они могут использовать фиксированные категории (например, определенные события) вместо времени. Таким образом, такого рода сюжет может быть очень полезен при проведении презентаций для заинтересованных сторон бизнеса, поскольку мы можем легко показать, например, эволюцию доходов нашей компании/клиентской базы с течением времени.
Как человек, который использует Pandas уже несколько лет, мы заметили, как много людей часто прибегают к почти постоянному использованию функции apply
. Хотя это не является проблемой для небольших наборов данных, проблемы с производительностью, вызванные этим, становятся намного более заметными при работе с большими объемами данных. Хотя гибкость apply
делает его легким выбором, в этой статье представлены другие функции Pandas в качестве потенциальных альтернатив.
Ручное создание нового файла конфигурации для каждого нового эксперимента - утомительный процесс. Особенно, если вы хотите быстро развернуть огромное количество заданий в кластере Kubernetes, автоматическая настройка является обязательной. С помощью python легко создать простой сценарий планирования, который считывает конфигурацию эксперимента, такую как размер пакета, записывает ее в файл YAML и создает новое задание. В этом посте мы обсудим, как это сделать. Самое лучшее - это то, что мы не требуем никаких дополнительных пакетов!
Amazon Simple Storage Service (S3) предоставляет пользователям дешевую, безопасную и простую в управлении инфраструктуру хранения данных. Возможно перемещать файлы в сегменты S3 и из них с помощью самой консоли AWS, но AWS также предлагает возможность упростить эти операции с помощью кода.
Отслеживание тенденций также заслуживает тщательного изучения, поскольку многие известные индикаторы довольно хорошо справляются с отслеживанием тенденций. Известно, что стратегии следования тренду имеют некоторые структурные лаги из-за подтверждения нового тренда. Они больше касаются времени на рынке, чем выбора времени для рынка. В этой статье представлен и закодирован очень известный индикатор - Aroon oscillator.
Наука о данных стала неотъемлемой частью любой отрасли. Это произвело революцию в том, как компании принимают решения и взаимодействуют со своими клиентами. Тем не менее, существует еще много неправильных представлений о науке о данных, которые необходимо развенчать.
Написать код достаточно сложно, но обеспечить его хороший формат и легкость чтения может быть еще более сложной задачей.
Присоединяйся в тусовку
Поделитесь своим опытом, расскажите о новом инструменте, библиотеке или фреймворке. Для этого не обязательно становится постоянным автором.