DevGang
Авторизоваться

Подключение к базам данных AWS Athena с помощью Python 

ПРИМЕЧАНИЕ. Полный код, относящийся к этой статье, можно найти в этом репозитории Github.

AWS Athena - это сервис, который позволяет создавать базы данных и запрашивать данные из файлов данных, хранящихся в корзинах AWS S3. Это очень полезно, если у вас есть большой набор данных, хранящийся, скажем, в виде CSV или parquet файлов, и вы не хотите тратить дни на написание заданий ETL и загрузку их в стандартную базу данных SQL. По сути, он позволяет писать стандартные запросы SQL для извлечения данных из файлов с плоскими данными, хранящихся на S3.
Только что начав работать с базами данных Athena и столкнувшись с проблемой предоставления нашей команде доступа к Athena через Python и, в частности, через Jupyterlab, я придумал два разных метода разработки оболочки Python для простого и эффективного доступа к базам данных Athena.

Подсказки типов и строки документации Python

В этой статье вы будете сопровождать меня в путешествии по автоматической генерации строк документации в стиле Google из подсказок типов Python. Мы рассмотрим следующие элементы.

  1. Подсказки типов Python
  2. Вставка подсказки типа в строки документации функции
  3. Автоматизация с помощью хуков Git перед фиксацией

Виртуальные среды для абсолютных новичков - что это такое и как создать (+ примеры) 

Если вы работаете над множеством разных проектов, вы узнаете ад зависимости множества проектов, требующих нескольких версий, нескольких пакетов. Вы не можете просто установить все пакеты глобально, как вы отслеживаете? Также что происходит, когда projectA требуется PackageX_version1, а ProjectB - PackageX_version2? Как оставаться в здравом уме, когда все представляет собой один большой беспорядок взаимозависимости, похожий на спагетти?

В этой статье я попытаюсь убедить, что использование venv (виртуальной среды) - это способ отделить зависимости от других проектов. Мы начнем с определения, что такое venv, для чего он нужен и зачем он вам нужен. Затем мы создадим его и увидим все его преимущества. В конце у нас будет несколько основных правил, позволяющих сохранять зависимости в наших проектах как можно более чистыми.

Операторы switch в Python 3.10

Python 3.10 все еще находится на стадии альфа-тестирования, но в нем появятся некоторые новые интересные функции. В этой статье мы рассмотрим один из них - операторы switch, официально известные как сопоставление структурных шаблонов.

Оператор switch обычно встречается в большинстве языков программирования и обеспечивают более аккуратный способ реализации условной логики. Он пригодятся, когда нужно оценить множество условий.

Сегодня мы увидим, как его использовать, и сравним различия кода с более традиционным подходом.

Как протестировать несколько конвейеров машинного обучения с помощью всего нескольких строк Python 


На этапе исследования проекта специалист по обработке данных пытается найти оптимальный конвейер для своего конкретного случая использования. Поскольку заранее узнать, какие преобразования принесут наибольшую пользу модели, практически невозможно, этот процесс обычно включает опробование различных подходов. Например, если мы имеем дело с несбалансированным набором данных, должны ли мы производить избыточную выборку для класса меньшинства или занижать выборку для класса большинства? В этой истории я объясню, как использовать пакет ATOM, чтобы быстро помочь вам оценить производительность модели, обученной на разных конвейерах. ATOM - это пакет Python с открытым исходным кодом, разработанный, чтобы помочь специалистам по обработке данных ускорить исследование конвейеров машинного обучения.

Топ-3 альтернативных пакета Python для Pandas

Для многих современных специалистов по обработке данных Python - это язык программирования, который использовался в повседневной работе - как следствие, анализ данных будет выполняться с использованием одного из самых распространенных пакетов данных, которым являются Pandas. Многие онлайн-курсы и лекции представят Pandas как основу для любого анализа данных с помощью Python.

На мой взгляд, Pandas по-прежнему остается наиболее полезным и жизнеспособным пакетом для анализа данных на Python. Однако для сравнения я хочу познакомить вас с несколькими альтернативами пакетов Pandas. Я не собираюсь убеждать людей переходить с Pandas на другой пакет, но я просто хочу, чтобы люди знали, что есть альтернативы для пакета Pandas.

Итак, что это за альтернативные пакеты Pandas? Давайте займемся этим!

Держите свой код в чистоте с помощью Black & Pylint, Git Hooks и Pre-commit 

Кодирование может быть очень сложной задачей, особенно при работе над проектом с разными разработчиками. Каждый член команды использует свой собственный способ кодирования, что приводит к очень разнородным сценариям.
Вот почему важно иметь аналогичный формататор кода и линтер кода, чтобы сделать ваши коммиты git более чистыми. Это может быть выполнено либо между этапами постановки и фиксации, либо во время цепочки CI / CD.

В этой статье мы увидим, как это сделать на этапе перед фиксацией с помощью хуков git.

Построение глубокой нейронной сети с нуля с использованием Python

Эта статья посвящена созданию глубокой нейронной сети с нуля без использования таких библиотек, как Tensorflow, keras или Pytorch и т. д. Она состоит из двух разделов. В первой части мы увидим, что такое глубокая нейронная сеть, как она может учиться на данных, математику, стоящую за ней, а во второй части мы поговорим о ее создании с нуля с использованием Python.

Если вы знакомы с концепциями нейронной сети, не стесняйтесь пропустить первую часть и сразу перейти к разделу «Построение сети для идентификации рукописных цифр».

Системы машинного обучения и рекомендаций с использованием ваших собственных данных Spotify 

Как человек, который ежедневно использует Spotify, мне было интересно, какой анализ я могу сделать с моими собственными музыкальными данными. Spotify отлично справляется с рекомендациями треков как через ежедневные миксы, так и через радиостанции, но как мы сами создадим что-то подобное? Целью здесь было использовать машинное обучение и методы системы рекомендаций, чтобы рекомендовать новые треки на основе треков из моих любимых плейлистов.

Python: Как преобразовать список в строку?

В этом коротком руководстве мы рассмотрим различные методы, которые можно использовать для преобразования списка Python в строку.

Python - высокоуровневый язык программирования созданный Гвидо ван Россумом еще в 1980 году. Мощный, одновременно поддерживающий несколько парадигм программирования, на сегодняшний день используется во многих сферах деятельности, от программирования микроконтроллеров и до создания сложных микросервисных веб приложений. 
 

Присоединяйся в тусовку

Поделитесь своим опытом, расскажите о новом инструменте, библиотеке или фреймворке. Для этого не обязательно становится постоянным автором.

Попробовать

В этом месте могла бы быть ваша реклама

Разместить рекламу