онвейеры обработкиданных управляют потоком данных с момента их первоначального сбора до консолидации, очистки, анализа, визуализациии многого другого. ApacheAirflow предоставляет единую платформу, которую можно использовать для проектирования, реализации, мониторинга и обслуживания...
Чему вы научитесь
Airflow
Python
Docker для локальной и продуктовой разработки
Gitlab CI/CD
Элементы алгоритмического трейдинга
Требования
Знание Python на среднем уровне
Понимание Docker и его использование
Понимание сути трейдинга и основных концепций
Git на среднем уровне
Описание
Этот...
Книга посвящена передовым методам построения конвейеров данных, сбору данныхиз множества разнообразных источников и преобразованию их для аналитики. Дано введение в конвейерыданных, раскрыта их работа в современном стеке данных. Описаны стандартные шаблоны конвейеров данных. Показан процесс...
Apache Kafka представляет собой ведущий брокер сообщений, широко используемый в современных разработческих стэках. Владение Apache Kafka позволяет Java-разработчикам выстраивать системы для обработки потоковых данных, такие как системы очередей, стриминговую обработку и обмен данными между...
Практический fast-track по data engineering: за 4–6 недель собираем рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow. Разберём batch и streaming, окна и watermark, схемы и контракты. Мини‑проекты, Docker Compose, шаблоны DAG и пайплайнов. Курс подойдёт инженерам, аналитикам и...
При работе любого корпоративного приложения образуются данные: файлы журналов, показатели, информация об активности пользователей, исходящие сообщения и другие. Правильное управление этими данными не менее важно, чем сами данные. Если вы архитектор, разработчик илиинженер-технолог, но вы пока...
Технология хранения иобработки больших данных Hadoop (Тимур Машнин)
Apache Hadoop - это платформа для распределенной обработки больших наборов данных на кластерах компьютеров с использованием простых моделей программирования. В этой книге вы познакомитесь с общей архитектурой платформы...
Данная методика работает как в масштабных исследованиях по генеалогии, так и при работе по сбору сведений биографии отдельных людей. Позволяет выстраивать систему из уже собранных фактов, благодаря которой находятся не только решения в сложных поисковых задачах, но и становится видна...
Apache Arrow – это программная платформа с открытым исходным кодом, предназначенная для разработки приложений, эффективно выполняющих обработку и анализ табличных данных за счет размещения в оперативной памяти. В обновленном втором издании представлен обзор формата Arrow с акцентом на его...
Описание книги
Показаны математические методы обработкиинформации в дискретной форме. Пособие построено на концепцииинтеграции предметных областей математикииинформатики. Рассмотрены элементы теории множеств и отношений, элементы комбинаторики, вероятностные методы обработкиданных.
Для...
Описание:
Пособие содержит необходимый теоретический материал и примеры реализацииданных, которые используются для неформального описания и реализации алгоритмов. Приведены иисследованы алгоритмы внутренней и внешней сортировки, алгоритмы поиска. Все рассмотренные методы сопровождаются...
О чем буду рассказывать:
Какие ПД могут обрабатываться в рамках образовательной деятельности без согласия.
На что обращать внимание при подписания согласия.
Электронный дневник, ГТО и другие системы обработкиданных - на что обратить внимание?
Обязательно разберём ваши вопросы.
Плюс файл с...
IT-индустрия меняется постоянно и быстро. Чем быстрее и напряжённее программа обучения, тем проще вам будет влиться в реальную работу и следовать за изменениями. Наша программа охватывает весь спектр Hard Skills, которые нужны на позиции аналитика.
Для кого эта программа:
- Старт карьеры. У...
Курс подойдёт тому:
Кто хочет ускорить свою работу в 100 раз и автоматизировать ежедневные задачи;
Кто хочет получить повышение по карьере;
Кто хочет рост зарплаты илиисточник дополнительного дохода;
Кто хочет избавить от постоянных ошибок в отчетах из-за ручного труда;
Кто хочет, чтобы его...
Большие данные. Принципы и практика построения масштабируемых систем обработкиданных в реальном времени (Натан Марц, Джеймс Уоррен)
В этой книге представлены теоретические основы организации систем больших данныхи поясняется, каким образом они воплощаются на практике. В ней рассматривается...
IT-индустрия меняется постоянно и быстро. Чем быстрее и напряжённее программа обучения, тем проще вам будет влиться в реальную работу и следовать за изменениями. Наша программа охватывает весь спектр Hard Skills, которые нужны на позиции аналитика.
Для кого эта программа:
- Старт карьеры. У...
Data Internals X 2025
Профессиональная конференция по инженерииданных, базам данныхи системам хранения иобработкиданных
Data Internals X 2025 — это инвестиция в ваше техническое развитие и решение завтрашних проблем уже сегодня.
Это не просто "техническая тусовка", а стратегическая...
Программа "Профессия Data Engineer":
1 курс "Старт в Data Engineering"
- Автоматизируете процессы сбора, очисткии анализа реальных данных без разработчиков (ETL)
- Освоите инструменты: Git, SQL, базовый Python
- Научитесь работать с хранилищамиданных (DWH)
2 курс "Python: основы языка"
-...
Интенсив
После прохождения курса вы научитесь работать с архитектурой, основными концепциямиApacheAirflowи приобретете практические навыки разработки ETL процессов.
Старт 19 января 2023
Занятие 1. Обзор ApacheAirflow:
* Что такое ETL и почему нам нужны специальные технологии для их...
Это автобиография Джулиана Ассанжа, основателя скандально известного сайта WikiLeaks, где публикуются секретные или закрытые для общего доступа сведения, разоблачающие коррупцию и злоупотребления в странах Средней Азии, Китае, США, Россиии многих других. Книга рассказывает не только о работе...