Часть 1. Основы GreenPlum: GreenPlum как реляционная MPP СУБД
Введение в GreenPlum
Архитектура GreenPlum
Партиционирование таблиц, индексы
Транзакции и блокировки
Оптимизация и планы запросов
Лабораторная работа
Часть 2. Внешние данные и код: GreenPlum как агрегатор данных и исполнитель кода...
Аналитика большихданныхдля руководителей
Все, что нужно знать для успешной работы с большими данными: методы аналитики и машинного обучения, принципы работы и функциональные возможности компонентов экосистемы Hadoop, безопасность озера данных, цифровизация бизнеса.
О продукте:
Сегодня...
BDAM: Аналитика большихданныхдля руководителей
Все, что нужно знать для успешной работы с большими данными: методы аналитики и машинного обучения, принципы работы и функциональные возможности компонентов экосистемы Hadoop, безопасность озера данных, цифровизация бизнеса.
О продукте:
Сегодня...
PRAR: Практическая архитектура данных
Классические методы, современные подходы и лучшие практики архитектуры и интеграции данныхдля проектных команд.
На примерах платформенных решений, корпоративных фабрик данных, микросервисов и веб-приложений.
Архитектура данных (Data Architecture):
Это...
Программа курса Администрирование кластера Kafka
1. Введение в Kafka
Что такое Apache Kafka?
Сценарии использования Kafka
Компоненты Kafka и Kafka экосистемы
Архитектура Kafka
Кластер Zookeeper (Установка кластера Kafka без использования Zookeeper KIP-500)
2. Основные концепции Kafka
Как...
Lakehouse для аналитиков и инженеровданных
Научитесь эффективно использовать Data Lakehouse c разделенным Compute и Storage на основе Iceberg и Trino.
Познакомиться с архитектурой LakeHouse, последним поколением аналитических систем
с разделенными слоями хранения (Iceberg/S3) и вычисления...
Описание
О чем эта книга
Автор этой книги понятным неспециалисту языком рассказывает о том, что такое большие данные, как они меняют мир и что нужно делать, чтобы повысить уровень аналитики в своей организации и принимать взвешенные решения, основанные на информации. Из этой книги вы узнаете...
The Big Data Developer Course
Master the most in-demand big data skills: Hadoop, Sqoop, Hive, Spark, Scala, Cassandra, HBase, NIFI, Kafka and more
Чему вы научитесь:
Понимание архитектуры Hadoop
Понимание форматов файлов и возможность выбрать правильный формат для данного варианта...
Книга о том, как распознавать ложь, дезинформацию, фейковые новости и не попасться на удочку красивых графиков, убедительной статистики и наукообразных терминов.
В отличие от прямой лжи чушь звучит весьма правдоподобно. Это информация, про которую нельзя однозначно сказать, что она ложна, но...
Технология хранения и обработки большихданных Hadoop (Тимур Машнин)
Apache Hadoop - это платформа для распределенной обработки больших наборов данных на кластерах компьютеров с использованием простых моделей программирования. В этой книге вы познакомитесь с общей архитектурой платформы...
Казалось бы, термин «большие данные» понятен и доступен только специалистам. Но автор этой книги доказывает, что анализ данных можно организовать и в простом, понятном, очень эффективном и знакомом многим Excel. Причем не важно, сколько велик ваш массив данных. Техники, предложенные в этой...
«Книга охватывает все основные аспекты Trino – от конкретных вариантов использования до способов применения этого механизма в крупном масштабе».
Ашиш Кумар Сингх, технический руководитель проектов в компании Pinterest
Выполняйте быстрые интерактивные аналитические операции с данными из...
Этот курс предназначен для специалистов, анализирующих огромные наборы данных, а также разработчиков, использующих R в своих проектах.
Цель курса – предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа большихданных на сервере Microsoft R. Также в курсе...
Apache Arrow – это программная платформа с открытым исходным кодом, предназначенная для разработки приложений, эффективно выполняющих обработку и анализ табличных данных за счет размещения в оперативной памяти. В обновленном втором издании представлен обзор формата Arrow с акцентом на его...
В этой книге вы познакомитесь с тем, как администраторы баз данных могли бы использовать MySQL для обработки миллиардов записей и извлечения данных с производительностью, сравнимой или превосходящей коммерческие решения для СУБД с более высокими затратами.
Показано как реализовывать успешную...
В этой практичной книге четверо специалистов Cloudera по анализу данных описывают самодостаточные паттерны для выполнения крупномасштабного анализа данных при помощи Spark. Авторы комплексно рассматривают Spark, статистические методы и множества данных, собранные в реальных условиях, и на этих...
Цель нашего курса — помочь опытным аналитикам расширить свои компетенции и задать правильное направление для дальнейшего развития в профессии. Полученный практический опыт позволит углубить знания в области продуктовой аналитики и научиться подбирать правильные инструменты для решения задач в...
О книге:
В современном мире на нас обрушивается лавина данных и стремительно растет число закономерностей, которые мы в них обнаруживаем. От природы человеку свойственно верить, что каждая закономерность наполнена смыслом. Но это не так! Шансы, что найденная закономерность окажется полезной...
Аннотация
В книге представлен исчерпывающий обзор SQL Server 2019 – инновационной версии популярной СУБД. Авторы рассказывают о производительности и безопасности, об использовании контейнеров и технологии Kubernetes, о работе с кластерами большихданных и средствах машинного обучения. Подробное...
Вы освоите основы важнейших разделов математики:
1) Дискретная математика
2) Математический анализ
3) Линейная алгебра и аналитическая геометрия
4) Теория вероятностей
5) Математическая статистика и элементы аналитики
Описание курса
Книга природы написана на языке математики. То же самое можно...