Учебное пособие по Hive - Архитектура улья и пример использования НАСА



В этом учебном блоге Hive вы найдете подробные сведения об архитектуре Hive и модели данных Hive. Это также объясняет тематическое исследование НАСА по Apache Hive.

Учебное пособие по Apache Hive: Введение

Hive - широко используемый в отрасли инструмент для анализа больших данных и отличный инструмент для начала с участием. В этом учебном блоге Hive мы подробно обсудим Apache Hive. Apache Hive - это инструмент для хранения данных в , который предоставляет SQL-подобный язык для запросов и анализа больших данных. Мотивация разработки Hive - это удобный путь обучения для разработчиков и аналитиков SQL. Hive - не только спаситель для людей, не имеющих опыта программирования, но также сокращает объем работы программистов, которые тратят много времени на написание программ MapReduce. В этом учебном блоге по Apache Hive я расскажу о:





Учебное пособие по Apache Hive: что такое Hive?

Apache Hive - это система хранилища данных, построенная на основе Hadoop и используемая для анализа структурированных и полуструктурированных данных.Hive абстрагируется от сложности Hadoop MapReduce. По сути, он предоставляет механизм для проецирования структуры на данные и выполнения запросов, написанных на HQL (Hive Query Language), которые похожи на операторы SQL. Внутренне эти запросы или HQL преобразуются компилятором Hive в задания сокращения карты. Следовательно, вам не нужно беспокоиться о написании сложных программ MapReduce для обработки ваших данных с помощью Hadoop. Он предназначен для пользователей, знакомых с SQL. Apache Hive поддерживает язык определения данных (DDL), язык манипулирования данными (DML) и пользовательские функции (UDF).

Руководство по улью для начинающих | Понимание Hive в глубине | Эдурека



SQL + Hadoop MapReduce = HiveQL

Учебное пособие по Apache Hive: История Hive - от Facebook к Apache

Пример использования Facebook - Учебное пособие по Hive - EdurekaИнжир : Учебное пособие по Hive - пример использования Facebook

Проблемы в Facebook: экспоненциальный рост данных

До 2008 года вся инфраструктура обработки данных в Facebook была построена вокруг хранилища данных на основе коммерческой СУБД. Этих инфраструктур было достаточно, чтобы удовлетворить потребности Facebook в то время. Но поскольку объем данных начал расти очень быстро, управление и обработка этого огромного набора данных стало огромной проблемой. Согласно статье в Facebook, данные масштабировались от набора данных 15 ТБ в 2007 году до данных 2 ПБ в 2009 году. Кроме того, многие продукты Facebook включают анализ данных, таких как Audience Insights, Facebook Lexicon, Facebook Ads и т. Д. потребовалось масштабируемое и экономичное решение, чтобы справиться с этой самой проблемой, и поэтому он начал использовать структуру Hadoop.



Демократизация Hadoop - MapReduce

Но по мере роста данных сложность кодов Map-Reduce пропорционально росла. Таким образом, обучение людей, не имеющих опыта программирования, написанию программ на MapReduce стало затруднительным. Также для выполнения простого анализа нужно написать сотню строк кода MapReduce. Поскольку SQL широко использовался инженерами и аналитиками, включая Facebook, поэтому размещение SQL поверх Hadoop казалось логичным способом сделать Hadoop доступным для пользователей с опытом работы с SQL.

Следовательно, способность SQL удовлетворить большинство аналитических требований и масштабируемость Hadoop породили Apache Hive что позволяет выполнять SQL-подобные запросы к данным, присутствующим в HDFS. Позднее в августе 2008 года Facebook предоставил открытый исходный код для проекта Hive, а сегодня он доступен бесплатно как Apache Hive.

Теперь давайте посмотрим на особенности и преимущества Hive, которые сделали его таким популярным.

Учебное пособие по Apache Hive: преимущества Hive

  • Полезно для людей, не имеющих опыта программирования, так как избавляет от необходимости писать сложную программу MapReduce.
  • Расширяемый и масштабируемый справляться с растущим объемом и разнообразием данных, не влияя на производительность системы.
  • Это эффективный инструмент ETL (извлечение, преобразование, загрузка).
  • Hive поддерживает любое клиентское приложение, написанное на Java, PHP, Python, C ++ или Ruby, предоставляя его Комиссионный сервер . (Вы можете использовать эти клиентские языки, встроенные в SQL, для доступа к таким базам данных, как DB2 и т. Д.).
  • Поскольку информация метаданных Hive хранится в СУБД, это значительно сокращает время на выполнение семантических проверок во время выполнения запроса.

Руководство по Apache Hive: где использовать Apache Hive?

Apache Hive использует преимущества обоих миров, то есть системы баз данных SQL и фреймворк. Поэтому им пользуется огромное количество компаний. Он в основном используется для хранилищ данных, где вы можете выполнять аналитику и интеллектуальный анализ данных, которые не требуют обработки в реальном времени. Вот некоторые из полей, в которых вы можете использовать Apache Hive:

  • Хранилище данных
  • Специальный анализ

Как говорится, одной рукой нельзя хлопать в ладоши, т. Е. Невозможно решить все проблемы одним инструментом. Следовательно, вы можете объединить Hive с другими инструментами, чтобы использовать его во многих других областях. Например, Tableau вместе с Apache Hive можно использовать для визуализации данных, интеграция Apache Tez с Hive предоставит вам возможности обработки в реальном времени и т. Д.
Продвигаясь вперед в этом учебном блоге Apache Hive, позвольте нам взглянуть на тематическое исследование НАСА, где вы узнаете, как Hive решил проблему, с которой столкнулись ученые НАСА при оценке климатических моделей.

Учебное пособие по улью: пример из практики НАСА

Модель климата - это математическое представление климатических систем, основанное на различных факторах, влияющих на климат Земли. По сути, он описывает взаимодействие различных факторов климата, таких как океан, солнце, атмосфера и т. Д., Сдать представление о динамике климатической системы. Он используется для прогнозирования климатических условий путем моделирования изменений климата на основе факторов, влияющих на климат. Лаборатория реактивного движения НАСА разработала региональную систему оценки климатических моделей (RCMES) для анализа и оценки выходной модели климата на основе данных дистанционного зондирования, имеющихся в различных внешних хранилищах.

RCMES (Региональная система оценки климатических моделей) состоит из двух компонентов:

  • RCMED (База данных оценки региональных климатических моделей):

Это масштабируемая облачная база данных, которая загружает данные дистанционного зондирования и данные повторного анализа, связанные с климатом, с использованием экстракторов, таких как экстракторы Apache OODT, Apache Tika и т. Д. Наконец, она преобразует данные в модель точек данных, которая имеет форму (широта , долгота, время, значение, высота) и сохраняет его в базе данных My SQL. Клиент может получить данные, присутствующие в RCMED, выполнив пространственно-временные запросы. Описание подобных запросов сейчас для нас не актуально.

  • RCMET (Набор инструментов для оценки региональных климатических моделей):

Он предоставляет пользователю возможность сравнивать справочные данные, имеющиеся в RCMED, с выходными данными климатической модели, полученными из некоторых других источников, для выполнения различных видов анализа и оценки. Вы можете обратиться к изображению, приведенному ниже, чтобы понять архитектуру RCMES.

Справочные данные в RCMED поступают из спутникового дистанционного зондирования в соответствии с различными параметрами, необходимыми для оценки модели климата. Например, AIRS (атмосферный инфракрасный зонд) предоставляет такие параметры, как температура приземного воздуха, температура и геопотенциал, TRMM (миссия по измерению тропических осадков) обеспечивает ежемесячные осадки и т. Д.

Проблемы, с которыми сталкивается НАСА при использовании системы баз данных MySQL:

  • После загрузки базы данных MySQL с 6 миллиардами кортежей формы (широта, долгота, время, значение точки данных, высота) произошел сбой системы, как показано на изображении выше.
  • Даже после разделения всей таблицы на более мелкие подмножества система создавала огромные накладные расходы при обработке данных.

Таким образом, им требовалось масштабируемое решение, которое могло бы хранить и обрабатывать этот огромный объем данных с помощью SQL-запросов. Наконец, они решили использовать Apache Hive, чтобы преодолеть указанные выше проблемы.

Как Apache Hive может решить эту проблему?

Теперь давайте посмотрим, какие функции убедили команду NASA JPL включить Apache Hive в качестве неотъемлемой части в свою стратегию решения:

  • Поскольку Apache Hive работает поверх Hadoop, он масштабируемый и может обрабатывать данные как распределенным, так и параллельным образом.
  • Он предоставляет язык запросов Hive, который похож на SQL и, следовательно, прост в изучении.

Развертывание Hive:

Следующее изображение объясняет RCMES Architect с интеграцией Apache Hive:

Инжир : Учебное пособие по Hive - Архитектура RCMES с Apache Hive

На изображении выше показано развертывание куста apache в RCMES. При развертывании Apache Hive команда НАСА предприняла следующие шаги:

  • Они установили Hive с помощью Cloudera и Apache Hadoop, как показано на изображении выше.
  • Они использовали Apache Sqoop для загрузки данных в Hive из базы данных MySQL.
  • Оболочка Apache OODT была реализована для выполнения запросов в Hive и получения данных обратно в RCMET.

Начальные контрольные наблюдения с Hive:

  • Первоначально они загрузили 2,5 миллиарда точек данных в одну таблицу и выполнили подсчет. Например, Улей> выберите количество (datapoint_id) из точки данных. Для подсчета всех записей потребовалось 5–6 минут (15–17 минут для полных 6,8 миллиардов записей).
  • Фаза сокращения была быстрой, но фаза отображения заняла 95% общего времени обработки. Они использовали шесть ( 4x четырехъядерный ) системы с 24 ГБ RAM (прибл.) в каждой из систем.
  • Даже после добавления дополнительных машин, изменения размера блока HDFS (64 МБ, 128 МБ, 256 МБ) и изменения многих других переменных конфигурации (io.Сортировать.фактор, я.Сортировать.мб), они не добились большого успеха в сокращении времени на завершение счета.

Вклад членов сообщества Hive:

Наконец, члены сообщества Hive пришли на помощь и предоставили различные идеи для решения проблем с их текущими реализациями Hive:

  • Они упомянули, что скорость чтения HDFS составляет примерно 60 МБ / с по сравнению с 1 ГБ / с в случае локального диска, в зависимости от емкости сети и нагрузки на NameNode.
  • Члены предложили 16 картографов в их текущей системе потребуется, чтобы соответствовать производительности ввода-вывода локальной задачи, отличной от Hadoop.
  • Они также предложили уменьшить раздельный размер для каждого картографа, чтобы увеличить числоизmappers и, следовательно, обеспечивают больший параллелизм.
  • Наконец, члены сообщества посоветовали им использовать счетчик (1) вместо ссылки на считать ( datapoint_id) . Это связано с тем, что в случае count (1) нет ссылочного столбца и, следовательно, при выполнении подсчета не выполняется декомпрессия и десериализация.

Наконец, НАСА смогло настроить кластер Hive в соответствии со своими ожиданиями, приняв во внимание все предложения, сделанные членами сообщества Hive. Таким образом, они смогли запросить миллиарды строк всего за 15 секунд, используя упомянутые выше конфигурации системы.

Учебное пособие по Apache Hive: Архитектура Hive и ее компоненты

На следующем изображении описана архитектура Hive и поток, в котором запрос отправляется вУлейи, наконец, обработано с использованием фреймворка MapReduce:

Инжир : Учебное пособие по улью - Архитектура улья

Как показано на изображении выше, Hive Architecture можно разделить на следующие компоненты:

  • Клиенты Hive: Hive поддерживает приложения, написанные на многих языках, таких как Java, C ++, Python и т. Д., С использованием драйверов JDBC, Thrift и ODBC. Следовательно, всегда можно написать клиентское приложение hive, написанное на любом языке по своему выбору.
  • Сервисы Hive: Apache Hive предоставляет различные службы, такие как интерфейс командной строки, веб-интерфейс и т. Д., Для выполнения запросов. Мы вскоре рассмотрим каждый из них в этом учебном блоге Hive.
  • Структура обработки и управление ресурсами: ВнутриHive использует структуру Hadoop MapReduce как де-факто механизм для выполнения запросов. это отдельная тема и поэтому здесь не обсуждается.
  • Распределенное хранилище: Поскольку Hive устанавливается поверх Hadoop, он использует базовую файловую систему HDFS для распределенного хранилища. Вы можете обратиться к Блог HDFS чтобы узнать об этом больше.

Теперь давайте исследуем первые два основных компонента Hive Architecture:

1. Клиенты Hive:

Apache Hive поддерживает различные типы клиентских приложений для выполнения запросов в Hive. Этих клиентов можно разделить на три типа:

  • Бережливые клиенты: Поскольку сервер Hive основан на Apache Thrift, он может обслуживать запросы всех тех языков программирования, которые поддерживают Thrift.
  • Клиенты JDBC: Hive позволяет приложениям Java подключаться к нему с помощью драйвера JDBC, который определен в классе org..Apache.хадуп.hive.jdbc.HiveDriver.
  • Клиенты ODBC: Драйвер Hive ODBC позволяет приложениям, поддерживающим протокол ODBC, подключаться к Hive. (Как и драйвер JDBC, драйвер ODBC использует Thrift для связи с сервером Hive.)

2. Сервисы Hive:

Hive предоставляет множество услуг, как показано на изображении выше. Давайте посмотрим на каждый из них:

  • Hive CLI (интерфейс командной строки): Это оболочка по умолчанию, предоставляемая Hive, где вы можете напрямую выполнять свои запросы и команды Hive.
  • Веб-интерфейсы Apache Hive: Помимо интерфейса командной строки, Hive также предоставляет графический веб-интерфейс для выполнения запросов и команд Hive.
  • Сервер улья: Сервер Hive построен на Apache Thrift и поэтому также называется Thrift Server, который позволяет различным клиентам отправлять запросы в Hive и получать окончательный результат.
  • Драйвер Apache Hive: Он отвечает за получение запросов, отправленных клиентом через интерфейс командной строки, веб-интерфейс, Thrift, ODBC или JDBC. Затем драйвер передает запрос компилятору, где выполняется синтаксический анализ, проверка типов и семантический анализ с помощью схемы, представленной в хранилище метаданных.. На следующем этапе создается оптимизированный логический план в форме DAG (направленного ациклического графа) задач сокращения карты и задач HDFS. Наконец, механизм выполнения выполняет эти задачи в порядке их зависимостей с помощью Hadoop.
  • Метастор: Вы можете думать о метастазахв качестве центрального репозитория для хранения всей информации метаданных Hive. Метаданные Hive включают в себя различные типы информации, такие как структура таблиц и разделы.вместе со столбцом, типом столбца, сериализатором и десериализатором, которые необходимы для операции чтения / записи данных, представленных в HDFS. Метасторсостоит из двух основных единиц:
    • Сервис, предоставляющий метастордоступ к другимрУслуги улья.
    • Дисковое хранилище для метаданных, отдельное от хранилища HDFS.

Теперь давайте разберемся с различными способами реализации хранилища метаданных Hive.в следующем разделе этого руководства по Hive.

Учебное пособие по Apache Hive: настройка хранилища метаданных

Metastore хранит информацию о метаданных с помощью СУБД и уровня ORM (объектно-реляционная модель) с открытым исходным кодом, называемого Data Nucleus, который преобразует представление объекта в реляционную схему и наоборот. Причина выбора RDBMS вместо HDFS - добиться низкой задержки. Мы можем реализовать метастор в следующих трех конфигурациях:

1. Встроенное хранилище метаданных:

И служба хранилища метаданных, и служба Hive по умолчанию работают в одной JVM с использованием встроенного экземпляра базы данных Derby, где метаданные хранятся на локальном диске. Это называется встроенной конфигурацией хранилища метаданных. В этом случае только один пользователь может подключаться к базе данных хранилища метаданных одновременно. Если вы запустите второй экземпляр драйвера Hive, вы получите сообщение об ошибке. Это хорошо для модульного тестирования, но не для практических решений.

2. Локальное хранилище метаданных:

Эта конфигурация позволяет нам иметь несколько сеансов Hive, то есть несколько пользователей могут использовать базу данных хранилища метаданных одновременно. Это достигается за счет использования любой JDBC-совместимой базы данных, такой как MySQL, которая работает в отдельной JVM или на другом компьютере, чем служба Hive и служба хранилища метаданных, которые работают в той же JVM, как показано выше. В общем, наиболее популярным вариантом является реализация сервера MySQL в качестве базы данных хранилища метаданных.

3. Удаленное хранилище метаданных:

В конфигурации удаленного хранилища метаданных служба хранилища метаданных работает на отдельной отдельной JVM, а не в JVM службы Hive. Другие процессы взаимодействуют с сервером хранилища метаданных с помощью API-интерфейсов Thrift Network. В этом случае у вас может быть один или несколько серверов хранилища метаданных, чтобы обеспечить большую доступность.Основное преимущество использования удаленного хранилища метаданных состоит в том, что вам не нужно совместно использовать учетные данные для входа JDBC с каждым пользователем Hive для доступа к базе данных хранилища метаданных.

Учебное пособие по Apache Hive: модель данных

Данные в Hive можно разделить на три типа на детальном уровне:

что такое пространство имен в c ++
  • Таблица
  • Раздел
  • Ведро

Таблицы:

Таблицы в Hive такие же, как таблицы в реляционной базе данных. Вы можете выполнять с ними операции фильтрации, проектирования, объединения и объединения. В Hive есть два типа таблиц:

1. Управляемая таблица:

Команда:

СОЗДАТЬ ТАБЛИЦУ (тип_данных_столбца1, тип_данных_столбца2)

ЗАГРУЗИТЬ ДАННЫЕ INPATH INTO table managed_table

Как следует из названия (управляемая таблица), Hive отвечает за управление данными управляемой таблицы. Другими словами, говоря «Hive управляет данными», я имел в виду, что если вы загружаете данные из файла, присутствующего в HDFS, в Hive Управляемая таблица и введите на нем команду DROP, таблица вместе с ее метаданными будет удалена. Итак, данные, принадлежащие сброшенному управляемая_таблица больше нигде в HDFS не существует, и вы не можете получить его никаким способом. По сути, вы перемещаете данные, когда вы вводите команду LOAD из местоположения файла HDFS в каталог хранилища Hive.

Заметка: Путь к каталогу хранилища по умолчанию - / user / hive / inventory. Данные таблицы Hive находятся в хранилище_directory. / имя_таблицы (HDFS). Вы также можете указать путь к каталогу хранилища в параметре конфигурации hive.metastore.warehouse.dir, представленном в hive-site.xml.

2. Внешняя таблица:

Команда:

СОЗДАТЬ ВНЕШНЮЮ ТАБЛИЦУ (тип_данных_столбца1, тип_данных_столбца2) МЕСТО ‘’

ЗАГРУЗИТЬ ДАННЫЕ В ТАБЛИЦУ ''

Для внешний стол , Hive не несет ответственности за управление данными. В этом случае, когда вы вводите команду LOAD, Hive перемещает данные в свой каталог хранилища. Затем Hive создает информацию метаданных для внешней таблицы. Теперь, если вы введете команду DROP на внешний стол , будет удалена только информация метаданных, относящаяся к внешней таблице. Следовательно, вы по-прежнему можете получить данные этой самой внешней таблицы из каталога хранилища с помощью команд HDFS.

Перегородки:

Команда:

СОЗДАТЬ ТАБЛИЦУ имя_таблицы (тип_данных_столбца1, тип_данных_столбца2) РАЗДЕЛЕНИЕ ПО (тип_данных_данных_данных, тип_данных_данных_2_данных, & hellip)

Hive организует таблицы в разделы для группирования данных аналогичного типа вместе на основе столбца или ключа раздела. Каждая таблица может иметь один или несколько ключей раздела для идентификации определенного раздела. Это позволяет нам быстрее запрашивать срезы данных.

Заметка: Помните, что наиболее распространенная ошибка при создании разделов - это указание имени существующего столбца в качестве столбца раздела. При этом вы получите ошибку «Ошибка семантического анализа: столбец повторяется в столбцах разделения».

Давайте разберемся с разделением на примере, где у меня есть таблица student_details, содержащая информацию о студенте какого-либо инженерного вуза, такую ​​как student_id, имя, факультет, год и т. Д. Теперь, если я выполняю разбиение на основе столбца кафедры, информация всех студентов принадлежащие к определенному отделу, будут храниться вместе в этом самом разделе. Физически раздел - это не что иное, как подкаталог в каталоге таблицы.

Допустим, у нас есть данные по трем отделам в нашей таблице student_details - CSE, ECE и Civil. Таким образом, у нас будет всего три раздела для каждого из отделов, как показано на изображении ниже. И для каждого отдела у нас будут все данные об этом самом отделе, находящиеся в отдельном подкаталоге в каталоге таблицы Hive. Например, все данные о студентах, относящиеся к отделам CSE, будут храниться в user / hive / inventory / student_details / dept. = CSE. Таким образом, запросы, касающиеся студентов CSE, должны будут только просматривать данные, представленные в разделе CSE. Это делает разбиение очень полезным, поскольку оно сокращает задержку запроса только за счет сканирования соответствующие разделенные данные вместо всего набора данных. Фактически, в реальных реализациях вы будете иметь дело с сотнями ТБ данных. Итак, представьте себе сканирование этого огромного количества данных для запроса, где 95% отсканированные вами данные не имеют отношения к вашему запросу.

Я бы посоветовал вам просмотреть блог на Команды улья где вы найдете различные способы реализации перегородок на примере.

Ковши:

Команды:

СОЗДАТЬ ТАБЛИЦУ имя_таблицы РАЗДЕЛЕНИЕ ПО (тип_данных_данных раздела1, тип_данных_данных раздела2, & hellip.) СОРТИРОВАТЬ ПО (имя_столбца1, имя_столбца2,…) СОРТИРОВАТЬ ПО (имя_столбца [ASC | DESC],…)] В num_buckets BUCKETS

Теперь вы можете разделить каждую секцию или несекционированную таблицу на сегменты на основе хэш-функции столбца в таблице. Фактически, каждая корзина - это просто файл в каталоге раздела или в каталоге таблицы (неразделенная таблица). Следовательно, если вы решили разделить разделы на n сегментов, у вас будет по n файлов в каждом каталоге раздела. Например, вы можете увидеть изображение выше, где мы разбили каждый раздел на 2 сегмента. Итак, в каждом разделе, скажем, CSE, будет два файла, в каждом из которых будут храниться данные учащегося CSE.

Как Hive распределяет ряды по ведрам?

Ну, Hive определяет номер корзины для строки по формуле: hash_function (bucketing_column) по модулю (num_of_buckets) . Здесь hash_function зависит от типа данных столбца. Например, если вы группируете таблицу на основе некоторого столбца, скажем, user_id, с типом данных INT, хеш-функция будет - hash_function (user_id ) = целочисленное значение user_id . И предположим, что вы создали две корзины, тогда Hive определит строки, идущие в корзину 1 в каждом разделе, вычислив: (значение user_id) по модулю (2). Следовательно, в этом случае строки, имеющие user_id, заканчивающийся четной целой цифрой, будут находиться в одном сегменте, соответствующем каждому разделу. Функция hash_function для других типов данных немного сложна для вычисления, и на самом деле для строки она даже не распознается человеком.

Заметка: Если вы используете Apache Hive 0.x или 1.x, вам необходимо выполнить команду - set hive.enforce.bucketing = true с вашего терминала Hive перед выполнением сегментации. Это позволит вам иметь правильное количество редукторов при использовании предложения cluster by для сегментирования столбца. Если вы этого не сделали, вы можете обнаружить, что количество файлов, созданных в вашем каталоге таблиц, не равно количеству сегментов. В качестве альтернативы вы также можете установить количество редукторов, равное количеству корзин, используя set mapred.reduce.task = num_bucket.

Зачем нужны ведра?

Есть две основные причины для выполнения бакетинга в раздел:

  • К соединение стороны карты требует, чтобы данные, принадлежащие уникальному ключу соединения, присутствовали в одном разделе. Но как насчет тех случаев, когда ваш ключ раздела отличается от соединения? Следовательно, в этих случаях вы можете выполнить соединение на стороне карты, разделив таблицу с помощью ключа соединения.
  • Группирование делает процесс выборки более эффективным и, следовательно, позволяет сократить время запроса.

Я хотел бы закончить этот учебный блог Hive здесь. Я почти уверен, что после прочтения этого учебного блога по Hive вы могли бы понять простоту Apache Hive. Поскольку вы, ребята, изучили все основы Hive, пришло время познакомиться с Apache Hive. Итак, ознакомьтесь со следующим блогом из этой серии уроков по Hive, посвященным установке Hive, и начните работать над Apache Hive.

Теперь, когда вы разобрались с Apache Hive и его функциями, ознакомьтесь с от Edureka, надежной компании по онлайн-обучению с сетью из более чем 250 000 довольных учащихся по всему миру. Учебный курс Edureka Big Data по сертификации Hadoop помогает учащимся стать экспертами в области HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, используя примеры использования в реальном времени в области розничной торговли, социальных сетей, авиации, туризма, финансов.

Есть вопрос к нам? Пожалуйста, отметьте это в разделе комментариев, и мы свяжемся с вами.