Cloudera Hadoop: начало работы с CDH Distribution



Этот блог Edureka о Cloudera Hadoop Tutorial даст вам полное представление о различных компонентах Cloudera, таких как Cloudera Manager, Parcels, Hue и т. Д.

С ростом спроса на большие данные Apache Hadoopвэто сердце революции, оно изменило способ организации и вычисления данных. Потребность организаций в согласовании Hadoop с потребностями своего бизнеса привела к появлению коммерческих дистрибутивов. Коммерческие дистрибутивы Hadoop обычно содержат функции, предназначенные для упрощения развертывания Hadoop. Cloudera Hadoop Distribution предоставляет масштабируемую, гибкую, интегрированную платформу, которая упрощает управление быстро растущими объемами и разновидностями данных на вашем предприятии.

В этом блоге о распределении Cloudera Hadoop мы рассмотрим следующие темы:





Cloudera Hadoop: Введение в Hadoop

Hadoop - это платформа Apache с открытым исходным кодом, которая хранит и обрабатывает большие данные в распределенной среде.черезкластер с использованием простых моделей программирования. Hadoop обеспечивает параллельные вычисления поверх распределенного хранилища.Чтобы узнать больше о Hadoop подробно, вы можете сослаться на это

После этого краткого введения в Hadoop позвольте мне теперь объяснить различные типы распределения Hadoop.



Cloudera Hadoop: Распределения Hadoop

Поскольку Apache Hadoop является открытым исходным кодом, многие компании разработали дистрибутивы, выходящие за рамки исходного открытого исходного кода. Это очень похоже на дистрибутивы Linux, такие как RedHat, Fedora и Ubuntu. Каждый из дистрибутивов Linux поддерживает свои собственные функции и особенности, такие как удобный графический интерфейс в Ubuntu. Так же, Красная Шапка пользуется популярностью на предприятиях, поскольку предлагает поддержку, а также обеспечивает идеологию внесения изменений в любую часть системы по желанию. Red Hat избавляет вас от проблем совместимости программного обеспечения. Обычно это большая проблема для пользователейкоторые переходят с Windows.

Точно так же существует 3 основных типа дистрибутивов Hadoop, которые имеют собственный набор функций и функций и построены на основе базовой HDFS.

Cloudera против MapR против Hortonworks

Рис: MapR против Hortonworks против Cloudera

Рис: MapR против Hortonworks против Cloudera



Распространение Cloudera Hadoop

Cloudera - это рыночная тенденция в области Hadoop, которая первой выпустила коммерческое распространение Hadoop. Он предлагает консультационные услуги, чтобы преодолеть разрыв между тем, «что предоставляет Apache Hadoop» и «что нужно организациям».

Cloudera Distribution - это:

мелкая и глубокая копия Java
  • Быстро для бизнеса : От аналитики до науки о данных и всего, что между ними, Cloudera обеспечивает производительность, необходимую для раскрытия потенциала неограниченного объема данных.
  • Облегчает управление Hadoop : С Cloudera Manager автоматические мастера позволяют быстро развернуть кластер независимо от масштаба или среды развертывания.
  • Безопасность без компромиссов: Удовлетворяет строгим требованиям к безопасности данных и соответствию требованиям без ущерба для гибкости бизнеса. Cloudera обеспечивает комплексный подход к безопасности и управлению данными.

Horton-Works Распределение

Платформа данных Horton-Works (HDP) - это полностью платформа с открытым исходным кодом, предназначенная для управления данными из многих источников и форматов. Платформа включает в себя различные инструменты Hadoop, такие как распределенная файловая система Hadoop (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive и дополнительные компоненты.

Он также поддерживает такие функции, как:

  • HDP делает Hive Быстрее через свой новый проект Stinger.
  • HDP позволяет избежать привязки к поставщику путем перехода на разветвленную версию Hadoop.
  • HDP ориентирована на повышение качества юзабилити платформы Hadoop.

Распространение MapR

MapR - это поставщик решений Hadoop, ориентированных на платформу, как и HortonWorks и Cloudera. MapR интегрирует свою собственную систему баз данных, известную как MapR-DB, и предлагает услуги распространения Hadoop. Утверждается, что MapR-DB в четыре-семь раз быстрее стандартной базы данных Hadoop, то есть HBase, которая выполняется в других дистрибутивах.

У него есть такие интересные особенности, как:

  • Это единственный дистрибутив Hadoop, который включает Pig, Hive и Sqoop без каких-либо зависимостей от Java, поскольку он полагается на файловую систему MapR.
  • MapR - это наиболее готовый к эксплуатации дистрибутив Hadoop со множеством улучшений, которые делают его более удобным, быстрым и надежным.

Теперь давайте подробно обсудим распределение Cloudera Hadoop.

Подпишитесь на наш канал на YouTube, чтобы получать новости ...

Cloudera Hadoop: распространение Cloudera

Cloudera - самый известный игрок в пространстве Hadoop, выпустивший первый коммерческий дистрибутив Hadoop.

Рис: Распределение Cloudera Hadoop

Cloudera Hadoop Distribution поддерживает следующий набор функций:

  1. CDH Cloudera включает в себя все компоненты с открытым исходным кодом, ориентирован на развертывания корпоративного класса и является одним из самых популярных коммерческих дистрибутивов Hadoop.
  2. Cloudera, известная своими инновациями, была первой, кто предложил SQL для Hadoop с этими Импала механизм запросов.
  3. Консоль управления - Cloudera Manager , прост в использовании и реализации благодаря богатому пользовательскому интерфейсу, отображающему всю информацию о кластере в организованной и понятной форме.
  4. В CDH вы можете добавлять службы в работающий кластер без каких-либо сбоев.
  5. Другие дополнения Cloudera включают безопасность, пользовательский интерфейс и интерфейсы для интеграции со сторонними приложениями.
  6. CDH предоставляет Шаблоны узлов то есть позволяет создавать группу узлов в кластере Hadoop с различной конфигурацией. Это исключает использование одной и той же конфигурации во всем кластере Hadoop.
  7. Он также поддерживает:
    • Надежность
      Поставщики Hadoop незамедлительно реагируют при обнаружении ошибки. С целью сделать коммерческие решения более стабильными, исправления и исправления устанавливаются немедленно.
    • Поддержка
      Поставщики Cloudera Hadoop предоставляют технические рекомендации и помощь, которые упрощают для клиентов внедрение Hadoop для задач корпоративного уровня и критически важных приложений.

    • Полнота
      Поставщики Hadoop объединяют свои дистрибутивы с различными другими дополнительными инструментами, которые помогают клиентам настраивать приложение Hadoop для решения их конкретных задач.

Дистрибутивы Cloudera включают 2 разных типа редакций.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Теперь давайте посмотрим на различия между ними.

особенности Клодера-Экспресс Cloudera-Enterprise
Управление кластером
1. Многокластерное управлениедада
2. Управление ресурсамидада
Развертывание
1. Поддержка CDH 4 и 5дада
2. Последовательное обновление CDHНетда
Управление услугами и конфигурациями
1. Управление сервисами HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark и Accumulo.дада
2. Прокатный перезапуск сервисовНетда
Безопасность
1. Аутентификация LDAPНетда
2. Проверка подлинности SAMLНетда
Мониторинг и диагностика
1. История здоровьядада
Управление предупреждениями
1. Уведомление по электронной почтедада
2. Оповещение через SNMP.Нетда
Расширенные функции управления
1. Автоматическое резервное копирование и восстановлениеНетда
2. Просмотр и поиск файловНетда
3. Отчеты об использовании MapReduce, Impala, HBase, Yarn.Нетда

Cloudera Hadoop: менеджер Cloudera

По словам Клодеры, Cloudera Manager - лучший способ установить , настроить , управлять , и монитор стек Hadoop.

Это обеспечивает:

  1. Автоматическое развертывание и настройка
  2. Настраиваемый мониторинг и отчетность
  3. Устранение неполадок без усилий
  4. Ноль - время простоя обслуживания

Получите подробные сведения о Cloudera Hadoop и его различных инструментах

Демонстрация Cloudera Manager

Давайте изучим Cloudera Manager.

1. На рисунке ниже показано количество служб, которые в данный момент работают в Cloudera Manager. Вы также можете просмотреть графики использования ЦП кластера, использования дискового ввода-вывода и т. Д.

Рис: Домашняя страница Cloudera Manager

2. Изображение ниже демонстрирует кластер HBase. Он дает вам диаграммы и графики о состоянии работоспособности текущего сервера HBase REST.

Рис: Состояние здоровья сервера HBase

3. Теперь давайте взглянем на вкладку «Экземпляры» в кластере HBase, где вы можете проверить статус и конфигурацию IP.

Рис: Статус и IP-адрес Хост-сервера кластера HBase

4. Далее у вас есть вкладка Configuration. Здесь вы можете увидеть все параметры конфигурации и изменить их значения.

Рис: Конфигурация кластера HBase

Теперь давайте разберемся, что такое посылки в Cloudera.

Cloudera Hadoop: Посылки

Посылка - это двоичный формат распространения, содержащий файлы программы, а также дополнительные метаданные, используемые Cloudera Manager.

Посылки являются автономными и устанавливаются в каталог с поддержкой версий, что означает, что несколько версий данной службы могут быть установлены бок о бок.

Ниже приведены преимущества использования Parcel:

  • Он обеспечивает распространение CDH как одного объекта, то есть вместо того, чтобы иметь отдельный пакет для каждой части CDH, у посылок есть только один объект для установки.

  • Он обеспечивает внутреннюю согласованность (поскольку полный CDH распространяется как единый пакет, все компоненты CDH согласованы, и не будет риска того, что разные части будут поступать из разных версий CDH).

  • Вы можете устанавливать, обновлять, понижать, распространять и активировать пакеты в CDH с помощью нескольких щелчков мышью.

Теперь давайте посмотрим, как установить и активировать службу Kafka в CDH с помощью Parcels.

Apache Spark по сравнению с Hadoop Mapreduce
  1. Перейдите на главную страницу менеджера Cloudera >> Хосты >> Посылки, как показано ниже.

    Рис: Выбор посылок у хозяев

2. Если вы не видите Кафку в списке посылок, вы можете добавить посылку в список.

  1. Найдите пакет с версией Kafka, которую хотите использовать. Если вы его не видите, вы можете добавить репозиторий посылок в список.
  2. Найдите посылку с той версией Kafka, которую хотите установить - Распространение Cloudera версий Apache Kafka .
    Рисунок ниже демонстрирует то же самое.

Рис: Путь к репозиторию посылки.

3. Скопируйте ссылку, как показано на рисунке выше, и добавьте ее в репозиторий удаленных посылок, как показано ниже.

Рис: Добавление пути Kafka из репозитория

Четыре.После добавления пути Kafka будет готов к загрузке. Вы можете просто нажать кнопку загрузки и загрузить Kafka.

Рис: Скачивание Kafka

5. После загрузки Kafka все, что вам нужно сделать, это распространить и активировать его.

Рис: Активация Kafka

После активации вы можете перейти к просмотру Kafka на вкладке служб в диспетчере Cloudera.

Рис: Сервис Kafka

Cloudera Hadoop: создание рабочего процесса Oozie

Создание рабочего процесса путем написания кода XML вручную и его последующего выполнения является сложной задачей. Вы можете сослаться на это Планирование работы Oozie блог, чтобы узнать о традиционном подходе.

Вы можете увидеть изображение ниже, где мы написали XML-файл для создания простого рабочего процесса Oozie. Рис. Создание рабочего процесса Oozie с использованием традиционного подхода

Как видите, даже для создания простого планировщика Oozie нам пришлось написать огромный XML-код, что отнимает много времени, а отладка каждой отдельной строки становится громоздкой. Чтобы преодолеть это, Cloudera Manager представил новую функцию под названием Оттенок который предоставляет графический интерфейс и простые функции перетаскивания для создания и выполнения рабочих процессов Oozie.

Теперь давайте посмотрим, как Hue выполняет ту же задачу в упрощенном виде.

Перед созданием рабочего процесса давайте сначала создадим входные файлы, то есть clickstream.txt и user.txt.
В файле user.txt у нас есть идентификатор пользователя, имя, возраст, страна, пол, как показано ниже. Нам нужен этот пользовательский файл, чтобы знать, сколько пользователей подсчитывает и нажимает на URL (упомянутый в файле потока кликов) на основе идентификатора пользователя.

Рис: Создание текстового файла

Чтобы узнать количество кликов пользователя по каждому URL, у нас есть поток кликов, содержащий идентификатор пользователя и URL.

Рис: Файл Clickstream

Исключение нулевого указателя в примере программы Java

Запишем запросы в файл скрипта.

Рис: Файл скрипта

После создания файла пользователя, файла потока кликов и файла сценария мы можем продолжить и создать рабочий процесс Oozie.

1. Вы можете просто перетащить рабочий процесс Oozie, как показано на рисунке.

Рис. Функция перетаскивания при создании рабочего процесса Oozie

2. Вскоре после отбрасывания действия вы должны указать пути к файлу сценария и добавить параметры, указанные в файле сценария. Здесь вам нужно добавить параметры OUTPUT, CLICKSTREAM и USER и указать путь к каждому из параметров.

Рис: Добавление файла сценария и необходимых параметров для выполнения действия

3. После того, как вы указали пути и добавили параметры, теперь просто сохраните и отправьте рабочий процесс, как показано на изображении ниже.

Рис: Сохранение и отправка действия Oozie

4. Как только вы отправите задание, ваша работа будет завершена. Исполнение и другие шаги берет на себя Hue.

Рис: Статус выполнения задания Oozie

5.Теперь, когда мы выполнили задание Oozie, давайте взглянем на вкладку действий. Он содержит идентификатор пользователя и статус рабочего процесса. Он также показывает коды ошибок, если они есть, время начала и окончания действия.

Рис: Элементы, присутствующие на вкладке действий рабочего процесса Oozie

6. Рядом с вкладкой действий находится вкладка сведений. В нем мы можем увидеть время начала и время последнего изменения задания.

Рис: Подробная информация о рабочем процессе Oozie.

7. Рядом со вкладкой «Подробности» находится вкладка «Конфигурация» рабочего процесса.

Рис: Параметры конфигурации рабочего процесса Oozie

7. При выполнении элемента действия, если есть какие-либо ошибки, они будут перечислены на вкладке Журнал. Вы можете обратиться к сообщениям об ошибках и отладить их соответствующим образом.

Рис: Файл журнала, содержащий коды ошибок и сообщения об ошибках

8. Вот XML-код рабочего процесса, который автоматически генерируется Hue.

Рис: XML-код рабочего процесса Oozie

9.1. Поскольку вы уже указали путь к выходному каталогу на шаге 2, здесь у вас есть выходной каталог в браузере HDFS, как показано ниже.

Рис: Выходной каталог браузера HDFS

9.2 После того, как вы нажмете на выходной каталог, вы найдете текстовый файл с именем output.txt, и этот текстовый файл содержит фактические выходные данные, как показано на рисунке ниже.

Рис: Окончательный выходной текст

Вот как Hue упрощает нашу работу, предоставляя параметры перетаскивания для создания рабочего процесса Oozie.

Я надеюсь, что этот блог был полезен для понимания дистрибутива Cloudera и различных компонентов Cloudera.

Хотите принять участие в революции больших данных?

Теперь, когда вы узнали о распределении Cloudera Hadoop, ознакомьтесь с от Edureka, надежной компании по онлайн-обучению с сетью из более чем 250 000 довольных учащихся по всему миру. Учебный курс Edureka Big Data по сертификации Hadoop помогает учащимся стать экспертами в области HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, используя примеры использования в реальном времени в области розничной торговли, социальных сетей, авиации, туризма, финансов.

Есть вопрос к нам? Пожалуйста, отметьте это в разделе комментариев, и мы свяжемся с вами.