Как создать кластер Hadoop с помощью Amazon EMR?



В этой статье мы рассмотрим сервис AWS EMR, а в процессе мы узнаем, как создать кластер Hadoop с помощью Amazon EMR?

В этой статье о том, как создать Кластер С помощью Amazon EMR мы увидим, как легко запускать и масштабировать приложения Hadoop и больших данных. Следующие указатели будут рассмотрены в этой статье,

Продолжаем читать Как создать кластер Hadoop с помощью Amazon EMR?





Как создать кластер Hadoop с помощью Amazon EMR?

Когда мы ищем что-то в Google или Yahoo, мы получаем ответ за доли секунды. Как возможно, что Google, Yahoo и другие поисковые системы так быстро возвращают результаты из постоянно растущей сети? Поисковые системы просматривают Интернет, загружают веб-страницы и создают индекс, как показано ниже. Для любого нашего запроса они используют индекс, чтобы выяснить, какие веб-страницы содержат искомый текст. Посмотрев на указатель ниже с правой стороны, мы можем четко понять, что у Hadoop есть веб-страницы 1, 2 и 3.

Изображение - Как создать кластер Hadoop с помощью Amazon EMR - EdurekaЗатем Алгоритм PageRanking используется в зависимости от того, как страницы связаны, чтобы определить, какую страницу показывать вверху, а какая внизу. В приведенном ниже сценарии W1 является «самым популярным», потому что на него ссылаются все, а W4 - «наименее популярным», поскольку на него никто не ссылается. Таким образом, W1 отображается вверху, а W4 внизу в результатах поиска.



С ростом количества веб-страниц эти поисковые машины столкнулись с трудностями при создании индекса и вычислении рейтинга страниц. Именно здесь в Yahoo произошло рождение Hadoop, который позже стал FOSS (Бесплатное программное обеспечение с открытым исходным кодом) в рамках ASF (Apache Software Foundation). Оказавшись в рамках ASF, многие компании начали интересоваться Hadoop и внести свой вклад в его улучшение. Hadoop был первым, кто начал революцию в области больших данных, но многие другие программы, такие как Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume, начали развиваться, чтобы устранить ограничения и пробелы в Hadoop.

Поисковые системы в Интернете были первыми, кто использовал Hadoop, но позже многие варианты использования начали развиваться по мере того, как генерировалось все больше и больше данных. Возьмем пример приложения электронной коммерции, которое используется для рекомендации книг пользователю. Согласно приведенной ниже диаграмме, пользователь1 купил книги1, книгу2 и книгу3, пользователь2 купил несколько книг и так далее. Присмотревшись, мы можем заметить, что у пользователей user1 и user2 одинаковые вкусы, поскольку они купили book1 и book2. Итак, book3 можно рекомендовать пользователю user2, а book4 - пользователю user1. Это называется совместной фильтрацией, разновидностью алгоритма машинного обучения. Мы можем перевернуть диаграмму ниже и получить похожие книги.

В приведенном выше случае мы создали индекс, присвоили рейтинг страниц и рекомендовали пользователю, размер данных был небольшим, поэтому мы смогли визуализировать данные и вывести из них некоторые результаты. Поскольку размер данных увеличивается день ото дня и выходит из-под контроля, именно здесь на помощь приходят инструменты для работы с большими данными, такие как Hadoop.



Hadoop решает множество проблем, но установка Hadoop и другого программного обеспечения для работы с большими данными никогда не была легкой задачей. Необходимо настроить множество параметров конфигурации, например проблемы интеграции, установки и конфигурации. Именно здесь такие компании, как Cloudera, и Databricks помогают. Они упрощают установку программного обеспечения для больших данных и предоставляют коммерческую поддержку, например, допустим, что-то происходит в процессе производства. Amazon EMR (Elastic MapReduce) значительно упрощает использование Hadoop и т. Д. Название Elastic MapReduce несколько неверно, поскольку EMR также поддерживает другие модели распределенных вычислений, такие как Resilient Distributed Datasets, а не только MapReduce.

В этом руководстве мы рассмотрим, как настроить кластер EMR в облаке AWS, а в следующем руководстве мы рассмотрим, как запускать Spark, Hive и другие программы поверх него.

Продолжаем читать Как создать кластер Hadoop с помощью Amazon EMR?

Демонстрация: создание кластера EMR в AWS

Шаг 1: Перейдите в Консоль управления EMR и нажмите «Создать кластер». В консоли метаданные для завершенный кластер также сохраняется в течение двух месяцев бесплатно. Это позволяет клонировать и создавать завершенный кластер.

Шаг 2 : На экране быстрых параметров нажмите «Перейти к дополнительным параметрам», чтобы указать более подробную информацию о кластере.

Шаг 3: На вкладке Advanced Options мы можем выбрать другое программное обеспечение для установки в кластере EMR. Для интерфейса SQL можно выбрать Hive. Для интерфейса на языке потока данных можно выбрать Pig. Для координации распределенного приложения можно выбрать ZooKeeper и так далее. Эта вкладка также позволяет нам добавлять шаги, что является необязательной задачей. Шаги - это задания по обработке больших данных с использованием MapReduce, Pig, Hive и т. Д. Их можно добавить на этой вкладке или позже после создания кластера. Нажмите «Далее», чтобы выбрать оборудование, необходимое для кластера EMR.

Шаг 4: Hadoop следует архитектуре «главный-рабочий», где мастер выполняет всю координацию, такую ​​как планирование и назначение работы, а также проверка их прогресса, в то время как рабочие выполняют фактическую работу по обработке и хранению данных. Одиночный мастер - это Single-Point-Of-Failure (SPOF). Amazon EMR поддерживает работу с несколькими мастерами для обеспечения высокой доступности (HA). Предыдущий шаг позволяет настроить кластер с несколькими мастерами в EMR.

передать по значению и передать по ссылке в java

EMR допускает два типа узлов: Core и Task. Основной узел используется как для обработки, так и для хранения данных, узел задачи используется только для обработки данных. Для этого урока мы можем выбрать только одно ядро ​​и ни одного узла задач, так как это требует для нас меньших затрат. Также выберите Спотовые экземпляры над На лету поскольку спотовые инстансы дешевле. Уловка со спотовыми инстансами заключается в том, что AWS может автоматически их завершить с двухминутное уведомление . Это нормально для практики, а также для некоторых реальных сценариев. Спотовые инстансы автоматически завершаются, поскольку они имеют более низкий приоритет по сравнению с другими типами инстансов. Щелкните «Далее».

Шаг 5: Укажите имя кластера. и нажмите «Далее». Обратите внимание, что «Защита от прерывания» включена по умолчанию, это гарантирует, что кластер EMR не будет случайно удален, путем введения нескольких шагов при завершении кластера.

Шаг 6: На вкладке указаны различные параметры безопасности для кластера EMR. KeyPair необходимо выбрать для входа в экземпляр EC2. EMR автоматически создаст соответствующие роли и группы безопасности и присоединит их к главному и рабочему узлам EC2. Щелкните «Создать кластер».

Создание кластера занимает несколько минут, так как экземпляры EC2 должны быть куплены, а другое программное обеспечение для работы с большими данными должно быть установлено и настроено. Первоначально статус кластера будет в состоянии «Запуск», а затем перейти в состояние «Ожидание». В состоянии «Ожидание» кластер EMR просто ждет, пока мы отправим различные задания по обработке больших данных, такие как MR, Spark, Hive и т. Д.

Также обратите внимание на консоль управления EC2 и обратите внимание, что главный и рабочий экземпляры EC2 должны находиться в рабочем состоянии. Это спотовые инстансы, которые были созданы как часть создания кластера EMR. Тот же самый EC2 также можно увидеть на вкладке «Оборудование» в консоли управления EMR. Обратите внимание, что на вкладке «Оборудование» цена на спотовые инстансы EC2 указана как 0,032 доллара в час. Цена на спотовые инстансы со временем меняется и намного ниже, чем в EC2 по требованию.

Шаг 7: Теперь, когда кластер EMR был успешно добавлен, можно добавить задания по шагам или обработке больших данных. Перейдите на вкладку «Шаги», нажмите «Добавить шаг» и выберите тип шага (MR, Hive, Spark и т. Д.). Мы рассмотрим то же самое в следующем уроке. А пока нажмите 'Отмена'.

Шаг 8: Теперь, когда мы увидели, как запустить EMR, давайте посмотрим, как его остановить.

Шаг 8.1: Щелкните 'Завершить'.

Шаг 8.2: Как упоминалось в предыдущих шагах, «Защита от завершения» включена для кластера EMR, а кнопка «Завершить» отключена. Щелкните 'Изменить'.

Шаг 8.3: Установите переключатель «Выкл.» И щелкните галочку. Теперь кнопка «Завершить» должна быть активирована. Это дополнительный шаг, введенный EMR, чтобы убедиться, что мы случайно не удалим кластер EMR.

Обратите внимание, что кластер EMR будет в состоянии завершения, а блоки EC2 будут отключены. Наконец, кластер EMR будет переведен в статус Terminated, и отсюда наш биллинг с AWS прекращается. Обязательно завершите работу кластера, чтобы не понести дополнительных затрат на AWS.

Заключение

В этом руководстве мы увидели, как запустить кластер EMR в течение нескольких минут из веб-консоли (браузера), то же самое можно автоматизировать с помощью , AWS SDK или с помощью AWS CloudFormation . Как было замечено, настройка кластера EMR может быть выполнена за считанные минуты, и обработка больших данных может быть запущена немедленно, как только обработка будет завершена, выходные данные могут быть сохранены в S3 или DynamoDB и поэтому выключение кластера, чтобы прекратить выставление счетов. Благодаря такой модели ценообразования и простоте использования EMR пользуется успехом у тех, кто занимается обработкой больших данных. Нет необходимости покупать серверы в больших количествах, получать лицензии на программное обеспечение для работы с большими данными и поддерживать их ».

Итак, ребята, мы подошли к концу статьи о том, как создать кластер Hadoop с помощью Amazon EMR?Если вы хотите получить опыт по этому предмету, Edureka разработала учебный план, который точно охватывает то, что вам нужно для сдачи экзамена на архитектор решений! Вы можете ознакомиться с деталями курса для подготовка.

В случае возникновения каких-либо вопросов, связанных с этим блогом, не стесняйтесь задавать вопрос в разделе комментариев ниже, и мы будем более чем рады ответить вам в ближайшее время.