Установка Hadoop: настройка кластера Hadoop с одним узлом



Это руководство представляет собой пошаговое руководство по установке кластера Hadoop и его настройке на одном узле. Все шаги по установке Hadoop относятся к машине CentOS.

Установка Hadoop: настройка кластера Hadoop с одним узлом

Из наших предыдущих блогов на , у вас должно быть теоретическое представление о Hadoop, HDFS и ее архитектуре.Но чтобы получить вам нужны хорошие практические знания.Надеюсь, вам понравился наш предыдущий блог на , теперь я познакомлю вас с практическими знаниями о Hadoop и HDFS. Первый шаг вперед - установка Hadoop.

Установить Hadoop можно двумя способами: Один узел и Мульти узел .





Кластер с одним узлом означает, что работает только один DataNode и настраивает все NameNode, DataNode, ResourceManager и NodeManager на одной машине. Это используется для изучения и тестирования. Например, давайте рассмотрим образец набора данных в отрасли здравоохранения. Итак, чтобы проверить, запланировали ли задания Oozie все процессы, такие как сбор, агрегирование, хранение и обработка данных в надлежащей последовательности, мы используем кластер с одним узлом. Он может легко и эффективно тестировать последовательный рабочий процесс в меньшей среде по сравнению с большими средами, которые содержат терабайты данных, распределенных по сотням машин.

В то время как в Многоузловой кластер , работает более одного DataNode, и каждый DataNode работает на разных машинах. Многоузловой кластер практически используется в организациях для анализа больших данных. Рассматривая приведенный выше пример, в реальном времени, когда мы имеем дело с петабайтами данных, их необходимо распределить по сотням машин для обработки. Таким образом, здесь мы используем многоузловой кластер.



В этом блоге я покажу вам, как установить Hadoop в кластере с одним узлом.

Предпосылки

  • ВИРТУАЛЬНАЯ КОРОБКА : используется для установки на него операционной системы.
  • ОПЕРАЦИОННАЯ СИСТЕМА : Вы можете установить Hadoop в операционных системах на базе Linux. Очень часто используются Ubuntu и CentOS. В этом руководстве мы используем CentOS.
  • ЯВА : Вам необходимо установить пакет Java 8 в вашей системе.
  • HADOOP : Вам необходим пакет Hadoop 2.7.3.

Установить Hadoop

Шаг 1: кликните сюда чтобы загрузить пакет Java 8. Сохраните этот файл в своем домашнем каталоге.

Шаг 2: Распакуйте файл Java Tar.

Команда : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Установить Hadoop - Edureka



Рис: Установка Hadoop - Извлечение файлов Java

Шаг 3: Загрузите пакет Hadoop 2.7.3.

Команда : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Рис: Установка Hadoop - загрузка Hadoop

Шаг 4: Распакуйте tar-файл Hadoop.

Команда : tar -xvf hadoop-2.7.3.tar.gz

Рис: Установка Hadoop - Извлечение файлов Hadoop

Шаг 5: Добавьте пути Hadoop и Java в файл bash (.bashrc).

Открыто . bashrc файл. Теперь добавьте Hadoop и Java Path, как показано ниже.

Команда : vi .bashrc

Рис: Установка Hadoop - Настройка переменной среды

Затем сохраните файл bash и закройте его.

Чтобы применить все эти изменения к текущему Терминалу, выполните исходную команду.

Команда : источник .bashrc

Рис: Установка Hadoop - Обновление переменных среды

базовая структура Java-программы

Чтобы убедиться, что Java и Hadoop правильно установлены в вашей системе и доступны через Терминал, execute команды java -version и hadoop version.

Команда : Ява-версия

Рис: Установка Hadoop - Проверка версии Java

Команда : хадупверсия

Рис: Установка Hadoop - Проверка версии Hadoop

Шаг 6 : Отредактируйте .

Команда: компакт-диск hadoop-2.7.3 / и т.д. / hadoop /

Команда: ls

Все файлы конфигурации Hadoop находятся в Хадуп-2.7.3 / и т.д. / Хадуп каталог, как вы можете видеть на снимке ниже:

структура данных и алгоритм в java

Рис: Установка Hadoop - файлы конфигурации Hadoop

Шаг 7 : Открыто core-site.xml и отредактируйте указанное ниже свойство внутри тега конфигурации:

core-site.xml сообщает демону Hadoop, где в кластере выполняется NameNode. Он содержит параметры конфигурации ядра Hadoop, такие как параметры ввода-вывода, общие для HDFS и MapReduce.

Команда : vi core-site.xml

Рис: Установка Hadoop - Настройка core-site.xml

fs.default.name hdfs: // локальный: 9000

Шаг 8: редактировать hdfs-site.xml и отредактируйте указанное ниже свойство внутри тега конфигурации:

hdfs-site.xml содержит параметры конфигурации демонов HDFS (например, NameNode, DataNode, Secondary NameNode). Он также включает коэффициент репликации и размер блока HDFS.

Команда : vi hdfs-site.xml

Рис: Установка Hadoop - Настройка hdfs-site.xml

dfs.replication 1 dfs.permission false

Шаг 9 : Отредактируйте mapred-site.xml файл и отредактируйте свойство, указанное ниже, внутри тега конфигурации:

mapred-site.xml содержит параметры конфигурации приложения MapReduce, такие как количество JVM, которые могут работать параллельно, размер сопоставителя и процесса редуктора, количество ядер ЦП, доступных для процесса и т. д.

В некоторых случаях файл mapred-site.xml недоступен. Итак, нам нужно создать файл mapred-site.xmlиспользуя шаблон mapred-site.xml.

Команда : cp mapred-site.xml.template mapred-site.xml

Команда : мы mapred-сайт.xml.

Рис: Установка Hadoop - Настройка mapred-site.xml

mapreduce.framework.name пряжа

Шаг 10: редактировать пряжа-site.xml и отредактируйте указанное ниже свойство внутри тега конфигурации:

пряжа-site.xml содержит параметры конфигурации ResourceManager и NodeManager, такие как размер управления памятью приложения, операции, необходимые для программы и алгоритма, и т. д.

Команда : vi пряжа-site.xml

Рис: Установка Hadoop - Настройка yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Шаг 11: редактировать hadoop-env.sh и добавьте Java Path, как указано ниже:

hadoop-env.sh содержит переменные среды, которые используются в сценарии для запуска Hadoop, например, домашний путь Java и т. д.

Команда : мы хадуп-окр.ш

Рис: Установка Hadoop - Настройка hadoop-env.sh

Шаг 12: Перейдите в домашний каталог Hadoop и отформатируйте NameNode.

Команда : компакт диск

Команда : компакт-диск hadoop-2.7.3

Команда : bin / hadoop назначение -format

Рис: Установка Hadoop - Форматирование NameNode

Это форматирует HDFS через NameNode. Эта команда выполняется только впервые. Форматирование файловой системы означает инициализацию каталога, указанного в переменной dfs.name.dir.

Никогда не форматируйте, не настраивайте и не запускайте файловую систему Hadoop. Вы потеряете все свои данные, хранящиеся в HDFS.

Шаг 13: После форматирования NameNode перейдите в каталог hadoop-2.7.3 / sbin и запустите все демоны.

Команда: компакт-диск hadoop-2.7.3 / sbin

Вы можете запустить всех демонов с помощью одной команды или по отдельности.

Команда: ./ start-all.sh

Вышеупомянутая команда представляет собой комбинацию start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Или вы можете запустить все службы по отдельности, как показано ниже:

Начальное имя Узел:

NameNode - это центральный элемент файловой системы HDFS. Он хранит дерево каталогов всех файлов, хранящихся в HDFS, и отслеживает все файлы, хранящиеся в кластере.

Команда: ./hadoop-daemon.sh цель запуска

Рис: Установка Hadoop - Начальный NameNode

Запустить DataNode:

При запуске DataNode подключается к Namenode и отвечает на запросы Namenode о различных операциях.

Команда: ./hadoop-daemon.sh запустить узел данных

Рис: Установка Hadoop - Запуск DataNode

Запустите ResourceManager:

ResourceManager - это мастер, который управляет всеми доступными ресурсами кластера и, таким образом, помогает управлять распределенными приложениями, работающими в системе YARN. Его работа заключается в управлении каждым NodeManager и ApplicationMaster каждого приложения.

Команда: ./yarn-daemon.sh запустить менеджер ресурсов

приведение типов в java с примером

Рис: Установка Hadoop - Запуск ResourceManager

Запустите NodeManager:

NodeManager в каждой машинной структуре - это агент, который отвечает за управление контейнерами, мониторинг их использования ресурсов и сообщает об этом в ResourceManager.

Команда: ./yarn-daemon.sh запустить nodemanager

Рис: Установка Hadoop - запуск NodeManager

Запустите JobHistoryServer:

JobHistoryServer отвечает за обслуживание всех запросов от клиента, связанных с историей заданий.

Команда : ./mr-jobhistory-daemon.sh запустить сервер истории

Шаг 14: Чтобы проверить, что все службы Hadoop запущены и работают, выполните следующую команду.

Команда: jps

Рис. Установка Hadoop - проверка демонов

Шаг 15: Теперь откройте браузер Mozilla и перейдите в localhost : 50070 / dfshealth.html чтобы проверить интерфейс NameNode.

Рис: Установка Hadoop - Запуск WebUI

Поздравляем, вы успешно установили кластер Hadoop с одним узлом за один раз.В нашем следующем блоге , мы также расскажем, как установить Hadoop в многоузловом кластере.

Теперь, когда вы поняли, как установить Hadoop, ознакомьтесь с от Edureka, надежной компании по онлайн-обучению с сетью из более чем 250 000 довольных учащихся по всему миру. Учебный курс Edureka Big Data Hadoop Certification Training помогает учащимся стать экспертами в области HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, используя примеры использования в реальном времени в области розничной торговли, социальных сетей, авиации, туризма, финансов.

Есть вопрос к нам? Пожалуйста, укажите это в комментариях, и мы свяжемся с вами.