Установка Hadoop: настройка кластера Hadoop с одним узлом
Из наших предыдущих блогов на , у вас должно быть теоретическое представление о Hadoop, HDFS и ее архитектуре.Но чтобы получить вам нужны хорошие практические знания.Надеюсь, вам понравился наш предыдущий блог на , теперь я познакомлю вас с практическими знаниями о Hadoop и HDFS. Первый шаг вперед - установка Hadoop.
Установить Hadoop можно двумя способами: Один узел и Мульти узел .
Кластер с одним узлом означает, что работает только один DataNode и настраивает все NameNode, DataNode, ResourceManager и NodeManager на одной машине. Это используется для изучения и тестирования. Например, давайте рассмотрим образец набора данных в отрасли здравоохранения. Итак, чтобы проверить, запланировали ли задания Oozie все процессы, такие как сбор, агрегирование, хранение и обработка данных в надлежащей последовательности, мы используем кластер с одним узлом. Он может легко и эффективно тестировать последовательный рабочий процесс в меньшей среде по сравнению с большими средами, которые содержат терабайты данных, распределенных по сотням машин.
В то время как в Многоузловой кластер , работает более одного DataNode, и каждый DataNode работает на разных машинах. Многоузловой кластер практически используется в организациях для анализа больших данных. Рассматривая приведенный выше пример, в реальном времени, когда мы имеем дело с петабайтами данных, их необходимо распределить по сотням машин для обработки. Таким образом, здесь мы используем многоузловой кластер.
В этом блоге я покажу вам, как установить Hadoop в кластере с одним узлом.
Предпосылки
- ВИРТУАЛЬНАЯ КОРОБКА : используется для установки на него операционной системы.
- ОПЕРАЦИОННАЯ СИСТЕМА : Вы можете установить Hadoop в операционных системах на базе Linux. Очень часто используются Ubuntu и CentOS. В этом руководстве мы используем CentOS.
- ЯВА : Вам необходимо установить пакет Java 8 в вашей системе.
- HADOOP : Вам необходим пакет Hadoop 2.7.3.
Установить Hadoop
Шаг 1: кликните сюда чтобы загрузить пакет Java 8. Сохраните этот файл в своем домашнем каталоге.
Шаг 2: Распакуйте файл Java Tar.
Команда : tar -xvf jdk-8u101-linux-i586.tar.gz
Рис: Установка Hadoop - Извлечение файлов Java
Шаг 3: Загрузите пакет Hadoop 2.7.3.
Команда : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Рис: Установка Hadoop - загрузка Hadoop
Шаг 4: Распакуйте tar-файл Hadoop.
Команда : tar -xvf hadoop-2.7.3.tar.gz
Рис: Установка Hadoop - Извлечение файлов Hadoop
Шаг 5: Добавьте пути Hadoop и Java в файл bash (.bashrc).
Открыто . bashrc файл. Теперь добавьте Hadoop и Java Path, как показано ниже.
Команда : vi .bashrc
Рис: Установка Hadoop - Настройка переменной среды
Затем сохраните файл bash и закройте его.
Чтобы применить все эти изменения к текущему Терминалу, выполните исходную команду.
Команда : источник .bashrc
Рис: Установка Hadoop - Обновление переменных среды
базовая структура Java-программы
Чтобы убедиться, что Java и Hadoop правильно установлены в вашей системе и доступны через Терминал, execute команды java -version и hadoop version.
Команда : Ява-версия
Рис: Установка Hadoop - Проверка версии Java
Команда : хадупверсия
Рис: Установка Hadoop - Проверка версии Hadoop
Шаг 6 : Отредактируйте .
Команда: компакт-диск hadoop-2.7.3 / и т.д. / hadoop /
Команда: ls
Все файлы конфигурации Hadoop находятся в Хадуп-2.7.3 / и т.д. / Хадуп каталог, как вы можете видеть на снимке ниже:
структура данных и алгоритм в java
Рис: Установка Hadoop - файлы конфигурации Hadoop
Шаг 7 : Открыто core-site.xml и отредактируйте указанное ниже свойство внутри тега конфигурации:
core-site.xml сообщает демону Hadoop, где в кластере выполняется NameNode. Он содержит параметры конфигурации ядра Hadoop, такие как параметры ввода-вывода, общие для HDFS и MapReduce.
Команда : vi core-site.xml
Рис: Установка Hadoop - Настройка core-site.xml
fs.default.name hdfs: // локальный: 9000
Шаг 8: редактировать hdfs-site.xml и отредактируйте указанное ниже свойство внутри тега конфигурации:
hdfs-site.xml содержит параметры конфигурации демонов HDFS (например, NameNode, DataNode, Secondary NameNode). Он также включает коэффициент репликации и размер блока HDFS.
Команда : vi hdfs-site.xml
Рис: Установка Hadoop - Настройка hdfs-site.xml
dfs.replication 1 dfs.permission false
Шаг 9 : Отредактируйте mapred-site.xml файл и отредактируйте свойство, указанное ниже, внутри тега конфигурации:
mapred-site.xml содержит параметры конфигурации приложения MapReduce, такие как количество JVM, которые могут работать параллельно, размер сопоставителя и процесса редуктора, количество ядер ЦП, доступных для процесса и т. д.
В некоторых случаях файл mapred-site.xml недоступен. Итак, нам нужно создать файл mapred-site.xmlиспользуя шаблон mapred-site.xml.
Команда : cp mapred-site.xml.template mapred-site.xml
Команда : мы mapred-сайт.xml.
Рис: Установка Hadoop - Настройка mapred-site.xml
mapreduce.framework.name пряжа
Шаг 10: редактировать пряжа-site.xml и отредактируйте указанное ниже свойство внутри тега конфигурации:
пряжа-site.xml содержит параметры конфигурации ResourceManager и NodeManager, такие как размер управления памятью приложения, операции, необходимые для программы и алгоритма, и т. д.
Команда : vi пряжа-site.xml
Рис: Установка Hadoop - Настройка yarn-site.xml
yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler
Шаг 11: редактировать hadoop-env.sh и добавьте Java Path, как указано ниже:
hadoop-env.sh содержит переменные среды, которые используются в сценарии для запуска Hadoop, например, домашний путь Java и т. д.
Команда : мы хадуп-окр.ш
Рис: Установка Hadoop - Настройка hadoop-env.sh
Шаг 12: Перейдите в домашний каталог Hadoop и отформатируйте NameNode.
Команда : компакт диск
Команда : компакт-диск hadoop-2.7.3
Команда : bin / hadoop назначение -format
Рис: Установка Hadoop - Форматирование NameNode
Это форматирует HDFS через NameNode. Эта команда выполняется только впервые. Форматирование файловой системы означает инициализацию каталога, указанного в переменной dfs.name.dir.
Никогда не форматируйте, не настраивайте и не запускайте файловую систему Hadoop. Вы потеряете все свои данные, хранящиеся в HDFS.
Шаг 13: После форматирования NameNode перейдите в каталог hadoop-2.7.3 / sbin и запустите все демоны.
Команда: компакт-диск hadoop-2.7.3 / sbin
Вы можете запустить всех демонов с помощью одной команды или по отдельности.
Команда: ./ start-all.sh
Вышеупомянутая команда представляет собой комбинацию start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh
Или вы можете запустить все службы по отдельности, как показано ниже:
Начальное имя Узел:
NameNode - это центральный элемент файловой системы HDFS. Он хранит дерево каталогов всех файлов, хранящихся в HDFS, и отслеживает все файлы, хранящиеся в кластере.
Команда: ./hadoop-daemon.sh цель запуска
Рис: Установка Hadoop - Начальный NameNode
Запустить DataNode:
При запуске DataNode подключается к Namenode и отвечает на запросы Namenode о различных операциях.
Команда: ./hadoop-daemon.sh запустить узел данных
Рис: Установка Hadoop - Запуск DataNode
Запустите ResourceManager:
ResourceManager - это мастер, который управляет всеми доступными ресурсами кластера и, таким образом, помогает управлять распределенными приложениями, работающими в системе YARN. Его работа заключается в управлении каждым NodeManager и ApplicationMaster каждого приложения.
Команда: ./yarn-daemon.sh запустить менеджер ресурсов
приведение типов в java с примером
Рис: Установка Hadoop - Запуск ResourceManager
Запустите NodeManager:
NodeManager в каждой машинной структуре - это агент, который отвечает за управление контейнерами, мониторинг их использования ресурсов и сообщает об этом в ResourceManager.
Команда: ./yarn-daemon.sh запустить nodemanager
Рис: Установка Hadoop - запуск NodeManager
Запустите JobHistoryServer:
JobHistoryServer отвечает за обслуживание всех запросов от клиента, связанных с историей заданий.
Команда : ./mr-jobhistory-daemon.sh запустить сервер истории
Шаг 14: Чтобы проверить, что все службы Hadoop запущены и работают, выполните следующую команду.
Команда: jps
Рис. Установка Hadoop - проверка демонов
Шаг 15: Теперь откройте браузер Mozilla и перейдите в localhost : 50070 / dfshealth.html чтобы проверить интерфейс NameNode.
Рис: Установка Hadoop - Запуск WebUI
Поздравляем, вы успешно установили кластер Hadoop с одним узлом за один раз.В нашем следующем блоге , мы также расскажем, как установить Hadoop в многоузловом кластере.
Теперь, когда вы поняли, как установить Hadoop, ознакомьтесь с от Edureka, надежной компании по онлайн-обучению с сетью из более чем 250 000 довольных учащихся по всему миру. Учебный курс Edureka Big Data Hadoop Certification Training помогает учащимся стать экспертами в области HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, используя примеры использования в реальном времени в области розничной торговли, социальных сетей, авиации, туризма, финансов.
Есть вопрос к нам? Пожалуйста, укажите это в комментариях, и мы свяжемся с вами.