Обзор Федерации кластерной архитектуры Hadoop 2.0



Apache Hadoop 2.x состоит из значительных улучшений по сравнению с Hadoop 1.x. В этом блоге рассказывается о Федерации кластерной архитектуры Hadoop 2.0 и ее компонентах.

Федерация кластерной архитектуры Hadoop 2.0

Введение:

В этом блоге я подробно расскажу о Федерации кластерной архитектуры Hadoop 2.0. Apache Hadoop претерпел значительные изменения со времени выпуска Apache Hadoop 1.x. Как вы знаете из моего предыдущего блога, следует топологии Master / Slave, где NameNode действует как главный демон и отвечает за управление другими подчиненными узлами, называемыми DataNodes. В этой экосистеме этот единственный главный демон или NameNode становится узким местом, и, наоборот, компаниям необходимо иметь NameNode, который является высокодоступным. Именно эта причина легла в основу архитектуры федерации HDFS и Архитектура HA (высокая доступность) .

В этом блоге я рассмотрел следующие темы:





  • Текущая архитектура HDFS
  • Ограничения текущей архитектуры HDFS
  • Архитектура федерации HDFS

Обзор текущей архитектуры HDFS:

Архитектура HDFS с единым пространством имен - Обзор федерации кластерной архитектуры Hadoop 2.0 - Edureka

Как вы можете видеть на рисунке выше, текущая HDFS имеет два уровня:



  • Пространство имен HDFS (NS): Этот уровень отвечает за управление каталогами, файлами и блоками. Он обеспечивает все операции файловой системы, связанные с пространством имен, такие как создание, удаление или изменение файлов или файловых каталогов.
  • Уровень хранения: Он состоит из двух основных компонентов.
    1. Блок управления : Выполняет следующие операции:
      • Периодически проверяет тактовые импульсы DataNode и управляет членством DataNode в кластере.
      • Управляет отчетами о блоках и поддерживает местоположение блока.
      • Поддерживает операции с блоками, такие как создание, изменение, удаление и выделение местоположения блока.
      • Поддерживает согласованный коэффициент репликации во всем кластере.

2. Физическая память : Им управляют узлы данных, которые отвечают за хранение данных и, таким образом, предоставляют доступ для чтения / записи к данным, хранящимся в HDFS.

Итак, текущая архитектура HDFS позволяет иметь единое пространство имен для кластера. В этой архитектуре единственный NameNode отвечает за управление пространством имен. Эта архитектура очень удобна и проста в реализации. Кроме того, он обеспечивает достаточные возможности для удовлетворения потребностей небольшого производственного кластера.

Ограничения текущей HDFS:

Как обсуждалось ранее, нынешней HDFS действительно достаточно для нужд и вариантов использования небольшого производственного кластера. Но крупные организации, такие как Yahoo, Facebook, обнаружили некоторые ограничения по мере экспоненциального роста кластера HDFS. Давайте кратко рассмотрим некоторые ограничения:



  1. Пространство имен не масштабируемый как DataNodes. Следовательно, у нас может быть только то количество DataNodes в кластере, которое может обрабатывать один NameNode.
  2. Два уровня, т.е. слой пространства имен и уровень хранения, являются тесно связаны что очень затрудняет альтернативную реализацию NameNode.
  3. Производительность всей системы Hadoop зависит от пропускная способность узла NameNode. Следовательно, общая производительность всех операций HDFS зависит от того, сколько задач NameNode может обработать в конкретный момент времени.
  4. NameNode хранит все пространство имен в ОЗУ для быстрого доступа. Это приводит к ограничениям с точки зрения объем памяти то есть количество объектов пространства имен (файлов и блоков), с которыми может справиться один сервер пространства имен.
  5. Многие организации (поставщики), имеющие развертывание HDFS, позволяют нескольким организациям (арендаторам) использовать их пространство имен кластера. Итак, нет разделения пространства имен и, следовательно, есть нет изоляции среди организаций-арендаторов, использующих кластер.

Архитектура федерации HDFS:

  • В архитектуре федерации HDFS у нас есть горизонтальная масштабируемость службы имен. Следовательно, у нас есть несколько NameNodes, которые являются федеративными, то есть независимыми друг от друга.
  • Узлы данных находятся внизу, то есть на нижележащем уровне хранения.
  • Каждый DataNode регистрируется со всеми NameNode в кластере.
  • Узлы данных передают периодические контрольные сообщения, блокируют отчеты и обрабатывают команды от узлов имен.

Графическое представление архитектуры федерации HDFS дано ниже:

Прежде чем двигаться дальше, позвольте мне кратко рассказать об архитектурном образе выше:

  • Существует несколько пространств имен (NS1, NS2,…, NSn), и каждое из них управляется своим соответствующим NameNode.
  • Каждое пространство имен имеет свой собственный пул блоков (NS1 имеет пул 1, NSk имеет пул k и так далее).
  • Как показано на изображении, блоки из пула 1 (небесно-голубой) хранятся в DataNode 1, DataNode 2 и так далее. Точно так же все блоки из каждого пула блоков будут находиться на всех узлах данных.

Теперь давайте подробно разберемся с компонентами архитектуры федерации HDFS:

Блок-пул:

Пул блоков - это не что иное, как набор блоков, принадлежащих определенному пространству имен. Итак, у нас есть набор пулов блоков, в котором каждый пул блоков управляется независимо от другого. Эта независимость, при которой каждый пул блоков управляется независимо, позволяет пространству имен создавать идентификаторы блоков для новых блоков без координации с другими пространствами имен. Блоки данных, присутствующие во всем пуле блоков, хранятся во всех узлах данных. По сути, пул блоков обеспечивает абстракцию, так что блоки данных, находящиеся в узлах данных (как в архитектуре единого пространства имен), могут быть сгруппированы в соответствии с определенным пространством имен.

Объем пространства имен:

Том пространства имен - это не что иное, как пространство имен вместе с его пулом блоков. Следовательно, в федерации HDFS у нас есть несколько томов пространства имен. Это автономная единица управления, т.е. каждый том пространства имен может функционировать независимо. Если NameNode или пространство имен удаляются, соответствующий пул блоков, который находится на DataNodes, также будет удален.

Демонстрация федерации кластерной архитектуры Hadoop 2.0 | Эдурека

Теперь, я думаю, у вас есть довольно хорошее представление об архитектуре федерации HDFS. Это скорее теоретическая концепция, и люди обычно не используют ее в практической производственной системе. Есть некоторые проблемы с реализацией HDFS Federation, которые затрудняют развертывание. Следовательно Архитектура HA (высокая доступность) является предпочтительным для решения проблемы единой точки отказа. Я покрыл Архитектура HDFS HA в моем следующем блоге.

начало работы с визуальной студией

Теперь, когда вы разобрались с архитектурой федерации Hadoop HDFS, ознакомьтесь с от Edureka, надежной компании по онлайн-обучению с сетью из более чем 250 000 довольных учащихся по всему миру. Учебный курс Edureka Big Data Hadoop Certification Training помогает учащимся стать экспертами в области HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, используя примеры использования в реальном времени в области розничной торговли, социальных сетей, авиации, туризма, финансов.

Есть вопрос к нам? Пожалуйста, укажите это в комментариях, и мы свяжемся с вами.