Учебное пособие по HDFS: Введение в HDFS и его особенности



Этот блог с учебным пособием по HDFS поможет вам разобраться в HDFS или распределенной файловой системе Hadoop и ее функциях. Вы также кратко изучите его основные компоненты.

Учебное пособие по HDFS

Прежде чем продолжить этот учебный блог по HDFS, позвольте мне познакомить вас с безумной статистикой, связанной с HDFS:

  • В 2010, Facebook утверждал, что у него один из крупнейших кластеров HDFS, хранящих 21 петабайт данных.
  • В 2012, Facebook заявили, что у них самый большой кластер HDFS с более чем 100 ПБ данных .
  • И Yahoo ! имеет более чем 100000 ЦП в течение 40 000 серверов работает Hadoop, с запущенным крупнейшим кластером Hadoop 4500 узлов . В общем, Yahoo! магазины 455 петабайт данных в HDFS.
  • Фактически, к 2013 году большинство крупных компаний из списка Fortune 50 начали использовать Hadoop.

Слишком сложно переваривать? Правильно. Как обсуждалось в , Hadoop состоит из двух основных единиц: S трясти и Обработка . Когда я говорю о хранилище Hadoop, я имею в виду HDFS что означает Распределенная файловая система Hadoop . Итак, в этом блоге я познакомлю вас с HDFS .





Здесь я буду говорить о:

  • Что такое HDFS?
  • Преимущества HDFS
  • Особенности HDFS

Прежде чем говорить о HDFS, позвольте мне рассказать вам, что такое распределенная файловая система?



DFS или распределенная файловая система:

Распределенная файловая система говорит о управление данные , т.е. файлы или папки на нескольких компьютерах или серверах. Другими словами, DFS - это файловая система, которая позволяет нам хранить данные на нескольких узлах или машинах в кластере и позволяет нескольким пользователям получать доступ к данным. Таким образом, он служит той же цели, что и файловая система, доступная на вашем компьютере, например, для Windows у вас NTFS (файловая система новой технологии) или для Mac у вас есть HFS (иерархическая файловая система). Единственное отличие состоит в том, что в случае распределенной файловой системы вы храните данные на нескольких машинах, а не на одной. Несмотря на то, что файлы хранятся в сети, DFS организует и отображает данные таким образом, что пользователь, сидящий на машине, будет чувствовать, что все данные хранятся на этой самой машине.

Что такое HDFS?

Распределенная файловая система Hadoop или HDFS - это распределенная файловая система на основе Java, которая позволяет хранить большие данные на нескольких узлах в кластере Hadoop. Итак, если вы установите Hadoop, вы получите HDFS в качестве базовой системы хранения для хранения данных в распределенной среде.

Давайте рассмотрим пример, чтобы понять это. Представьте, что у вас есть десять машин или десять компьютеров с жестким диском объемом 1 ТБ на каждой машине. Теперь, согласно HDFS, если вы установите Hadoop в качестве платформы поверх этих десяти машин, вы получите HDFS в качестве службы хранения. Распределенная файловая система Hadoop распределена таким образом, что каждая машина предоставляет свое индивидуальное хранилище для хранения любых данных.



Учебное пособие по HDFS: преимущества HDFS

1. Распределенное хранилище:

Распределенное хранилище - Учебное пособие по HDFS - Edureka

как создать массив объектов

Когда вы получаете доступ к распределенной файловой системе Hadoop с любой из десяти машин в кластере Hadoop, вы будете чувствовать себя так, как если бы вы вошли в систему на одной большой машине, имеющей емкость хранения 10 ТБ (общее хранилище более десяти машин). Что это означает? Это означает, что вы можете сохранить один большой файл размером 10 ТБ, который будет распределен по десяти машинам (по 1 ТБ каждая).Так что, это не ограничивается физическими границами каждой отдельной машины.

2. Распределенные и параллельные вычисления:

Поскольку данные разделены между машинами, это позволяет нам использовать Распределенные и параллельные вычисления . Давайте разберемся с этой концепцией на приведенном выше примере. Предположим, обработка файла размером 1 ТБ на одной машине занимает 43 минуты. Итак, теперь скажите мне, сколько времени потребуется для обработки одного и того же файла размером 1 ТБ, когда у вас есть 10 машин в кластере Hadoop с аналогичной конфигурацией - 43 минуты или 4,3 минуты? 4,3 минуты, верно! Что здесь случилось? Каждый из узлов параллельно работает с частью файла размером 1 ТБ. Таким образом, работа, которая раньше занимала 43 минуты, теперь завершается всего за 4,3 минуты, так как работа была разделена на десять машин.

3. Горизонтальная масштабируемость:

И последнее, но не менее важное: давайте поговорим о горизонтальное масштабирование или масштабирование в Hadoop. Есть два типа масштабирования: вертикальный и горизонтальный . При вертикальном масштабировании (масштабировании) вы увеличиваете аппаратную мощность вашей системы. Другими словами, вы приобретаете больше ОЗУ или ЦП и добавляете их в существующую систему, чтобы сделать ее более надежной и мощной. Но есть проблемы, связанные с вертикальным масштабированием или увеличением масштаба:

  • Всегда есть предел, до которого вы можете увеличить емкость вашего оборудования. Таким образом, вы не можете продолжать увеличивать ОЗУ или ЦП машины.
  • При вертикальном масштабировании вы сначала останавливаете машину. Затем вы увеличиваете ОЗУ или ЦП, чтобы сделать его более надежным аппаратным стеком. После увеличения емкости оборудования вы перезагружаете машину. Это время простоя, когда вы останавливаете свою систему, становится проблемой.

В случае горизонтальное масштабирование (масштабирование) , вы добавляете дополнительные узлы в существующий кластер вместо увеличения аппаратной мощности отдельных машин. И самое главное, вы можете добавляйте больше машин на ходу т.е. без остановки системы . Таким образом, при масштабировании у нас нет ни простоев, ни зеленой зоны, ничего подобного. В конце концов, у вас будет больше машин, работающих параллельно, чтобы удовлетворить ваши потребности.

Обучающее видео по HDFS:

Вы можете посмотреть видео, приведенное ниже, где подробно обсуждаются все концепции, связанные с HDFS:

как использовать метод tostring

Учебное пособие по HDFS: Особенности HDFS

Мы подробно разберемся с этими функциями, когда рассмотрим архитектуру HDFS в нашем следующем учебном блоге по HDFS. Но пока давайте рассмотрим возможности HDFS:

  • Стоимость: HDFS, как правило, развертывается на обычном оборудовании, таком как настольный компьютер / ноутбук, которым вы пользуетесь каждый день. Так что это очень экономично с точки зрения стоимости владения проектом. Поскольку мы используем дешевое стандартное оборудование, вам не нужно тратить огромные деньги на масштабирование кластера Hadoop. Другими словами, добавление дополнительных узлов в HDFS экономически выгодно.
  • Разнообразие и объем данных: Когда мы говорим о HDFS, мы говорим о хранении огромных данных, то есть терабайтов и петабайт данных, а также различных типов данных. Таким образом, вы можете хранить в HDFS любые типы данных, будь то структурированные, неструктурированные или частично структурированные.
  • Надежность и отказоустойчивость: Когда вы храните данные в HDFS, он внутренне разделяет данные на блоки и сохраняет их распределенным образом в вашем кластере Hadoop. Информация о том, какой блок данных расположен на каком из узлов данных, записывается в метаданных. Имя Узел управляет метаданными и DataNodes несут ответственность за хранение данных.
    Узел имени также копирует данные, то есть поддерживает несколько копий данных. Эта репликация данных делает HDFS очень надежной и отказоустойчивой. Таким образом, даже если какой-либо из узлов выходит из строя, мы можем получить данные из реплик, находящихся на других узлах данных. По умолчанию коэффициент репликации равен 3. Следовательно, если вы сохраните 1 ГБ файла в HDFS, он в конечном итоге займет 3 ГБ места. Узел имени периодически обновляет метаданные и поддерживает согласованный коэффициент репликации.
  • Целостность данных: Целостность данных говорит о том, верны ли данные, хранящиеся в моей HDFS. HDFS постоянно проверяет целостность хранимых данных по своей контрольной сумме. Если он обнаруживает какую-либо неисправность, он сообщает об этом узлу имени. Затем узел имени создает дополнительные новые реплики и поэтому удаляет поврежденные копии.
  • Высокая пропускная способность: Пропускная способность - это объем работы, выполненной за единицу времени. Он говорит о том, насколько быстро вы можете получить доступ к данным из файловой системы. По сути, это дает вам представление о производительности системы. Как вы видели в приведенном выше примере, мы использовали десять компьютеров вместе для улучшения вычислений. Там мы смогли сократить время обработки с 43 минуты просто 4,3 мин. так как все машины работали параллельно. Следовательно, за счет параллельной обработки данных мы значительно сократили время обработки и, таким образом, достигли высокой пропускной способности.
  • Местоположение данных: Локальность данных говорит о перемещении блока обработки данных, а не данных в блок обработки. В нашей традиционной системе мы обычно переносили данные на уровень приложения, а затем обрабатывали их. Но теперь, из-за архитектуры и огромного объема данных, перенос данных на уровень приложения будетзаметно снизить производительность сети.Итак, в HDFS мы переносим вычислительную часть в узлы данных, где находятся данные. Следовательно, вы переносите не данные, а программу или процесс.часть данных.

Итак, теперь у вас есть краткое представление о HDFS и ее функциях. Но поверьте мне, ребята, это лишь верхушка айсберга. В моем следующем , Я углублюсь в Архитектура HDFS и я раскрою секреты успеха HDFS. Вместе мы ответим на все те вопросы, которые возникают у вас в голове, такие как:

  • Что происходит за кулисами, когда вы читаете или записываете данные в распределенной файловой системе Hadoop?
  • Какие алгоритмы, такие как распознавание стойки, делают HDFS такой отказоустойчивой?
  • Как распределенная файловая система Hadoop управляет репликами и создает их?
  • Что такое блочные операции?

Теперь, когда вы разобрались с HDFS и ее функциями, ознакомьтесь с от Edureka, надежной компании онлайн-обучения с сетью из более чем 250 000 довольных учащихся по всему миру. Учебный курс Edureka Big Data Hadoop Certification Training помогает учащимся стать экспертами в области HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, используя примеры использования в реальном времени в области розничной торговли, социальных сетей, авиации, туризма, финансов.

Есть вопрос к нам? Пожалуйста, укажите это в комментариях, и мы свяжемся с вами.