Hadoop 2.0 - часто задаваемые вопросы



За последние пару лет интерес к Hadoop многократно возрос. Этот пост отвечает на ваши вопросы и устраняет многие сомнения относительно Hadoop 2.0 и его использования.

Это следующий пост с ответом на часто задаваемый вопрос во время публичного вебинара edureka! на .

Часто задаваемые вопросы о Hadoop

Дипак:





Что такое Hadoop?
Apache Hadoop - это программная среда с открытым исходным кодом для хранения и крупномасштабной обработки наборов данных на кластерах стандартного оборудования. Это программная среда для управления данными с открытым исходным кодом с масштабируемым хранилищем и распределенной обработкой. Он создается и используется глобальным сообществом участников и пользователей.

преобразования в информатике с примером

Подробнее читайте в нашем блоге Hadoop. и .



Поиск:

Какие варианты использования больших данных в сфере путешествий, транспорта и авиалиний?

Солнечный:



Не могли бы вы указать нам на какой-нибудь реальный образец реализации Hadoop, который мы можем изучить?
Мы живиизв эпоху увеличения загруженности дорог в часы пик. Транспортные операторы постоянно ищут рентабельные способы предоставления своих услуг, сохраняя при этом свой транспортный парк в хорошем состоянии. Использование Big Data Analytics в этом домене может помочь организации:

  • Оптимизация маршрута
  • Геопространственная аналитика
  • Схемы движения и заторы
  • Обслуживание активов
  • Управление доходами (например, авиакомпания)
  • Управление запасами
  • Экономия топлива
  • Целевой маркетинг
  • Приверженность потребителей
  • Прогнозирование мощности
  • Производительность и оптимизация сети

Немногие варианты использования в реальном мире:
к) Определение стоимости перелета
б) Прогнозное моделирование логистики запасов
в) Orbitz Worldwide - модели покупок клиентов
г) Шесть супер-масштабных развертываний Hadoop
является) Hadoop - больше, чем добавляет
е) Hadoop на предприятии

Вы можете узнать больше о реализациях Hadoop в реальном мире по адресу:

Хирдеш:

Все ли Hadoop касается обработки и обработки данных? Как мы подходим к отчетности и визуальной аналитике. Можно ли использовать Qlikview, Tableau поверх Hadoop?
Основные компоненты Hadoop HDFS и MapReduce предназначены для хранения и обработки данных. HDFS для хранения и MapReduce для обработки. Но основные компоненты Hadoop, такие как Pig и Hive, используются для аналитики. Для таблицы визуальных отчетов QlikView можно подключить к Hadoop для создания визуальных отчетов.

Амит:

Hadoop Vs. mongoDB
MongoDB используется как «оперативное» хранилище данных в реальном времени, тогда как Hadoop используется для автономной пакетной обработки и анализа данных.
mongoDB - это документно-ориентированное хранилище данных без схемы, которое вы можете использовать в веб-приложении в качестве бэкэнда вместо СУБД, такой как MySQL, тогда как Hadoop в основном используется в качестве горизонтально масштабируемого хранилища и распределенной обработки больших объемов данных.

Узнайте больше на нашем сообщение в блоге mongoDB и Hadoop .

Вот:

Является ли Apache Spark частью Hadoop ?
Apache Spark - это быстрый и универсальный движок для крупномасштабной обработки данных. Spark работает быстрее и поддерживает обработку в памяти. Механизм выполнения Spark расширяет типы вычислительных рабочих нагрузок, которые Hadoop может обрабатывать и может работать в кластере Hadoop 2.0 YARN. Это система фреймворка обработки, которая позволяет хранить объекты в памяти (RDD) вместе с возможностью обрабатывать эти объекты с помощью замыканий Scala. Он поддерживает графики, хранилище данных, машинное обучение и потоковую обработку.

Если у вас есть кластер Hadoop 2, вы можете запускать Spark без какой-либо установки. В противном случае Spark легко запустить автономно, на EC2 или Mesos. Он может читать из HDFS, HBase, Cassandra и любого источника данных Hadoop.

Узнать больше о Spark Вот .

Прасад:

Что такое Apache Flume?
Apache Flume - это распределенная, надежная и доступная система для эффективного сбора, агрегирования и перемещения больших объемов данных журнала из множества различных источников в централизованный источник данных.

Амит:

SQL против баз данных NO-SQL
Базы данных NoSQL являются базами данных нового поколения и в основном решают некоторые вопросы.

  • нереляционный
  • распределен
  • Открытый исходный код
  • горизонтально масштабируемый

Часто применяются дополнительные характеристики, такие как отсутствие схемы, простая поддержка репликации, простой API, в конечном итоге согласованный / BASE (не ACID), огромный объем данных и многое другое. Например, некоторые из отличительных черт:

  • Базы данных NoSQL масштабируются по горизонтали, добавляя больше серверов для работы с большими нагрузками. С другой стороны, базы данных SQL обычно масштабируются по вертикали, добавляя все больше и больше ресурсов к одному серверу по мере увеличения трафика.
  • Базы данных SQL требовали, чтобы вы определяли свои схемы перед добавлением какой-либо информации и данных, но базы данных NoSQL не содержат схемы и не требуют предварительного определения схемы.
  • Базы данных SQL представляют собой таблицы на основе строк и столбцов в соответствии с принципами СУБД, тогда как базы данных NoSQL представляют собой хранилища документов, пар ключ-значение, графов или широких столбцов.
  • Базы данных SQL используют SQL (язык структурированных запросов) для определения данных и управления ими. В базе данных NoSQL запросы варьируются от одной базы данных к другой.

Популярные базы данных SQL: MySQL, Oracle, Postgres и MS-SQL
Популярный Базы данных NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j и CouchDB

какие пакеты в Java

Просмотрите наши блоги на Hadoop и NoSQL базы данных и преимущества одной такой базы данных:

Котесварарао:

Есть ли в Hadoop встроенная кластерная технология?
Кластер Hadoop использует архитектуру Master-Slave. Он состоит из одного главного (NameNode) и кластера подчиненных (DataNodes) для хранения и обработки данных. Hadoop разработан для работы на большом количестве машин, которые не имеют общей памяти или дисков. Эти узлы данных настроены как кластер с использованием . Hadoop использует концепцию репликации, чтобы гарантировать, что хотя бы одна копия данных всегда доступна в кластере. Поскольку существует несколько копий данных, данные, хранящиеся на сервере, который отключается или умирает, могут быть автоматически реплицированы из заведомо исправной копии.

Динеш:

Что такое работа в Hadoop? Чего всего можно достичь с помощью работы?
В Hadoop задание - это программа MapReduce для обработки / анализа данных. Термин MapReduce фактически относится к двум отдельным и различным задачам, которые выполняют программы Hadoop. Первая - это задача «Карта», которая принимает набор данных и преобразует их в другой набор промежуточных данных, где отдельные элементы разбиваются на пары ключ-значение. Вторая часть задания MapReduce, задача Reduce, принимает выходные данные карты в качестве входных данных и объединяет пары ключ-значение в меньший набор агрегированных пар ключ-значение. Как следует из последовательности имени MapReduce, задача Reduce всегда выполняется после завершения задач Map. Подробнее о работе MapReduce .

Сукрут:

Что особенного в NameNode ?
NameNode - это сердце файловой системы HDFS. Он хранит метаданные, такие как дерево каталогов всех файлов в файловой системе, и отслеживает, где в кластере хранятся данные файла. Фактические данные хранятся на узлах данных в виде блоков HDFS.
Клиентские приложения обращаются к NameNode всякий раз, когда они хотят найти файл или когда хотят добавить / скопировать / переместить / удалить файл. NameNode отвечает на успешные запросы, возвращая список соответствующих серверов DataNodes, на которых хранятся данные. Подробнее об архитектуре HDFS .

Динеш:

Когда Hadoop 2.0 был представлен на рынке?
Фонд Apache Software Foundation (ASF), группа с открытым исходным кодом, которая управляет разработкой Hadoop, объявила в своем блоге 15 октября 2013 года, что Hadoop 2.0 теперь общедоступен (GA). Это объявление означает, что после долгого ожидания Apache Hadoop 2.0 и YARN теперь готовы к развертыванию в производственной среде. Еще Блог.

Динеш:

Каковы несколько примеров приложений для больших данных, не относящихся к MapReduce?
MapReduce отлично подходит для многих приложений для решения проблем с большими данными, но не для всего, что другие модели программирования лучше удовлетворяют таким требованиям, как обработка графиков (например, Google Pregel / Apache Giraph) и итеративное моделирование с помощью интерфейса передачи сообщений (MPI).

Мариш:

sql server учебник для начинающих с примерами

Как данные упорядочены и проиндексированы в HDFS?
Данные разбиваются на блоки по 64 МБ (настраиваются с помощью параметра) и хранятся в HDFS. NameNode хранит информацию о хранении этих блоков как идентификатор блока в своей RAM (метаданные NameNode). Задания MapReduce могут обращаться к этим блокам с помощью метаданных, хранящихся в RAM NameNode.

Шашват:

Можем ли мы использовать как MapReduce (MRv1), так и MRv2 (с YARN) в одном кластере?
Hadoop 2.0 представил новую структуру YARN для написания и выполнения различных приложений в Hadoop. Итак, YARN и MapReduce - это две разные концепции в Hadoop 2.0, и их не следует смешивать и использовать как взаимозаменяемые. Правильный вопрос «Можно ли запустить и MRv1, и MRv2 в кластере Hadoop 2.0 с поддержкой YARN?» Ответ на этот вопрос - 'Нет' как будто кластер Hadoop может быть настроен для работы как MRv1, так и MRv2, но может запускать только один набор демонов в любой момент времени. Обе эти платформы в конечном итоге используют одни и те же файлы конфигурации ( пряжа-site.xml и mapred-site.xml ) для запуска демонов, следовательно, в кластере Hadoop можно включить только одну из двух конфигураций.

Кукла:

В чем разница между MapReduce следующего поколения (MRv2) и YARN?
YARN и MapReduce нового поколения (MRv2) - это две разные концепции и технологии в Hadoop 2.0. YARN - это программная среда, которая может использоваться не только для MRv2, но и для других приложений. MRv2 - это инфраструктура приложения, написанная с использованием YARN API и работающая в YARN.

Бхарат:

Обеспечивает ли Hadoop 2.0 обратную совместимость для приложений Hadoop 1.x?
Неха:

Требуется ли для миграции с Hadoop 1.0 на 2.0 тяжелый код приложения миграция?
Нет. Большинство приложений, разработанных с использованием API-интерфейсов org.apache.hadoop.mapred, могут работать в YARN без какой-либо перекомпиляции. YARN двоично совместим с приложениями MRv1, и «bin / hadoop» можно использовать для отправки этих приложений в YARN. Подробнее об этом Вот .

Шерин:

Что произойдет, если узел Resource Manager выйдет из строя в Hadoop 2.0?
Начиная с Hadoop Release 2.4.0, также доступна поддержка высокой доступности для Resource Manager. ResourceManager использует Apache ZooKeeper для отработки отказа. Когда узел Resource Manager выходит из строя, вторичный узел может быстро восстановиться с помощью состояния кластера, сохраненного в ZooKeeper. ResourceManager при отказе перезапускает все стоящие в очереди и запущенные приложения.

Саббирали:

Работает ли фреймворк Apache Hadoop на Cloudera Hadoop?
Apache Hadoop был представлен в 2005 году с основным механизмом обработки MapReduce для поддержки распределенной обработки крупномасштабных рабочих нагрузок данных, хранящихся в HDFS. Это проект с открытым исходным кодом, имеющий несколько дистрибутивов (аналогично Linux). Cloudera Hadoop (CDH) - один из таких дистрибутивов от Cloudera. Другие аналогичные дистрибутивы: HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights и т. Д.

Арулвадивель:

Есть ли простой способ установить Hadoop на мой ноутбук и попробовать миграцию базы данных Oracle на Hadoop?
Ты можешь Начните с участием песочница HortonWorks или виртуальная машина Cloudera Quick на портативном компьютере (с оперативной памятью не менее 4 ГБ и процессором i3 или выше). Используйте SQOOP для перемещения данных из Oracle в Hadoop, как описано Вот .

Бхабани:

Какие лучшие книги доступны для изучения Hadoop?
Начать с Hadoop: полное руководство Томом Уайтом и Hadoop Операции пользователя Eric Sammer.

Махендра:

Есть ли какие-нибудь материалы для чтения по Hadoop 2.0, как и для подробного руководства по Hadoop?
Обзор последнее прибытие на книжных полках написано несколькими создателями Hadoop 2.0.

Следите за новостями, чтобы узнать о других вопросах из этой серии.