Основные инструменты Hadoop для обработки больших данных



Hadoop - это модное слово в современном ИТ-мире, и в этом посте описаны основные инструменты Hadoop, которые обрабатывают большие данные.

Сегодня самый популярный термин в мире информационных технологий - «Hadoop». За короткий промежуток времени Hadoop значительно вырос и зарекомендовал себя в большом количестве разнообразных проектов. Сообщество Hadoop быстро развивается и играет заметную роль в своей экосистеме.





Вот основные инструменты Hadoop, которые используются для обработки больших данных.

power bi vs tableau 2016

ambari



Амбари - проект Apache, поддерживаемый Hortonworks. Он предлагает графический веб-интерфейс (графический пользовательский интерфейс) со сценариями мастера для настройки кластеров с большинством стандартных компонентов. Ambari подготавливает, управляет и отслеживает все кластеры заданий Hadoop.

hdfs-logo

В HDFS , распространяемая по лицензии Apache, предлагает базовую структуру для разделения коллекций данных между несколькими узлами. В HDFS большие файлы разбиваются на блоки, где несколько узлов содержат все блоки из файла. Файловая система спроектирована таким образом, чтобы сочетать отказоустойчивость с высокой пропускной способностью. Блоки HDFS загружаются для обеспечения стабильной потоковой передачи. Обычно они не кэшируются, чтобы минимизировать задержку.



hbaselogo

HBase - это система управления базами данных, ориентированная на столбцы, работающая поверх HDFS. Приложения HBase написаны на Java, очень похоже на приложение MapReduce. Он состоит из набора таблиц, каждая из которых содержит строки и столбцы, как традиционная база данных. Когда данные попадают в большую таблицу, HBase сохранит их, выполнит поиск и автоматически поделится таблицей между несколькими узлами, чтобы задания MapReduce могли запускать ее локально. HBase предлагает ограниченную гарантию на некоторые локальные изменения. Изменения, происходящие в одной строке, могут быть успешными или неудачными одновременно.

hive

Если вы уже свободно владеете SQL, вы можете использовать Hadoop, используя Улей . Hive был разработан некоторыми людьми из Facebook. Apache Hive регулирует процесс извлечения битов из всех файлов в HBase. Он поддерживает анализ больших наборов данных, хранящихся в HDFS Hadoop и совместимых файловых системах. Он также предоставляет SQL-подобный язык под названием HSQL (HiveSQL), который входит в файлы и извлекает необходимые фрагменты кода.

sqoop

Apache Sqoop специально разработан для эффективной передачи больших объемов данных из традиционных баз данных в Hive или HBase. Его также можно использовать для извлечения данных из Hadoop и их экспорта во внешние структурированные хранилища данных, такие как реляционные базы данных и корпоративные хранилища данных. Sqoop - это инструмент командной строки, отображающий таблицы и уровень хранения данных, преобразующий таблицы в настраиваемую комбинацию HDFS, HBase или Hive.

Pig1

Когда сохраненные данные видны Hadoop, Апачская свинья погружается в данные и запускает код, написанный на его собственном языке, который называется Pig Latin. Pig Latin наполнен абстракциями для обработки данных. Pig поставляется со стандартными функциями для общих задач, таких как усреднение данных, работа с датами или поиск различий между строками. Pig также позволяет пользователю писать языки самостоятельно, называемые UDF (User Defined Function), когда стандартные функции не работают.

zookeper

Работник зоопарка - это централизованная служба, которая поддерживает, настраивает информацию, дает имя и обеспечивает распределенную синхронизацию в кластере. Он накладывает на кластер иерархию, подобную файловой системе, и хранит все метаданные для машин, чтобы мы могли синхронизировать работу различных машин.

NoSQL

Некоторые кластеры Hadoop интегрируются с NoSQL хранилища данных, которые имеют собственные механизмы для хранения данных в кластере узлов. Это позволяет им сохранять и извлекать данные со всеми функциями базы данных NoSQL, после чего Hadoop можно использовать для планирования заданий анализа данных в том же кластере.

mahoutlogo

Mahout предназначен для реализации большого количества алгоритмов, классификаций и фильтрации анализа данных в кластере Hadoop. Многие из стандартных алгоритмов, таких как K-средства, Диришле, параллельный шаблон и байесовские классификации, готовы к работе с данными с помощью карты стиля Hadoop и сокращения.

Люцен, написанная на Java и легко интегрируемая с Hadoop, является естественным спутником Hadoop. Это инструмент, предназначенный для индексации больших блоков неструктурированного текста. Lucene обрабатывает индексацию, а Hadoop обрабатывает распределенные запросы по кластеру. Функции Lucene-Hadoop быстро развиваются по мере разработки новых проектов.

Avro

Евро - это система сериализации, которая объединяет данные вместе со схемой для их понимания. Каждый пакет имеет структуру данных JSON. JSON объясняет, как можно анализировать данные. Заголовок JSON определяет структуру данных, при которой можно избежать необходимости писать дополнительные теги в данных для маркировки полей. Вывод значительно компактнее, чем традиционные форматы, такие как XML.

Работу можно упростить, разбив ее на этапы. При разбиении проекта на несколько заданий Hadoop, Oozie начинает их обработку в правильной последовательности. Он управляет рабочим процессом, как указано в DAG (направленный ациклический график), и нет необходимости в своевременном мониторинге.

Инструменты ГИС

Работа с географическими картами - большая работа для кластеров, на которых работает Hadoop. ГИС ( Система географической информации ) инструменты для проектов Hadoop адаптировали лучшие инструменты на основе Java для понимания географической информации для работы с Hadoop. Теперь базы данных могут обрабатывать географические запросы с использованием координат, а коды могут развертывать инструменты ГИС.

Сбор всех данных приравнивается к их хранению и анализу. Apache Flume отправляет «специальных агентов» для сбора информации, которая будет храниться в HDFS. Собранная информация может быть в виде файлов журнала, Twitter API или записок веб-сайтов. Эти данные можно объединить в цепочку и подвергнуть анализу.

Spark

Искра это следующее поколение, которое в значительной степени работает как Hadoop, обрабатывающее данные, кэшированные в памяти. Его цель - сделать анализ данных быстрым для запуска и записи с помощью общей модели выполнения. Это может оптимизировать произвольные графы операторов и поддерживать вычисления в памяти, что позволяет запрашивать данные быстрее, чем дисковые механизмы, такие как Hadoop.

SQL на Hadoop

Когда требуется выполнить быстрый специальный запрос всех данных в кластере, можно написать новое задание Hadoop, но это займет некоторое время. Когда программисты начали делать это чаще, они придумали инструменты, написанные на простом языке SQL. Эти инструменты предлагают быстрый доступ к результатам.

Apache Drill

Apache Drill предоставляет специальные запросы с малой задержкой к многочисленным и разнообразным источникам данных, включая вложенные данные. Drill, вдохновленный Dremel от Google, поддерживает масштабирование до 10 000 серверов и запрашивает петабайты данных за секунды.

Это основные инструменты Hadoop для обработки больших данных!

Есть вопрос к нам? Укажите их в комментариях, и мы свяжемся с вами.

Похожие сообщения:

Практические причины для изучения Hadoop 2.0