Apache Spark с Hadoop - почему это важно?



Внедрение Apache Spark с Hadoop в больших масштабах ведущими компаниями свидетельствует об их успехе и его потенциале, когда речь идет об обработке в реальном времени.

Hadoop, фреймворк для обработки данных, который сам по себе стал платформой, становится еще лучше, когда к нему подключаются хорошие компоненты. Некоторые недостатки Hadoop, такие как компонент MapReduce в Hadoop, имеют репутацию медленного решения для анализа данных в реальном времени.





Представляем Apache Spark, механизм обработки данных на основе Hadoop, предназначенный как для пакетных, так и для потоковых рабочих нагрузок, теперь в его версии 1.0 и оснащенный функциями, которые демонстрируют, какие виды работы Hadoop предлагает включить. Spark работает поверх существующих кластеров Hadoop, чтобы обеспечить расширенные и дополнительные функции.

Давайте посмотрим на ключевые функции Spark и то, как он работает вместе с Hadoop и .



Ключевые преимущества Apache Spark:

img2-R

Потрясающие возможности Spark:

  • Интеграция Hadoop - Spark может работать с файлами, хранящимися в HDFS.
  • Интерактивная оболочка Spark - Spark написан на Scala и имеет собственную версию интерпретатора Scala.
  • Аналитический пакет Spark - Spark поставляется с инструментами для интерактивного анализа запросов, крупномасштабной обработки и анализа графиков, а также анализа в реальном времени.
  • Устойчивые распределенные наборы данных (RDD) - RDD - это распределенные объекты, которые могут кэшироваться в памяти в кластере вычислительных узлов. Это основные объекты данных, используемые в Spark.
  • Распределенные операторы - Помимо MapReduce, есть много других операторов, которые можно использовать в RDD.

Преимущества использования Apache Spark с Hadoop:

как создать сеанс в Java
  • Apache Spark входит в сообщество разработчиков открытого исходного кода Hadoop, построение на основе распределенной файловой системы Hadoop (HDFS). Однако Spark не привязан к двухэтапной парадигме MapReduce и обещает для некоторых приложений производительность до 100 раз выше, чем Hadoop MapReduce.



  • Хорошо подходит для алгоритмов машинного обучения - Spark предоставляет примитивы для кластерных вычислений в памяти, которые позволяют пользовательским программам загружать данные в память кластера и повторно запрашивать их.

  • Беги в 100 раз быстрее - Программное обеспечение для анализа Spark также может ускорить выполнение заданий, выполняемых на платформе обработки данных Hadoop. Apache Spark, получивший название «швейцарский армейский нож Hadoop», предоставляет возможность создавать задания анализа данных, которые могут выполняться в 100 раз быстрее, чем те, которые выполняются на стандартном Apache Hadoop MapReduce. MapReduce широко критиковался как узкое место в кластерах Hadoop, поскольку он выполняет задания в пакетном режиме, а это означает, что анализ данных в реальном времени невозможен.

    sqoop импорт из оракула в hdfs
  • Альтернатива MapReduce - Spark предоставляет альтернативу MapReduce. Он выполняет задания короткими пакетами микропакетов с интервалом в пять секунд или меньше. Он также обеспечивает большую стабильность, чем потоковые фреймворки Hadoop, работающие в реальном времени, такие как Twitter Storm. Программное обеспечение можно использовать для множества задач, таких как постоянный анализ данных в реальном времени и, благодаря программной библиотеке, более глубокие вычислительные задачи, включая машинное обучение и обработку графиков.

  • Поддержка нескольких языков - Используя Spark, разработчики могут писать задания по анализу данных на Java, Scala или Python, используя набор из более чем 80 операторов высокого уровня.

  • Поддержка библиотеки - Библиотеки Spark предназначены для дополнения типов задач обработки, которые более активно исследуются с помощью последних коммерчески поддерживаемых развертываний Hadoop. MLlib реализует множество распространенных алгоритмов машинного обучения, таких как простая байесовская классификация или кластеризация. Spark Streaming обеспечивает высокоскоростную обработку данных, полученных из нескольких источников, а GraphX ​​позволяет выполнять вычисления с данными графа.

  • Стабильный API - В версии 1.0 Apache Spark предлагает стабильный API (интерфейс прикладного программирования), который разработчики могут использовать для взаимодействия со Spark через свои собственные приложения. Это упрощает использование Storm при развертывании на основе Hadoop.

  • Компонент SPARK SQL - Компонент Spark SQL для доступа к структурированным данным, позволяет запрашивать данные вместе с неструктурированными данными в аналитической работе. Spark SQL, который на данный момент находится только в альфа-версии, позволяет выполнять SQL-подобные запросы к данным, хранящимся в Apache Hive. Извлечение данных из Hadoop с помощью SQL-запросов - еще один вариант функциональности запросов в реальном времени, возникающей в Hadoop.

  • Совместимость Apache Spark с Hadoop [HDFS, HBASE и YARN] - Apache Spark полностью совместим с распределенной файловой системой Hadoop (HDFS), а также с другими компонентами Hadoop, такими как YARN (еще один механизм согласования ресурсов) и распределенная база данных HBase.

Отраслевые специалисты:

Такие ИТ-компании, как Cloudera, Pivotal, IBM, Intel и MapR, включили Spark в свои стеки Hadoop. Databricks, компания, основанная некоторыми разработчиками Spark, предлагает коммерческую поддержку программного обеспечения. И Yahoo, и NASA, среди прочих, используют программное обеспечение для повседневных операций с данными.

Заключение:

То, что может предложить Spark, обязательно привлечет внимание как пользователей, так и коммерческих поставщиков Hadoop. Пользователи, которые хотят внедрить Hadoop и которые уже построили многие свои аналитические системы на основе Hadoop, заинтересованы в возможности использовать Hadoop в качестве системы обработки в реальном времени.

Spark 1.0 предоставляет им еще один набор функций для поддержки или создания проприетарных элементов. Фактически, один из трех крупных поставщиков Hadoop, Cloudera, уже предоставляет коммерческую поддержку Spark через свое предложение Cloudera Enterprise. Hortonworks также предлагает Spark в качестве компонента своего дистрибутива Hadoop. Внедрение Spark в крупных масштабах ведущими компаниями указывает на его успех и потенциал, когда дело доходит до обработки в реальном времени.

что такое управление закупками проекта

Есть вопрос к нам? Упомяните их в разделе комментариев, и мы свяжемся с вами.

Похожие сообщения: