Освоили Hadoop? Пора начать работу с Apache Spark



В этом сообщении блога объясняется, почему вы должны начать работу с Apache Spark после Hadoop и почему изучение Spark после освоения Hadoop может творить чудеса для вашей карьеры!

Hadoop, как мы все знаем, является образцом больших данных. Как программная среда, способная обрабатывать огромные объемы данных, Hadoop заняла первое место в списке модных словечек ИТ-директоров.





Однако беспрецедентный рост стека в памяти представил экосистему больших данных новой альтернативой аналитике. Метод аналитики MapReduce заменяется новым подходом, который позволяет проводить аналитику как в рамках Hadoop, так и за его пределами. Apache Spark - это новое лицо аналитики больших данных.

Энтузиасты больших данных сертифицировали Apache Spark как самую популярную в мире вычислительную машину для больших данных. Это быстро вытесняет MapReduce и Java с их позиций, и тенденции в сфере занятости отражают это изменение. Согласно опросу, проведенному TypeSafe, 71% глобальных разработчиков Java в настоящее время оценивают или исследуют Spark, а 35% из них уже начали его использовать. Эксперты Spark в настоящее время пользуются спросом, и в ближайшие недели ожидается, что количество вакансий, связанных со Spark, будет зашкаливать.



Итак, что же такого особенного в Apache Spark, благодаря которому он появляется в верхней части списка дел ИТ-директора?

код С ++ сортировки слиянием

Вот некоторые из интересных особенностей Apache Spark:

  • Интеграция Hadoop - Spark может работать с файлами, хранящимися в HDFS.
  • Интерактивная оболочка Spark - Spark написан на Scala и имеет собственную версию интерпретатора Scala.
  • Аналитический пакет Spark - Spark поставляется с инструментами для интерактивного анализа запросов, крупномасштабной обработки и анализа графиков, а также анализа в реальном времени.
  • Устойчивые распределенные наборы данных (RDD) - RDD - это распределенные объекты, которые можно кэшировать в памяти в кластере вычислительных узлов. Это основные объекты данных, используемые в Spark.
  • Распределенные операторы - Помимо MapReduce, есть много других операторов, которые можно использовать в RDD.

Такие организации, как NASA, Yahoo и Adobe, взяли на себя обязательство Spark. Вот что сказал Джон Трипье, руководитель отдела альянсов и экосистем в Databricks: «Принятие Apache Spark крупными и малыми предприятиями растет невероятными темпами в широком спектре отраслей, и спрос на разработчиков с сертифицированным опытом быстро растет. следуя примеру ». Сейчас самое время изучить Spark, если у вас есть опыт работы с Hadoop.



Edureka специально разработала курс по Apache Spark и Scala, совместно созданный настоящими практиками отрасли. Ознакомьтесь с нашим курсом, чтобы получить дифференцированный опыт электронного обучения в режиме реального времени вместе с отраслевыми проектами. Скоро появятся новые партии, так что пройдите курс здесь: .

Есть вопрос к нам? Пожалуйста, укажите это в комментариях, и мы свяжемся с вами.

Похожие сообщения:

как установить путь Java

Apache Spark против Hadoop MapReduce