Hadoop, как мы все знаем, является образцом больших данных. Как программная среда, способная обрабатывать огромные объемы данных, Hadoop заняла первое место в списке модных словечек ИТ-директоров.
Однако беспрецедентный рост стека в памяти представил экосистему больших данных новой альтернативой аналитике. Метод аналитики MapReduce заменяется новым подходом, который позволяет проводить аналитику как в рамках Hadoop, так и за его пределами. Apache Spark - это новое лицо аналитики больших данных.
Энтузиасты больших данных сертифицировали Apache Spark как самую популярную в мире вычислительную машину для больших данных. Это быстро вытесняет MapReduce и Java с их позиций, и тенденции в сфере занятости отражают это изменение. Согласно опросу, проведенному TypeSafe, 71% глобальных разработчиков Java в настоящее время оценивают или исследуют Spark, а 35% из них уже начали его использовать. Эксперты Spark в настоящее время пользуются спросом, и в ближайшие недели ожидается, что количество вакансий, связанных со Spark, будет зашкаливать.
Итак, что же такого особенного в Apache Spark, благодаря которому он появляется в верхней части списка дел ИТ-директора?
код С ++ сортировки слиянием
Вот некоторые из интересных особенностей Apache Spark:
- Интеграция Hadoop - Spark может работать с файлами, хранящимися в HDFS.
- Интерактивная оболочка Spark - Spark написан на Scala и имеет собственную версию интерпретатора Scala.
- Аналитический пакет Spark - Spark поставляется с инструментами для интерактивного анализа запросов, крупномасштабной обработки и анализа графиков, а также анализа в реальном времени.
- Устойчивые распределенные наборы данных (RDD) - RDD - это распределенные объекты, которые можно кэшировать в памяти в кластере вычислительных узлов. Это основные объекты данных, используемые в Spark.
- Распределенные операторы - Помимо MapReduce, есть много других операторов, которые можно использовать в RDD.
Такие организации, как NASA, Yahoo и Adobe, взяли на себя обязательство Spark. Вот что сказал Джон Трипье, руководитель отдела альянсов и экосистем в Databricks: «Принятие Apache Spark крупными и малыми предприятиями растет невероятными темпами в широком спектре отраслей, и спрос на разработчиков с сертифицированным опытом быстро растет. следуя примеру ». Сейчас самое время изучить Spark, если у вас есть опыт работы с Hadoop.
Edureka специально разработала курс по Apache Spark и Scala, совместно созданный настоящими практиками отрасли. Ознакомьтесь с нашим курсом, чтобы получить дифференцированный опыт электронного обучения в режиме реального времени вместе с отраслевыми проектами. Скоро появятся новые партии, так что пройдите курс здесь: .
Есть вопрос к нам? Пожалуйста, укажите это в комментариях, и мы свяжемся с вами.
Похожие сообщения:
как установить путь Java