4 способа совместного использования R и Hadoop



R и Hadoop достаточно хорошо дополняют друг друга с точки зрения визуализации и аналитики больших данных. В этом сообщении в блоге рассказывается о 4 способах их совместного использования.

Hadoop - это революционная среда программирования на основе Java, которая поддерживает обработку больших наборов данных в распределенной вычислительной среде, а R - это язык программирования и программная среда для статистических вычислений и графики. Язык R широко используется статистиками и специалистами по обработке данных для разработки статистического программного обеспечения и выполнения анализа данных. В области интерактивного анализа данных, статистики общего назначения и прогнозного моделирования R приобрел огромную популярность благодаря своим возможностям классификации, кластеризации и ранжирования.

KM





Hadoop и R достаточно хорошо дополняют друг друга с точки зрения визуализации и аналитики больших данных.

Использование R и Hadoop

Существует четыре различных способа использования Hadoop и R вместе:



ruby on rails руководство по веб-сайту

1. RHadoop

RHadoop - это набор из трех пакетов R: rmr, rhdfs и rhbase. Пакет rmr обеспечивает функциональность Hadoop MapReduce в R, rhdfs обеспечивает управление файлами HDFS в R, а rhbase обеспечивает управление базой данных HBase из R. Каждый из этих основных пакетов может использоваться для лучшего анализа и управления данными инфраструктуры Hadoop.

2. ОРХИ



ORCH означает Oracle R Connector для Hadoop. Это набор пакетов R, которые предоставляют соответствующие интерфейсы для работы с таблицами Hive, вычислительной инфраструктурой Apache Hadoop, локальной средой R и таблицами базы данных Oracle. Кроме того, ORCH также предоставляет методы прогнозного анализа, которые можно применять к данным в файлах HDFS.

3. RHIPE

RHIPE - это пакет R, который предоставляет API для использования Hadoop. RHIPE означает интегрированную среду программирования R и Hadoop и по сути является RHadoop с другим API.

Четыре. Потоковая передача Hadoop

Hadoop Streaming - это утилита, которая позволяет пользователям создавать и запускать задания с любыми исполняемыми файлами в качестве сопоставителя и / или редуктора. Используя систему потоковой передачи, можно разрабатывать рабочие задания Hadoop, имея достаточно знаний Java, чтобы написать два сценария оболочки, которые работают в тандеме.

Сочетание R и Hadoop становится обязательным набором инструментов для людей, работающих со статистикой и большими наборами данных. Однако некоторые энтузиасты Hadoop подняли тревогу, имея дело с чрезвычайно большими фрагментами больших данных. Они утверждают, что преимущество R не в его синтаксисе, а в исчерпывающей библиотеке примитивов для визуализации и статистики. Эти библиотеки принципиально нераспространяемые, что делает поиск данных трудоемким. Это врожденный недостаток R, и если вы решите не обращать на него внимания, R и Hadoop в тандеме все равно могут творить чудеса.

Теперь давайте посмотрим на демонстрацию:

Есть вопрос к нам? Укажите их в комментариях, и мы свяжемся с вами.

Похожие сообщения: