Детализация Apache Drill, механизма запросов нового века



Это руководство по Apache Drill дает вам всю информацию, необходимую для начала работы с механизмом запросов Apache Drill, использованием с Hadoop, Big Data и Apache Spark.

Apache Drill - это первый в отрасли механизм SQL без схем. Drill - не первая в мире система запросов, но она первая, в которой достигается прекрасный баланс между гибкостью и скоростью. Drill предназначен для масштабирования до нескольких тысяч узлов и запроса петабайт данных с интерактивной скоростью, необходимой средам BI / Analytics.





Он может интегрироваться с несколькими источниками данных, такими как Hive, HBase, MongoDB, файловая система, СУБД. Кроме того, в Drill можно с легкостью использовать такие входные форматы, как Avro, CSV, TSV, PSV, Parquet, файлы Hadoop Sequence и многие другие.

Почему Apache Drill?

Самым большим преимуществом Apache Drill является то, что он может обнаруживать схему на лету, когда вы запрашиваете любые данные. Более того, он может работать с вашими инструментами бизнес-аналитики, такими как Tableau, Qlikview, MicroStrategy и т. Д., Для лучшей аналитики.



Вот цитата отраслевого аналитика, в которой резюмируется ценность Apache Drill:

«Drill - это не только SQL-on-Hadoop. Речь идет о SQL-on-почти-всем-чем угодно, немедленно и без формальностей ».

- Эндрю Бёрст, Gigaom Research, январь 2015 г.



Drillbit - это демон Apache Drill, который запускается на каждом узле кластера. Он использует ZooKeeper для всей коммуникации в кластере и для обслуживания членства в кластере. Он отвечает за прием запросов от клиента, обработку запросов и возврат результатов клиенту. Буровая коронка, которая получает запрос от клиента, называется «бригадиром». Он генерирует план выполнения, фрагменты выполнения отправляются на другие буровые установки, работающие в кластере.

Drillbits-Apache-Drill

Еще одним преимуществом является то, что установка и настройка дрели довольно проста. Давайте узнаем, как установить Apache Drill.

Первым делом загрузите пакет упражнений.

для чего используется sas-программирование

Команда: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Команда: tar -xvf apache-Drill-1.5.0.tar.gz

Команда: ls

Затем установите переменные среды в файле .bashrc.

Команда: sudo gedit .bashrc

экспорт DRILL_HOME = / home / edureka / apache-Drill-1.5.0

экспорт PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Эта команда обновит изменения:

Команда: источник .bashrc

Теперь перейдите в каталог Drill conf и отредактируйте файл Drill-override.conf с идентификатором кластера и хостом и портом zookeeper, мы запустим его в локальном кластере.

Команда: компакт-диск Apache-Drill-1.5.0

Команда: sudo gedit conf / Drill-override.conf

По умолчанию DRILL_MAX_DIRECT_MEMORY будет 8 ГБ в Drill-env.sh, и нам нужно сохранить его в соответствии с имеющейся у нас памятью.

Команда: sudo gedit conf / Drill-env.sh

Чтобы установить Drill только на одном узле, вы можете использовать встроенный режим, в котором он будет выполняться локально. Когда вы запустите эту команду, он автоматически запустит сервис бурового долота.

Команда: ./bin/drill-embedded

Вы можете запустить простой запрос, чтобы проверить установку.

Команда: выберите * из sys.options WHERE type = ‘SYSTEM’ и назовите его, например, security%

Чтобы проверить веб-консоль Apache Drill, нам нужно перейти на localhost: 8047 в веб-браузере.

Вы также можете запустить свой запрос на вкладке «Запрос».

Для запуска детализации в распределенном режиме вам необходимо отредактировать идентификатор кластера и добавить информацию ZooKeeper в Drill-override.conf, как показано ниже.

Затем нам нужно запустить службу ZooKeeper на каждом узле. После этого вы должны запустить сервис бурового долота на каждом узле с помощью этой команды.

Команда: ./bin/drillbit.sh start

Команда: jps

Теперь мы используем команду ниже, чтобы запустить оболочку сверла.

Теперь мы можем выполнять наши запросы в кластере в распределенном режиме.

Глубокая и мелкая копия Java

Это первая запись в серии, состоящей из двух частей, посвященных Apache Drill. Скоро выйдет второй блог из этой серии.

Есть вопрос к нам? Упомяните их в разделе комментариев, и мы свяжемся с вами.

Похожие сообщения:

Детализация Apache Drill, часть 2

Apache Spark против Hadoop MapReduce