Apache Drill - это первый в отрасли механизм SQL без схем. Drill - не первая в мире система запросов, но она первая, в которой достигается прекрасный баланс между гибкостью и скоростью. Drill предназначен для масштабирования до нескольких тысяч узлов и запроса петабайт данных с интерактивной скоростью, необходимой средам BI / Analytics.
Он может интегрироваться с несколькими источниками данных, такими как Hive, HBase, MongoDB, файловая система, СУБД. Кроме того, в Drill можно с легкостью использовать такие входные форматы, как Avro, CSV, TSV, PSV, Parquet, файлы Hadoop Sequence и многие другие.
Почему Apache Drill?
Самым большим преимуществом Apache Drill является то, что он может обнаруживать схему на лету, когда вы запрашиваете любые данные. Более того, он может работать с вашими инструментами бизнес-аналитики, такими как Tableau, Qlikview, MicroStrategy и т. Д., Для лучшей аналитики.
Вот цитата отраслевого аналитика, в которой резюмируется ценность Apache Drill:
«Drill - это не только SQL-on-Hadoop. Речь идет о SQL-on-почти-всем-чем угодно, немедленно и без формальностей ».
- Эндрю Бёрст, Gigaom Research, январь 2015 г.
Drillbit - это демон Apache Drill, который запускается на каждом узле кластера. Он использует ZooKeeper для всей коммуникации в кластере и для обслуживания членства в кластере. Он отвечает за прием запросов от клиента, обработку запросов и возврат результатов клиенту. Буровая коронка, которая получает запрос от клиента, называется «бригадиром». Он генерирует план выполнения, фрагменты выполнения отправляются на другие буровые установки, работающие в кластере.
Еще одним преимуществом является то, что установка и настройка дрели довольно проста. Давайте узнаем, как установить Apache Drill.
Первым делом загрузите пакет упражнений.
для чего используется sas-программирование
Команда: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
Команда: tar -xvf apache-Drill-1.5.0.tar.gz
Команда: ls
Затем установите переменные среды в файле .bashrc.
Команда: sudo gedit .bashrc
экспорт DRILL_HOME = / home / edureka / apache-Drill-1.5.0
экспорт PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin
Эта команда обновит изменения:
Команда: источник .bashrc
Теперь перейдите в каталог Drill conf и отредактируйте файл Drill-override.conf с идентификатором кластера и хостом и портом zookeeper, мы запустим его в локальном кластере.
Команда: компакт-диск Apache-Drill-1.5.0
Команда: sudo gedit conf / Drill-override.conf
По умолчанию DRILL_MAX_DIRECT_MEMORY будет 8 ГБ в Drill-env.sh, и нам нужно сохранить его в соответствии с имеющейся у нас памятью.
Команда: sudo gedit conf / Drill-env.sh
Чтобы установить Drill только на одном узле, вы можете использовать встроенный режим, в котором он будет выполняться локально. Когда вы запустите эту команду, он автоматически запустит сервис бурового долота.
Команда: ./bin/drill-embedded
Вы можете запустить простой запрос, чтобы проверить установку.
Команда: выберите * из sys.options WHERE type = ‘SYSTEM’ и назовите его, например, security%
Чтобы проверить веб-консоль Apache Drill, нам нужно перейти на localhost: 8047 в веб-браузере.
Вы также можете запустить свой запрос на вкладке «Запрос».
Для запуска детализации в распределенном режиме вам необходимо отредактировать идентификатор кластера и добавить информацию ZooKeeper в Drill-override.conf, как показано ниже.
Затем нам нужно запустить службу ZooKeeper на каждом узле. После этого вы должны запустить сервис бурового долота на каждом узле с помощью этой команды.
Команда: ./bin/drillbit.sh start
Команда: jps
Теперь мы используем команду ниже, чтобы запустить оболочку сверла.
Теперь мы можем выполнять наши запросы в кластере в распределенном режиме.
Глубокая и мелкая копия Java
Это первая запись в серии, состоящей из двух частей, посвященных Apache Drill. Скоро выйдет второй блог из этой серии.
Есть вопрос к нам? Упомяните их в разделе комментариев, и мы свяжемся с вами.
Похожие сообщения: