Apache Flink: платформа аналитики больших данных нового поколения для потоковой и пакетной обработки данных



Узнайте все об Apache Flink и настройке кластера Flink в этом блоге. Flink поддерживает обработку в реальном времени и пакетную обработку и является обязательной технологией больших данных для аналитики больших данных.

Apache Flink - это платформа с открытым исходным кодом для распределенной потоковой и пакетной обработки данных. Он может работать в Windows, Mac OS и Linux. В этом сообщении блога давайте обсудим, как настроить кластер Flink локально. Он во многом похож на Spark - у него есть API-интерфейсы для обработки графиков и машинного обучения, такие как Apache Spark, но Apache Flink и Apache Spark не совсем то же самое.





Чтобы настроить кластер Flink, в вашей системе должна быть установлена ​​java 7.x или выше. Поскольку на моем конце на CentOS (Linux) установлен Hadoop-2.2.0, я скачал пакет Flink, совместимый с Hadoop 2.x. Выполните команду ниже, чтобы загрузить пакет Flink.

Команда: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Разверните файл, чтобы получить каталог flink.

Команда: tar -xvf Загрузки / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Команда: ls

Добавьте переменные среды Flink в файл .bashrc.

Команда: sudo gedit .bashrc

сервис сейчас инструмент для продажи билетов

Вам необходимо запустить приведенную ниже команду, чтобы активировать изменения в файле .bashrc.

Команда: источник .bashrc

Теперь перейдите в каталог flink и запустите кластер локально.

Команда: cd hefty-1.0.0

Команда: bin / start-local.sh

После того, как вы запустили кластер, вы увидите, что запущен новый демон JobManager.

Команда: jps

Откройте браузер и перейдите по адресу http: // localhost: 8081, чтобы увидеть веб-интерфейс Apache Flink.

Давайте запустим простой пример подсчета слов с помощью Apache Flink.

Перед запуском примера установите netcat в вашей системе (sudo yum install nc).

Теперь в новом терминале выполните следующую команду.

Команда: nc -lk 9000

Выполните приведенную ниже команду в терминале flink. Эта команда запускает программу, которая принимает потоковые данные в качестве входных и выполняет операцию wordcount для этих потоковых данных.

Команда: bin / flink примеры запуска / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

В веб-интерфейсе вы сможете увидеть задание в рабочем состоянии.

возвести число в степень в java

Запустите команду ниже в новом терминале, это распечатает данные, переданные и обработанные.

Команда: tail -f log / flink - * - jobmanager - *. out

Теперь перейдите в терминал, на котором вы запустили netcat, и введите что-нибудь.

В тот момент, когда вы нажмете кнопку ввода на своем ключевом слове после того, как вы набрали некоторые данные на терминале netcat, к этим данным будет применена операция wordcount, и результат будет напечатан здесь (журнал flink's jobmanager) в течение миллисекунд!

В течение очень короткого промежутка времени данные будут переданы, обработаны и напечатаны.

Об Apache Flink можно узнать гораздо больше. Мы коснемся других тем о Flink в нашем следующем блоге.

Есть вопрос к нам? Упомяните их в разделе комментариев, и мы свяжемся с вами.

Похожие сообщения:

Apache Falcon: новая платформа управления данными для экосистемы Hadoop