Apache Flink - это платформа с открытым исходным кодом для распределенной потоковой и пакетной обработки данных. Он может работать в Windows, Mac OS и Linux. В этом сообщении блога давайте обсудим, как настроить кластер Flink локально. Он во многом похож на Spark - у него есть API-интерфейсы для обработки графиков и машинного обучения, такие как Apache Spark, но Apache Flink и Apache Spark не совсем то же самое.
Чтобы настроить кластер Flink, в вашей системе должна быть установлена java 7.x или выше. Поскольку на моем конце на CentOS (Linux) установлен Hadoop-2.2.0, я скачал пакет Flink, совместимый с Hadoop 2.x. Выполните команду ниже, чтобы загрузить пакет Flink.
Команда: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Разверните файл, чтобы получить каталог flink.
Команда: tar -xvf Загрузки / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Команда: ls
Добавьте переменные среды Flink в файл .bashrc.
Команда: sudo gedit .bashrc
сервис сейчас инструмент для продажи билетов
Вам необходимо запустить приведенную ниже команду, чтобы активировать изменения в файле .bashrc.
Команда: источник .bashrc
Теперь перейдите в каталог flink и запустите кластер локально.
Команда: cd hefty-1.0.0
Команда: bin / start-local.sh
После того, как вы запустили кластер, вы увидите, что запущен новый демон JobManager.
Команда: jps
Откройте браузер и перейдите по адресу http: // localhost: 8081, чтобы увидеть веб-интерфейс Apache Flink.
Давайте запустим простой пример подсчета слов с помощью Apache Flink.
Перед запуском примера установите netcat в вашей системе (sudo yum install nc).
Теперь в новом терминале выполните следующую команду.
Команда: nc -lk 9000
Выполните приведенную ниже команду в терминале flink. Эта команда запускает программу, которая принимает потоковые данные в качестве входных и выполняет операцию wordcount для этих потоковых данных.
Команда: bin / flink примеры запуска / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000
В веб-интерфейсе вы сможете увидеть задание в рабочем состоянии.
возвести число в степень в java
Запустите команду ниже в новом терминале, это распечатает данные, переданные и обработанные.
Команда: tail -f log / flink - * - jobmanager - *. out
Теперь перейдите в терминал, на котором вы запустили netcat, и введите что-нибудь.
В тот момент, когда вы нажмете кнопку ввода на своем ключевом слове после того, как вы набрали некоторые данные на терминале netcat, к этим данным будет применена операция wordcount, и результат будет напечатан здесь (журнал flink's jobmanager) в течение миллисекунд!
В течение очень короткого промежутка времени данные будут переданы, обработаны и напечатаны.
Об Apache Flink можно узнать гораздо больше. Мы коснемся других тем о Flink в нашем следующем блоге.
Есть вопрос к нам? Упомяните их в разделе комментариев, и мы свяжемся с вами.
Похожие сообщения:
Apache Falcon: новая платформа управления данными для экосистемы Hadoop