Программирование Pig: создайте свой первый скрипт Apache Pig



Прочтите это сообщение в блоге, чтобы создать свой первый скрипт Apache Pig. Сценарии Apache Pig используются для коллективного выполнения набора команд Apache Pig.

Программирование Pig: создайте свой первый скрипт Apache Pig

В нашем , теперь мы узнаем, как создать сценарий Apache Pig. Сценарии Apache Pig используются для коллективного выполнения набора команд Apache Pig. Это помогает сократить время и усилия, затрачиваемые на написание и выполнение каждой команды вручную при выполнении этого в программировании Pig.Это также неотъемлемая часть .Этот блог представляет собой пошаговое руководство, которое поможет вам создать свой первый скрипт Apache Pig.

Режимы выполнения скрипта Apache Pig

Локальный режим : В «локальном режиме» вы можете выполнить сценарий pig в локальной файловой системе. В этом случае вам не нужно хранить данные в файловой системе Hadoop HDFS, вместо этого вы можете работать с данными, хранящимися в самой локальной файловой системе.





Режим MapReduce : В «режиме MapReduce» данные должны храниться в файловой системе HDFS, и вы можете обрабатывать данные с помощью скрипта pig.

Скрипт Apache Pig в режиме MapReduce

Допустим, наша задача - прочитать данные из файла данных и отобразить требуемое содержимое на терминале в качестве вывода.



Пример файла данных содержит следующие данные:

Информационный txt файл - Apache Pig Script - Edureka

Сохраните текстовый файл с именем «information.txt».



Файл данных примера содержит пять столбцов Имя , Фамилия , Номер мобильного , город , и Профессия разделены по клавиша табуляции . Наша задача - прочитать содержимое этого файла из HDFS и отобразить все столбцы этих записей.

Для обработки этих данных с помощью Pig этот файл должен присутствовать в Apache Hadoop HDFS.

Команда : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

получить дату из строки java

Шаг 1: Написание сценария Pig

Создайте и откройте файл сценария Apache Pig в редакторе (например, gedit).

Команда : sudo gedit /home/edureka/output.pig

Эта команда создаст файл output.pig в домашнем каталоге пользователя edureka.

Давайте напишем несколько команд PIG в файл output.pig.

A = ЗАГРУЗИТЬ '/edureka/information.txt' с использованием PigStorage ('') как (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Профессия: chararray) B = FOREACH A сгенерировать FName, MobileNo, Profession DUMP B

Сохраните и закройте файл.

  • Первая команда загружает файл «information.txt» в переменную A с косвенной схемой (FName, LName, MobileNo, City, Profession).
  • Вторая команда загружает необходимые данные из переменной A в переменную B.
  • Третья строка отображает содержимое переменной B на терминале / консоли.

Шаг 2: Выполнить сценарий Apache Pig

Чтобы выполнить сценарий pig в режиме HDFS, выполните следующую команду:

Команда : свинья /home/edureka/output.pig

После завершения выполнения просмотрите результат. Эти изображения ниже показывают результаты и их промежуточную карту и функции сокращения.

Изображение ниже показывает, что скрипт выполнен успешно.

На изображении ниже показан результат нашего скрипта.

Поздравляем с успешным выполнением вашего первого скрипта Apache Pig!

Теперь вы знаете, как создать и выполнить скрипт Apache Pig. Следовательно, наш следующий блог в будет рассказывать, как создать UDF (определяемые пользователем функции) в Apache Pig и выполните его в режиме MapReduce / HDFS.

Теперь, когда вы создали и выполнили сценарий Apache Pig Script, ознакомьтесь с от Edureka, надежной компании по онлайн-обучению с сетью из более чем 250 000 довольных учащихся по всему миру. Учебный курс Edureka Big Data по сертификации Hadoop помогает учащимся стать экспертами в области HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, используя примеры использования в реальном времени в области розничной торговли, социальных сетей, авиации, туризма, финансов.

Есть вопрос к нам? Пожалуйста, отметьте это в разделе комментариев, и мы свяжемся с вами.