Программирование Pig: создайте свой первый скрипт Apache Pig
В нашем , теперь мы узнаем, как создать сценарий Apache Pig. Сценарии Apache Pig используются для коллективного выполнения набора команд Apache Pig. Это помогает сократить время и усилия, затрачиваемые на написание и выполнение каждой команды вручную при выполнении этого в программировании Pig.Это также неотъемлемая часть .Этот блог представляет собой пошаговое руководство, которое поможет вам создать свой первый скрипт Apache Pig.
Режимы выполнения скрипта Apache Pig
Локальный режим : В «локальном режиме» вы можете выполнить сценарий pig в локальной файловой системе. В этом случае вам не нужно хранить данные в файловой системе Hadoop HDFS, вместо этого вы можете работать с данными, хранящимися в самой локальной файловой системе.
Режим MapReduce : В «режиме MapReduce» данные должны храниться в файловой системе HDFS, и вы можете обрабатывать данные с помощью скрипта pig.
Скрипт Apache Pig в режиме MapReduce
Допустим, наша задача - прочитать данные из файла данных и отобразить требуемое содержимое на терминале в качестве вывода.
Пример файла данных содержит следующие данные:
Сохраните текстовый файл с именем «information.txt».
Файл данных примера содержит пять столбцов Имя , Фамилия , Номер мобильного , город , и Профессия разделены по клавиша табуляции . Наша задача - прочитать содержимое этого файла из HDFS и отобразить все столбцы этих записей.
Для обработки этих данных с помощью Pig этот файл должен присутствовать в Apache Hadoop HDFS.
Команда : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka
получить дату из строки java
Шаг 1: Написание сценария Pig
Создайте и откройте файл сценария Apache Pig в редакторе (например, gedit).
Команда : sudo gedit /home/edureka/output.pig
Эта команда создаст файл output.pig в домашнем каталоге пользователя edureka.
Давайте напишем несколько команд PIG в файл output.pig.
A = ЗАГРУЗИТЬ '/edureka/information.txt' с использованием PigStorage ('') как (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Профессия: chararray) B = FOREACH A сгенерировать FName, MobileNo, Profession DUMP B
Сохраните и закройте файл.
- Первая команда загружает файл «information.txt» в переменную A с косвенной схемой (FName, LName, MobileNo, City, Profession).
- Вторая команда загружает необходимые данные из переменной A в переменную B.
- Третья строка отображает содержимое переменной B на терминале / консоли.
Шаг 2: Выполнить сценарий Apache Pig
Чтобы выполнить сценарий pig в режиме HDFS, выполните следующую команду:
Команда : свинья /home/edureka/output.pig
После завершения выполнения просмотрите результат. Эти изображения ниже показывают результаты и их промежуточную карту и функции сокращения.
Изображение ниже показывает, что скрипт выполнен успешно.
На изображении ниже показан результат нашего скрипта.
Поздравляем с успешным выполнением вашего первого скрипта Apache Pig!
Теперь вы знаете, как создать и выполнить скрипт Apache Pig. Следовательно, наш следующий блог в будет рассказывать, как создать UDF (определяемые пользователем функции) в Apache Pig и выполните его в режиме MapReduce / HDFS.
Теперь, когда вы создали и выполнили сценарий Apache Pig Script, ознакомьтесь с от Edureka, надежной компании по онлайн-обучению с сетью из более чем 250 000 довольных учащихся по всему миру. Учебный курс Edureka Big Data по сертификации Hadoop помогает учащимся стать экспертами в области HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, используя примеры использования в реальном времени в области розничной торговли, социальных сетей, авиации, туризма, финансов.
Есть вопрос к нам? Пожалуйста, отметьте это в разделе комментариев, и мы свяжемся с вами.