Informatica ETL: руководство для начинающих по пониманию ETL с помощью Informatica PowerCenter



Понимание концепций Informatica ETL и различных этапов процесса ETL и практический пример использования с базой данных сотрудников.

Цель Informatica ETL - предоставить пользователям не только процесс извлечения данных из исходных систем и их переноса в хранилище данных, но и предоставить пользователям общую платформу для интеграции их данных с различных платформ и приложений.Это привело к увеличению спроса на .Прежде чем говорить об Informatica ETL, давайте сначала разберемся, зачем нам нужен ETL.

Зачем нам нужен ETL?

Каждая компанияв эти дни приходится обрабатывать большие наборы данных из различных источников. Эти данные необходимо обработать, чтобы получить полезную информацию для принятия деловых решений. Но довольно часто такие данные имеют следующие проблемы:





  • Крупные компании генерируют много данных, и такой огромный кусок данных может быть в любом формате. Они будут доступны в нескольких базах данных и во многих неструктурированных файлах.
  • Эти данные необходимо сопоставить, объединить, сравнить и заставить работать как единое целое. Но разные базы данных плохо взаимодействуют!
  • Многие организации внедрили интерфейсы между этими базами данных, но столкнулись со следующими проблемами:
    • Каждая пара баз данных требует уникального интерфейса.
    • Если вы изменяете одну базу данных, может потребоваться обновление многих интерфейсов.

Ниже вы можете увидеть различные базы данных организации и их взаимодействия:

Различные наборы данных организации - Informatica - ETL - Edureka

Различные базы данных, используемые разными отделами организации



Различные взаимодействия баз данных в организации

Как было показано выше, организация может иметь различные базы данных в различных отделах, и взаимодействие между ними становится трудно реализовать, поскольку для них необходимо создавать различные интерфейсы взаимодействия. Лучшее решение для преодоления этих проблем - использовать концепции Интеграция данных что позволило бы данным из разных баз данных и форматов связываться друг с другом. Рисунок ниже помогает нам понять, как инструмент интеграции данных становится общим интерфейсом для связи между различными базами данных.

Различные базы данных, подключенные через интеграцию данных



Но для интеграции данных доступны разные процессы. Среди этих процессов ETL - самый оптимальный, эффективный и надежный процесс. Через ETL пользователь может не только вводить данные из различных источников, но и выполнять различные операции с данными перед сохранением этих данных на конечной цели.

Среди различных доступных на рынке инструментов ETL Informatica PowerCenter является лидирующей платформой для интеграции данных. Протестировав почти 500 000 комбинаций платформ и приложений, Informatica PowerCenter inter работает с максимально широким диапазоном разнородных стандартов, систем и приложений. Давайте теперь разберемся с этапами, задействованными в процессе ETL Informatica.

Информатика ETL | Informatica Архитектура | Учебное пособие по Informatica PowerCenter | Эдурека

Это руководство по Edureka Informatica поможет вам подробно понять основы ETL с использованием Informatica Powercenter.

Шаги в процессе ETL Informatica:

Прежде чем мы перейдем к различным шагам, связанным с Informatica ETL, давайте сделаем обзор ETL. В ETL извлечение - это когда данные извлекаются из однородных или разнородных источников данных, преобразование, когда данные преобразуются для хранения в надлежащем формате или структуре для целей запроса и анализа, и загрузка, когда данные загружаются в окончательную целевую базу данных, хранилище операционных данных, витрина данных или хранилище данных. Изображение ниже поможет вам понять, как происходит процесс ETL Informatica.

Обзор процесса ETL

Как показано выше, Informatica PowerCenter может загружать данные из различных источников и сохранять их в едином хранилище данных. Теперь давайте посмотрим на этапы процесса ETL Informatica.

В основном процесс ETL Informatica состоит из 4 шагов, давайте теперь разберемся с ними глубже:

  1. Извлечь или захватить
  2. Скраб или очистить
  3. Преобразовать
  4. Загрузить и индекс

1. Извлечь или захватить: Как видно на изображении ниже, захват или извлечение - это первый шаг процесса ETL Informatica.Это процесс получения снимка выбранного подмножества данных из источника, который необходимо загрузить в хранилище данных. Моментальный снимок - это статическое представление данных в базе данных, доступное только для чтения. Процесс извлечения может быть двух типов:

  • Полная выписка: Данные полностью извлекаются из исходной системы, и нет необходимости отслеживать изменения в источнике данных с момента последнего успешного извлечения.
  • Добавочный экстракт: При этом будут фиксироваться только изменения, произошедшие с момента последней полной экстракции.

Фаза 1: Извлечение или захват

2. Скраб или очистите: Это процесс очистки данных, поступающих из источника, с использованием различных методов распознавания образов и искусственного интеллекта для повышения качества передаваемых данных. Обычно такие ошибки, как орфографические ошибки, ошибочные даты, неправильное использование полей, несоответствующие адреса, отсутствующие данные, повторяющиеся данные, несоответствия, являютсявыделено, а затем исправлено или удаленона этом этапе. Кроме того, на этом шаге выполняются такие операции, как декодирование, переформатирование, отметка времени, преобразование, генерация ключа, слияние, обнаружение / регистрация ошибок, поиск отсутствующих данных. Как видно на изображении ниже, это второй этап процесса ETL Informatica.

Этап 2: очистка или очистка данных

3. Преобразовать: Как видно на изображении ниже, это третий и наиболее важный этап процесса ETL Informatica. Преобразования - это операция преобразования данных из формата исходной системы в каркас хранилища данных. Преобразование в основном используется для представления набора правил, которые определяют поток данных и способ загрузки данных в целевые объекты. Чтобы узнать больше о трансформации, посетите Преобразования в Informatica Блог.

Фаза 3: трансформация

4. Загрузка и индекс: Это последний шаг процесса ETL Informatica, как показано на изображении ниже. На этом этапе мы помещаем преобразованные данные в хранилище и создаем индексы для данных. В зависимости от процесса загрузки доступны два основных типа загрузки данных:

  • Полная загрузка или массовая загрузка :Процесс загрузки данных, когда мы делаем это в первый раз. Задание извлекает весь объем данных из исходной таблицы и загружает в целевое хранилище данных после применения необходимых преобразований. Это будет однократное задание, после чего изменения будут фиксироваться как часть инкрементного извлечения.
  • Добавочная загрузка или Обновить загрузку : Только измененные данные будут обновлены в целевом объекте с последующей полной загрузкой. Изменения будут зафиксированы путем сравнения даты создания или изменения с датой последнего запуска задания.Только измененные данные извлекаются из источника и будут обновлены в целевом объекте, не влияя на существующие данные.

Этап 4: загрузка и индекс

Если вы разобрались с процессом ETL Informatica, теперь мы лучше понимаем, почему Informatica - лучшее решение в таких случаях.

Особенности Informatica ETL:

Для всех операций интеграции данных и ETL Informatica предоставила нам Informatica PowerCenter . Давайте теперь посмотрим на некоторые ключевые особенности Informatica ETL:

  • Предоставляет возможность указать большое количество правил преобразования с помощью графического интерфейса.
  • Создавайте программы для преобразования данных.
  • Обрабатывать несколько источников данных.
  • Поддерживает операции извлечения, очистки, агрегирования, реорганизации, преобразования и загрузки данных.
  • Автоматически генерирует программы для извлечения данных.
  • Быстрая загрузка целевых хранилищ данных.

Ниже приведены некоторые из типичных сценариев использования Informatica PowerCenter:

  1. Перенос данных:

Компания приобрела новое приложение «Счета к оплате» для своей бухгалтерии. PowerCenter может переместить данные существующей учетной записи в новое приложение. Рисунок ниже поможет вам понять, как использовать Informatica PowerCenter для миграции данных. Informatica PowerCenter может легко сохранить происхождение данных для налоговых, бухгалтерских и других предусмотренных законом целей в процессе миграции данных.

Перенос данных из старого бухгалтерского приложения в новое

  1. Интеграция приложений:

Допустим, компания A покупает компанию B. Таким образом, для достижения преимуществ консолидации биллинговая система Компании-Б должна быть интегрирована в биллинговую систему Компании-А, что можно легко сделать с помощью Informatica PowerCenter. Рисунок ниже поможет вам понять, как можно использовать Informatica PowerCenter для интеграции приложений между компаниями.

Интеграция приложений между компаниями

как реализовать связанный список в c
  1. Хранилище данных

Типичные действия, требуемые в хранилищах данных:

  • Объединение информации из многих источников для анализа.
  • Перенос данных из многих баз данных в хранилище данных.

Все вышеперечисленные типичные случаи можно легко выполнить с помощью Informatica PowerCenter. Ниже вы можете увидеть, что Informatica PowerCenter используется для объединения данных из различных типов баз данных, таких как Oracle, SalesForce и т. Д., И переноса их в общее хранилище данных, созданное Informatica PowerCenter.

Данные из различных баз данных интегрированы в общее хранилище данных

  1. ПО промежуточного слоя

Допустим, розничная организация использует SAP R3 для своих розничных приложений и SAP BW в качестве хранилища данных. Прямая связь между этими двумя приложениями невозможна из-за отсутствия интерфейса связи. Однако Informatica PowerCenter можно использовать как промежуточное ПО между этими двумя приложениями. На изображении ниже вы можете увидеть архитектуру использования Informatica PowerCenter в качестве промежуточного программного обеспечения между SAP R / 3 и SAP BW. Приложения из SAP R / 3 передают свои данные в структуру ABAP, которая затем передает их вSAP Point of Sale (POS) и SAPСчета за услуги (BOS). Informatica PowerCenter помогает переносить данные из этих сервисов в SAP Business Warehouse (BW).

Informatica PowerCenter как промежуточное ПО в архитектуре SAP Retail

Хотя вы видели несколько ключевых функций и типичных сценариев Informatica ETL, я надеюсь, вы понимаете, почему Informatica PowerCenter является лучшим инструментом для процесса ETL. Давайте теперь посмотрим на пример использования Informatica ETL.

Пример использования: объединение двух таблиц для получения единой подробной таблицы

Предположим, вы хотите предоставить своим сотрудникам транспорт, соответствующий отделу, поскольку отделы расположены в разных местах. Для этого сначала нужно знать, к какому отделу принадлежит каждый сотрудник и где находится отдел. Однако сведения о сотрудниках хранятся в разных таблицах, и вам необходимо присоединить данные отдела к существующей базе данных с данными всех сотрудников. Для этого мы сначала загрузим обе таблицы в Informatica PowerCenter, выполним преобразование квалификатора источника для данных и, наконец, загрузим детали в целевую базу данных..Начнем:

Шаг 1 : Откройте PowerCenter Designer.

Ниже находится домашняя страница Informatica PowerCenter Designer.

Давайте теперь подключимся к репозиторию. Если вы не настроили свои репозитории или столкнулись с какими-либо проблемами, вы можете проверить наши Блог.

Шаг 2: Щелкните правой кнопкой мыши свой репозиторий и выберите вариант подключения.

При нажатии на опцию подключения, вы увидите экран, показанный ниже, с запросом имени пользователя и пароля вашего репозитория.

После подключения к репозиторию необходимо открыть рабочую папку, как показано ниже:

Вам будет предложено указать имя вашего сопоставления. Укажите имя вашего сопоставления и нажмите ОК (я назвал его как м-СОТРУДНИК ).

Шаг 3: Давайте теперь загрузим таблицы из базы данных, начнем с подключения к базе данных. Для этого выберите вкладку Источники и опцию Импорт из базы данных, как показано ниже:

При нажатии на «Импортировать из базы данных» вам будет предложен экран, показанный ниже, с запросом сведений о вашей базе данных, ее имени пользователя и пароля для подключения (я использую базу данных oracle и пользователя HR).

Нажмите Connect, чтобы подключиться к вашей базе данных.

Шаг 4: Как я хочу присоединиться к СОТРУДНИКИ и ОТДЕЛЕНИЕ таблицы, я выберу их и нажму ОК.
Источники будут видны в рабочем пространстве дизайнера карт, как показано ниже.

Шаг 5: Таким же образом загрузите целевую таблицу в отображение.

Шаг 6: Теперь давайте свяжем квалификатор Source и целевую таблицу. Щелкните правой кнопкой мыши любое пустое место в рабочей области и выберите Autolink, как показано ниже:

Ниже приведено сопоставление, на которое ссылается Autolink.

Шаг 7: Поскольку нам нужно связать обе таблицы с квалификатором источника, выберите столбцы таблицы отдела и перетащите его в квалификатор источника, как показано ниже:

Перетащите значения столбца в квалификатор источника SQ_EMPLOYEES .

абстракция данных в c ++

Ниже представлен обновленный квалификатор источника.

Шаг 8: Дважды щелкните Source Qualifier, чтобы отредактировать преобразование.

Вы получите всплывающее окно Edit Transformation, как показано ниже. Щелкните вкладку «Свойства».

Шаг 9: На вкладке «Свойства» щелкните поле «Значение» в строке «Пользовательское соединение»..

Вы получите следующий редактор SQL:

Шаг 10: Войти СОТРУДНИКИ.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID в качестве условия объединения обеих таблиц в поле SQL и нажмите OK.

Шаг 11: Теперь щелкните строку SQL-запроса, чтобы сгенерировать SQL для присоединения, как показано ниже:

Вы получите следующий редактор SQL, нажмите кнопку «Создать SQL».

Следующий SQL будет сгенерирован для условия, указанного на предыдущем шаге. Щелкните ОК.

Шаг 12: Нажмите Применить и ОК.

Ниже приведено завершенное отображение.

Мы завершили разработку того, как данные должны быть переданы от источника к цели. Однако фактическая передача данных еще не произошла, и для этого нам необходимо использовать PowerCenter Workflow Design. Выполнение рабочего процесса приведет к передаче данных от источника к цели. Чтобы узнать больше о рабочем процессе, посетите наш Учебное пособие по Informatica: рабочий процесс Блог

Шаг 13: LТеперь запустите диспетчер рабочего процесса, щелкнув значок W, как показано ниже:

Ниже находится домашняя страница дизайнера рабочих процессов.

Шаг 14: Давайте теперь создадим новый рабочий процесс для нашего сопоставления. Щелкните вкладку «Рабочий процесс» и выберите «Создать параметр».

Вы получите всплывающее окно, показанное ниже. Укажите название рабочего процесса и нажмите ОК.

Шаг 15. : После создания рабочего процесса мы получаем значок «Пуск» в рабочем пространстве Workflow Manager.

синтаксический анализ строки на дату Java

Давайте теперь добавим новый сеанс в рабочую область, как показано ниже, щелкнув значок сеанса и щелкнув рабочее пространство:

Щелкните рабочую область, чтобы разместить значок сеанса.

Шаг 16: При добавлении сеанса вы должны выбрать сопоставление, которое вы создали и сохранили на вышеуказанных шагах. (Я сохранил его как m-EMPLOYEE).

Ниже показано рабочее пространство после добавления значка сеанса.

Шаг 17 : Теперь, когда вы создали новую сессию, нам нужно связать ее с начальной задачей. Мы можем сделать это, щелкнув значок Link Task, как показано ниже:

Сначала щелкните значок «Пуск», а затем значок сеанса, чтобы установить ссылку.

Ниже представлен связанный рабочий процесс.

Шаг 18: Теперь, когда мы завершили дизайн, приступим к рабочему процессу. Щелкните вкладку «Рабочий процесс» и выберите «Начать рабочий процесс».

Диспетчер рабочего процесса запускает монитор рабочего процесса.

Шаг 19. : Как только мы запускаем рабочий процесс, Workflow Manager автоматически запускаетипозволяет отслеживать выполнение вашего рабочего процесса. Ниже вы можете увидеть, что монитор рабочего процесса показывает статус вашего рабочего процесса.

Шаг 20: Чтобы проверить статус рабочего процесса, щелкните его правой кнопкой мыши и выберите «Получить свойства запуска», как показано ниже:

Выберите вкладку Source / Target Statistics.

Ниже вы можете увидеть количество строк, которые были переданы между источником и целью после преобразования.

Вы также можете проверить свой результат, проверив целевую таблицу, как показано ниже.

Я надеюсь, что этот блог Informatica ETL был полезен для вашего понимания концепций ETL с использованием Informatica и вызвал достаточный интерес для вас, чтобы узнать больше об Informatica.

Если вы нашли этот блог полезным, вы также можете ознакомиться с нашей серией учебников по Informatica. , Учебное пособие по Informatica: понимание Informatica «наизнанку» и Преобразования в Informatica: сердце и душа Informatica PowerCenter . В случае, если вы ищете подробную информацию о сертификации Informatica, вы можете проверить наш блог. Сертификация Informatica: все, что нужно знать .

Если вы уже решили заняться информатикой как карьерой, я бы порекомендовал вам взглянуть на наши страница курса. Тренинг по сертификации Informatica в Edureka сделает вас экспертом в области Informatica посредством занятий под руководством инструктора и практического обучения с использованием реальных примеров использования.