В мире, который генерирует и потребляет 2,5 квинтиллиона байтов данных в день, организации вынуждены искать новые методы преобразования и комбинирования данных для достижения оптимальной эффективности. Одним из таких методов объединения данных является Смешивание данных в таблице .
Теперь, поскольку это служит такой важной цели в цикле обработки данных любой организации, это делает очень важный модуль в большинстве . В этом блоге мы обсудим следующие концепции:
- Зачем вам нужно смешивание данных в Tableau?
- Что такое смешивание данных в Tableau?
- Чем это отличается от объединения данных?
- Когда заменить смешивание на соединение?
- Смешивание ваших данных в Tableau
- Ограничения смешивания данных в Tableau
Зачем вам нужно смешивание данных в Tableau?
Предположим, вы Таблица разработчика у кого есть транзакционные данные, хранящиеся в Salesforce, и данные о квотах, хранящиеся в Access. Данные, которые вы хотите объединить, хранятся в разных базах данных, и степень детализации данных, собранных в каждой таблице, различается в двух источниках данных, поэтому смешивание данных - лучший способ объединить эти данные.
Смешивание данных полезно при следующих условиях:
Вы хотите объединить данные из разных баз данных, которые не поддерживаются соединениями между базами данных.
Соединения между базами данных не поддерживают соединения с кубами (например, Oracle Essbase) или с некоторыми соединениями только для извлечения (например, Google Analytics). В этом случае настройте отдельные источники данных для данных, которые вы хотите анализировать, а затем используйте смешивание данных, чтобы объединить источники данных на одном листе.
Данные находятся на разном уровне детализации.
Иногда один набор данных захватывает данные с использованием различных уровни детализации то есть с большей или меньшей степенью детализации, чем у другого набора данных.
Например, предположим, что вы анализируете данные транзакций и данные о квотах. Транзакционные данные могут фиксировать все транзакции. Однако данные о квотах могут агрегировать транзакции на уровне квартала. Поскольку значения транзакций фиксируются на разных уровнях детализации в каждом наборе данных, для объединения данных следует использовать смешивание данных.
Что такое смешивание данных в Tableau?
Смешивание данных - очень мощная функция в Доска . Он используется, когда есть связанные данные в нескольких источниках данных, которые вы хотите проанализировать вместе в одном представлении. Это метод объединения данных, который дополняет таблицу данных из одного источника данных столбцами данных из другого источника данных.
Обычно вы используете объединения для выполнения такого рода объединения данных, но иногда, в зависимости от таких факторов, как тип данных и их степень детализации, лучше использовать смешивание данных.
Чем это отличается от объединения данных?
Смешивание данных имитирует традиционное левое соединение. Основное различие между ними - когда соединение выполняется относительно агрегирования.
Левое соединение
Когда вы используете левое соединение для объединения данных, запрос отправляется в базу данных, где выполняется соединение. Использование левого соединения возвращает все строки из левой таблицы и любые строки из правой таблицы, которым соответствует строка в левой таблице. Затем результаты соединения отправляются обратно в Tableau и агрегируются.
Например, предположим, что у вас есть следующие таблицы. Если общие столбцы Логин пользователя , левое соединение берет все данные из левой таблицы, а также все данные из правой таблицы, потому что каждой строке соответствует соответствующая строка в левой таблице.
Смешивание данных
Когда вы используете смешивание данных для объединения данных, запрос отправляется в базу данных для каждого источника данных, который используется на листе. Результаты запросов, включая агрегированные данные, отправляются обратно и объединяются Tableau. В представлении используются все строки из первичного источника данных, левой таблицы, и агрегированные строки из вторичного источника данных, правой таблицы, в зависимости от измерения связывающих полей.
Вы можете изменить поле связывания или добавить дополнительные поля связывания, чтобы включить в смесь различные или дополнительные строки данных из вторичного источника данных, изменяя агрегированные значения.
Например, предположим, что у вас есть следующие таблицы. Если поля связи Логин пользователя в обеих таблицах смешивание ваших данных берет все данные из левой таблицы и дополняет левую таблицу данными из правой таблицы. В этом случае не все значения могут быть частью итоговой таблицы по следующим причинам:
- Строке в левой таблице не соответствует соответствующая строка в правой таблице, на что указывает нулевое значение.
- В строках правой таблицы есть несколько соответствующих значений, отмеченных звездочкой (*).
Предположим, у вас есть те же таблицы, что и выше, но вторичный источник данных содержит новое поле с именем Цели . Опять же, если поле ссылки Логин пользователя , смешивание данных берет все данные из левой таблицы и дополняет их данными из правой таблицы. В этом случае вы видите то же значение NULL и звездочки, что и в предыдущем примере, в дополнение к следующему:
- Поскольку Цели поле является мерой, вы видите значения строк дляЦелиполе, агрегированное до объединения данных в правой таблице с данными в левой таблице.
- Как и в предыдущем примере, строка в левой таблице не имеет соответствующей строки для Цели поле, на что указывает второе нулевое значение.
Когда заменять присоединение к Смешивание
1. Данные требуют очистки.
Если ваши таблицы не совпадают друг с другом правильно после объединения, настройте источники данных для каждой таблицы, сделайте все необходимые настройки (то есть переименуйте столбцы, измените типы данных столбца, создайте группы, используйте вычисления и т. Д.) И затем используйте смешивание данных для объединения данных.
2. Соединения вызывают дублирование данных.
Дублирование данных после соединения - признак данных на разных уровнях детализации. Если вы заметили повторяющиеся данные, вместо создания соединения используйте смешивание данных для смешивания в общем измерении.
3. У вас много данных.
Обычно объединения рекомендуются для объединения данных из одной базы данных. Объединения обрабатываются базой данных, что позволяет объединениям использовать некоторые собственные возможности базы данных. Однако, если вы работаете с большими наборами данных, объединения могут вызвать нагрузку на базу данных и существенно повлиять на производительность. В этом случае может помочь смешивание данных. Поскольку Tableau обрабатывает объединение данных после объединения данных, данных для объединения остается меньше. Как правило, производительность повышается, когда требуется объединить меньше данных.
Смешивание ваших данных в Tableau
Вы можете использовать смешивание данных, когда у вас есть данные в разных источниках данных, которые вы хотите проанализировать вместе на одном листе. Tableau имеет два встроенных источника данных с именами Образец-супермаркет и Образец кофейной сети.mdb который будет использоваться для иллюстрации смешивания данных.
Шаг 1. Подключитесь к своим данным и настройте источники данных
__init__ питон 3
- Подключитесь к набору данных и настройте источник данных на странице источника данных. Явстроенный источник данных Образец кофейной сети.mdb ,который является файлом базы данных MS Access, будет использоваться для иллюстрации смешивания данных.
- Перейти к Данные > Новый источник данных, подключитесь ко второму набору данных.В этом примере используется Образец - Супермаркет источник данных. ТЗатем настройте источник данных.
- Щелкните вкладку листа, чтобы начать построение представления.
Шаг 2. Назначьте основной источник данных
- Перетащите хотя бы одно поле из основного источника данных в представление, чтобы назначить его основным источником данных. в Данные на панели щелкните источник данных, который вы хотите назначить основным источником данных. В этом примере Образец кофейной сети выбрано.
- На следующем снимке экрана показаны различные таблицы и объединения, доступные в файле.
Шаг 3. Назначьте дополнительный источник данных
- Поля, используемые в представлении из источников данных, которые не являются первичным источником данных или активными ссылками, автоматически назначают последующие источники данных в качестве вторичного источника данных. В данном случае Sample Superstore.
Шаг 4: смешайте данные
- Теперь вы можете интегрировать данные из обоих источников на основе общего измерения ( государство , в таком случае). Обратите внимание, что небольшое изображение ссылки появляется рядом с размером - Состояние. Это указывает на общее измерение между двумя источниками данных.
- Предположим, вы создали гистограмму с Коэффициент прибыли на полке столбцов и государство На полке рядов диаграмма показывает, как соотношение прибыли меняется для каждого штата как в супермаркетах, так и в сети кофеен.
Ограничения смешивания данных в Tableau
- В отношении неаддитивных агрегатов существуют некоторые ограничения на смешивание данных, например МЕДИАНА , и RAWSQLAGG .
- Смешивание данных снижает скорость выполнения запросов с высокой степенью детализации.
- Когда вы пытаетесь выполнить сортировку по вычисляемому полю, в котором используются смешанные данные, вычисляемое поле не отображается в раскрывающемся списке «Поле» диалогового окна «Сортировка».
- Источники данных куба можно использовать только в качестве основного источника данных для смешивания данных в Tableau. Их нельзя использовать в качестве вторичных источников данных.
Я надеюсь, что вы все теперь имеете четкое представление о Смешивание данных в таблице из этого блога. Хотите больше знаний? Не волнуйтесь, это видео поможет вам лучше понять концепцию.