Hive - это система хранилища данных для Hadoop, которая упрощает обобщение данных, специальные запросы и анализ больших наборов данных, хранящихся в файловых системах, совместимых с Hadoop. Hive структурирует данные в хорошо понятные концепции базы данных, такие как таблицы, строки, столбцы и разделы. Он поддерживает примитивные типы, такие как целые числа, числа с плавающей запятой, двойные числа и строки. Hive также поддерживает ассоциативные массивы, списки, структуры и сериализацию, а десериализованный API используется для перемещения данных в таблицы и из них.
Давайте подробно рассмотрим модели данных Hive
Модели данных улья:
Модели данных Hive содержат следующие компоненты:
разница между Java и классом
- Базы данных
- Столы
- Перегородки
- Ведра или кластеры
Перегородки:
Разделение означает разделение таблицы на части общего назначения на основе значения столбца раздела, такого как «данные». Это ускоряет выполнение запросов к срезам данных.
Итак, какова функция раздела? Ключи раздела определяют, как хранятся данные. Здесь каждое уникальное значение ключа раздела определяет раздел таблицы. Для удобства разделы названы в честь дат. Это похоже на «разделение блоков» в HDFS.
как использовать mysql workbench
Ковши:
Сегменты придают дополнительную структуру данным, которые могут использоваться для эффективных запросов. Соединение двух таблиц, которые разделены на одни и те же столбцы, включая столбец соединения, может быть реализовано как соединение на стороне карты. Группирование по используемому идентификатору означает, что мы можем быстро оценить пользовательский запрос, запустив его на случайной выборке из общего набора пользователей.
Глубокая копия Java против мелкой копии
Есть вопрос к нам? Пожалуйста, укажите их в комментариях, и мы свяжемся с вами.
Похожие сообщения: