С тех пор, как Data Science заняла первое место как самая многообещающая работа того времени, мы все пытаемся присоединиться к гонке . Это сообщение в блоге о SQL для науки о данных поможет вам понять, как можно использовать SQL для хранения, доступа и извлечения данных для выполнения анализа данных.
Вот список тем, которые будут освещены в этом блоге:
Почему SQL нужен для науки о данных?
Знаете ли вы, что мы генерируем более 2,5 квинтиллионов байтов данных каждый день? Такой темп генерации данных является причиной популярности таких высокотехнологичных технологий, как Data Science , , и так далее.
Получение полезной информации из данных - это то, что называется наукой о данных. Наука о данных включает в себя извлечение, обработку и анализ большого количества данных. В настоящее время нам нужны которые можно использовать для хранения и управления этим огромным объемом данных.
Это где На помощь приходит SQL.
преобразование xml в информатику с примером
SQL можно использовать для хранения, доступа и извлечения огромных объемов данных, чтобы обеспечить более плавное выполнение всего процесса Data Science.
Что такое SQL?
SQL что расшифровывается как Structured Query Language, язык запросов, предназначенный для управления реляционными базами данных.
Но что такое реляционная база данных?
Реляционная база данных - это группа четко определенных таблиц, из которых можно получить доступ к данным, отредактировать, обновить и так далее, без необходимости изменять таблицы базы данных. SQL - это стандарт (API) для реляционных баз данных.
Возвращаясь к SQL, можно сказать, что программирование SQL можно использовать для выполнения нескольких действий с данными, таких как запрос, вставка, обновление, удаление записей базы данных. Примеры реляционных баз данных, использующих SQL, включают MySQL Database, Oracle и т. Д.
Чтобы узнать больше о SQL, вы можете пройти через следующие блоги:
- Понимание типов данных SQL - все, что вам нужно знать о типах данных SQL
- СОЗДАТЬ ТАБЛИЦУ в SQL - все, что вам нужно знать о создании таблиц в SQL
Прежде чем мы начнем с демонстрации SQL, давайте познакомимся с основными командами SQL.
Основы SQL
SQL предоставляет набор простых команд для изменения таблиц данных, давайте рассмотрим некоторые из основных команд SQL:
- СОЗДАТЬ БАЗУ ДАННЫХ - создает новую базу данных
- СОЗДАТЬ ТАБЛИЦУ - создает новую таблицу
- ВСТАВИТЬ - вставляет новые данные в базу данных
- ВЫБРАТЬ - извлекает данные из базы данных
- ОБНОВИТЬ - обновляет данные в базе данных
- УДАЛИТЬ - удаляет данные из базы данных
- ИЗМЕНИТЬ БАЗУ ДАННЫХ - изменяет базу данных
- ИЗМЕНИТЬ ТАБЛИЦУ - изменяет таблицу
- ТАБЛИЦА ПАДЕНИЯ - удаляет таблицу
- СОЗДАТЬ ИНДЕКС - создает индекс для поиска элемента
- ПАДЕНИЕ ИНДЕКСА - удаляет индекс
Чтобы лучше понять SQL, давайте установим MySQL и посмотрим, как вы можете играть с данными.
Установка MySQL
Установка MySQL - простая задача. Вот пошаговое руководство это поможет вам установить MySQL в вашей системе.
Как только вы закончите установку MySQL, следуйте приведенному ниже разделу, чтобы увидеть простую демонстрацию, которая покажет вам, как можно вставлять, манипулировать и изменять данные.
SQL для науки о данных - демонстрация MySQL
В этой демонстрации мы увидим, как создавать базы данных и обрабатывать их. Это демонстрация начального уровня, которая поможет вам начать анализ данных на SQL.
Итак, приступим!
Шаг 1. Создайте базу данных SQL
База данных SQL - это хранилище, в котором данные могут храниться в структурированном формате. Теперь давайте создадим базу данных, используя MySQL :
СОЗДАТЬ БАЗУ ДАННЫХ edureka ИСПОЛЬЗОВАТЬ edureka
В приведенном выше коде есть две команды SQL:
Заметка : Команды SQL определяются заглавными буквами, а точка с запятой используется для завершения команды SQL.
CREATE DATABASE: эта команда создает базу данных под названием «edureka».
ИСПОЛЬЗОВАНИЕ: Эта команда используется для активации базы данных. Здесь мы активируем базу данных «edureka».
Шаг 2. Создайте таблицу с необходимыми функциями данных
Создать таблицу так же просто, как создать базу данных. Вам просто нужно определить переменные или функции таблицы с соответствующими типами данных. Посмотрим, как это можно сделать:
СОЗДАТЬ ТАБЛИЧНЫЕ игрушки (TID INTEGER NOT NULL PRIMARY KEY AUTO_INCREMENT, Item_name TEXT, Price INTEGER, Quantity INTEGER)
В приведенном выше фрагменте кода происходит следующее:
- Используйте команду «СОЗДАТЬ ТАБЛИЦУ», чтобы создать таблицу с названием игрушки.
- Таблица игрушек содержит 4 характеристики, а именно: TID (идентификатор транзакции), Item_name, Price и Quantity.
- Каждая переменная определяется с соответствующими типами данных.
- Переменная TID объявлена как первичный ключ. Первичный ключ в основном обозначает переменную, которая может хранить уникальное значение.
Вы можете дополнительно проверить детали определенной таблицы, используя следующую команду:
ОПИСАТЬ игрушки
Шаг 3: Вставка данных в таблицу
Теперь, когда мы создали таблицу, давайте заполним ее некоторыми значениями. Ранее в этом блоге я упоминал, как вы можете добавлять данные в таблицу, используя всего одну команду, то есть INSERT INTO.
виртуальная функция c ++ = 0
Посмотрим, как это делается:
ВСТАВИТЬ ЗНАЧЕНИЯ игрушек (NULL, 'Поезд', 550, 88) ВСТАВИТЬ ЗНАЧЕНИЯ игрушек (NULL, 'Hotwheels_car', 350, 80) ВСТАВИТЬ ЗНАЧЕНИЯ игрушек (NULL, 'Magic_Pencil', 70, 100) ВСТАВИТЬ игрушки ЗНАЧЕНИЯ ( NULL, 'Dog_house', 120, 54) INSERT INTO toys VALUES (NULL, 'Skateboard', 700, 42) INSERT INTO toys VALUES (NULL, 'GI Joe', 300, 120)
В приведенном выше фрагменте кода мы просто вставили 6 наблюдений в нашу таблицу «игрушки» с помощью команды INSERT INTO. Для каждого наблюдения в скобках я указал значение каждой переменной или функции, которые были определены при создании таблицы.
Переменная TID установлена в NULL, поскольку она автоматически увеличивается с 1.
Теперь давайте отобразим все данные, имеющиеся в нашей таблице. Это можно сделать с помощью следующей команды:
ВЫБРАТЬ * ИЗ игрушек
Шаг 4. Измените записи данных
Допустим, вы решили поднять цену на G.I. Джо, так как он привлекает много клиентов. Как бы вы обновили цену переменной в базе данных?
Это просто, просто используйте следующую команду:
ОБНОВЛЕНИЕ игрушки НАБОР Цена = 350 ГДЕ TID = 6
Команда UPDATE позволяет изменять любые значения / переменные, хранящиеся в таблице. Параметр SET позволяет вам выбрать конкретную функцию, а параметр WHERE используется для идентификации переменной / значения, которое вы хотите изменить. В приведенной выше команде я обновил стоимость записи данных, TID которой равен 6 (G.I. Joe).
Теперь посмотрим на обновленную таблицу:
ВЫБРАТЬ * ИЗ игрушек
Вы также можете изменить то, что вы хотите отображать, просто ссылаясь на столбцы, которые вы хотите просмотреть. Например, приведенная ниже команда отобразит только название игрушки и соответствующую цену:
ВЫБЕРИТЕ Название предмета, Цена ИЗ игрушек
Шаг 5. Получение данных
Итак, после вставки и изменения данных, наконец, пришло время извлечь и извлечь данные в соответствии с бизнес-требованиями. Здесь данные могут быть получены для дальнейшего анализа и моделирования данных.
Обратите внимание, что это простой пример для начала работы с SQL, однако в реальных сценариях данные намного сложнее и имеют большой размер. Несмотря на это, команды SQL остаются прежними, и именно это делает SQL таким простым и понятным. Он может обрабатывать сложные наборы данных с помощью набора простых команд SQL.
Теперь давайте извлечем данные с парой изменений. Обратитесь к приведенному ниже коду и попытайтесь понять, что он делает, не глядя на вывод:
как использовать Microsoft Visual Studio
ВЫБРАТЬ * ИЗ игрушек LIMIT 2
Ты угадал! Он отображает первые два наблюдения, представленные в моей таблице.
Попробуем что-нибудь поинтереснее.
ВЫБРАТЬ * ИЗ игрушек ЗАКАЗАТЬ ПО ЦЕНЕ ASC
Как показано на рисунке, значения расположены в порядке возрастания переменной цены. Если вы хотите найти три наиболее часто покупаемых предмета, что бы вы сделали?
Это действительно очень просто!
ВЫБРАТЬ * ИЗ игрушек ЗАКАЗАТЬ ПО КОЛИЧЕСТВУ DESC LIMIT 3
Давай попробуем еще один.
ВЫБРАТЬ * ИЗ игрушек ГДЕ Цена> 400 ЗАКАЗАТЬ ПО ЦЕНЕ ASC
Этот запрос извлекает сведения об игрушках, цена которых превышает 400, и упорядочивает выходные данные в порядке возрастания цены.
Вот как можно обрабатывать данные с помощью SQL. Теперь, когда вы знаете основы SQL для науки о данных, я уверен, вам интересно узнать больше. Вот пара блогов, с которых можно начать:
- Что такое наука о данных? Руководство по науке о данных для новичков
- Учебник по MySQL - Руководство для новичков по изучению MySQL
Если вы хотите записаться на полный курс по искусственному интеллекту и машинному обучению, в Edureka есть специально подобранный это поможет вам овладеть такими методами, как контролируемое обучение, неконтролируемое обучение и обработка естественного языка. Он включает в себя обучение новейшим достижениям и техническим подходам в области искусственного интеллекта и машинного обучения, таких как глубокое обучение, графические модели и обучение с подкреплением.