Что такое наука о данных? Руководство по науке о данных для новичков



Наука о данных - это будущее искусственного интеллекта. Узнайте, что такое Data Science, как оно может повысить ценность вашего бизнеса и его различных этапов жизненного цикла.

Когда мир вступил в эру больших данных, потребность в их хранении также выросла. До 2010 года это было главной проблемой и заботой предприятий отрасли. Основное внимание уделялось созданию инфраструктуры и решений для хранения данных. Теперь, когда Hadoop и другие фреймворки успешно решили проблему хранения, акцент сместился на обработку этих данных. Секретный соус здесь - Data Science. Все идеи, которые вы видите в голливудских научно-фантастических фильмах, могут действительно воплотиться в жизнь с помощью Data Science. Наука о данных - это будущее искусственного интеллекта. Поэтому очень важно понимать, что такое Data Science и как это может повысить ценность вашего бизнеса.

Вышло руководство Edureka 2019 Tech Career Guide! Самые популярные должности, точные схемы обучения, обзор отрасли и многое другое в руководстве. Скачать сейчас же.

В этом блоге я затрону следующие темы.





К концу этого блога вы сможете понять, что такое наука о данных и ее роль в извлечении значимой информации из сложных и больших наборов данных, окружающих нас.Чтобы получить более глубокие знания о Data Science, вы можете зарегистрироваться в прямом эфире от Edureka с поддержкой 24/7 и пожизненным доступом.

Что такое Data Science?

Наука о данных - это сочетание различных инструментов, алгоритмов и принципов машинного обучения с целью обнаружения скрытых закономерностей из необработанных данных. Но чем это отличается от того, что статистики делали в течение многих лет?



Ответ заключается в разнице между объяснением и предсказанием.

Аналитик данных против науки о данных - Edureka

Как видно из изображения выше, аналитик данныхобычно объясняет, что происходит, путем обработки истории данных. С другой стороны, Data Scientist не только выполняет исследовательский анализ, чтобы извлечь из него выводы, но также использует различные передовые алгоритмы машинного обучения для определения наступления определенного события в будущем. Специалист по анализу данных будет смотреть на данные под разными углами, иногда с ранее неизвестных.



Таким образом, Data Science в основном используется для принятия решений и прогнозов с использованием прогнозной причинно-следственной аналитики, предписывающей аналитики (прогнозирующей плюс наука о принятии решений) и машинного обучения.

  • Прогнозная причинно-следственная аналитика - Если вам нужна модель, которая может предсказывать возможности определенного события в будущем, вам необходимо применить прогнозирующую причинно-следственную аналитику. Скажем, если вы предоставляете деньги в кредит, то вероятность того, что клиенты сделают будущие платежи по кредиту вовремя, вызывает у вас беспокойство. Здесь вы можете построить модель, которая может выполнять прогнозный анализ истории платежей клиента, чтобы предсказать, будут ли будущие платежи своевременными или нет.
  • Предписательная аналитика: Если вам нужна модель, обладающая интеллектом для принятия собственных решений и способной изменять ее с помощью динамических параметров, вам, безусловно, потребуется предписывающая аналитика. Это относительно новое направление - предоставление советов. Другими словами, он не только предсказывает, но и предлагает ряд предписанных действий и связанных с ними результатов.
    Лучшим примером этого является беспилотный автомобиль Google, о котором я тоже говорил ранее. Данные, собранные с помощью транспортных средств, можно использовать для обучения беспилотных автомобилей. Вы можете запускать алгоритмы на этих данных, чтобы внести в них интеллект. Это позволит вашей машине принимать решения, например, когда повернуть, какой путь выбрать.,когда замедлить или ускориться.
  • Машинное обучение для прогнозирования - Если у вас есть данные о транзакциях финансовой компании и вам необходимо построить модель для определения будущей тенденции, тогда лучше всего подойдут алгоритмы машинного обучения. Это подпадает под парадигму обучения с учителем. Это называется контролируемым, потому что у вас уже есть данные, на основе которых вы можете обучать свои машины. Например, модель обнаружения мошенничества может быть обучена с использованием исторической записи мошеннических покупок.
  • Машинное обучение для обнаружения шаблонов - Если у вас нет параметров, на основе которых вы можете делать прогнозы, вам необходимо выяснить скрытые закономерности в наборе данных, чтобы иметь возможность делать значимые прогнозы. Это не что иное, как модель без учителя, поскольку у вас нет предопределенных ярлыков для группировки. Наиболее распространенный алгоритм, используемый для обнаружения шаблонов, - это кластеризация.
    Предположим, вы работаете в телефонной компании и вам нужно создать сеть, поставив вышки в регионе. Затем вы можете использовать метод кластеризации, чтобы найти те местоположения вышек, которые обеспечат получение всеми пользователями сигнала оптимальной мощности.

Давайте посмотрим, как соотношение описанных выше подходов различается как для анализа данных, так и для науки о данных. Как вы можете видеть на изображении ниже, анализ данныхв определенной степени включает описательную аналитику и прогнозирование. С другой стороны, наука о данных больше касается прогнозирующей причинно-следственной аналитики и машинного обучения.

Data Science Analytics - Edureka

Теперь, когда вы знаете, что такое Data Science, давайте выясним, почему это вообще было необходимо.

Почему наука о данных?

  • Традиционно данные, которые у нас были, были в основном структурированными и небольшими по размеру, которые можно было проанализировать с помощью простых инструментов бизнес-аналитики.В отличие от данных втрадиционные системы, которые в основном были структурированы, сегодня большая часть данных неструктурирована или частично структурирована. Давайте посмотрим на тенденции данных на приведенном ниже изображении, которое показывает, что к 2020 году более 80% данных будут неструктурированными.
    Поток неструктурированных данных - Edureka
    Эти данные генерируются из различных источников, таких как финансовые журналы, текстовые файлы, мультимедийные формы, датчики и инструменты. Простые инструменты бизнес-аналитики не способны обрабатывать такой огромный объем и разнообразие данных. Вот почему нам нужны более сложные и продвинутые аналитические инструменты и алгоритмы для обработки, анализа и извлечения из них значимой информации.

Это не единственная причина, по которой Data Science стала такой популярной. Давайте копнем глубже и посмотрим, как Data Science используется в различных областях.

  • Как насчет того, чтобы вы могли понять точные требования своих клиентов на основе существующих данных, таких как история просмотров клиента, история покупок, возраст и доход. Несомненно, все эти данные у вас были и раньше, но теперь, обладая огромным объемом и разнообразием данных, вы можете более эффективно обучать модели и более точно рекомендовать продукт своим клиентам. Разве это не было бы замечательно, ведь это принесет больше бизнеса вашей организации?
  • Давайте рассмотрим другой сценарий, чтобы понять роль науки о данных в принятие решений.Как насчет того, чтобы у вашей машины хватило ума отвезти вас домой? Беспилотные автомобили собирают данные в реальном времени с датчиков, включая радары, камеры и лазеры, для создания карты своего окружения. На основе этих данных он принимает решения, например, когда ускоряться, когда снижать скорость, когда обгонять, где делать поворот, - с использованием передовых алгоритмов машинного обучения.
  • Давайте посмотрим, как Data Science можно использовать в прогнозной аналитике. Возьмем, к примеру, прогноз погоды. Данные с кораблей, самолетов, радаров, спутников можно собирать и анализировать для построения моделей. Эти модели не только предсказывают погоду, но и помогают предсказывать возникновение любых стихийных бедствий. Это поможет вам заранее принять соответствующие меры и спасти множество драгоценных жизней.

Давайте взглянем на инфографику ниже, чтобы увидеть все области, в которых Data Science производит впечатление.

Примеры использования Data Science - Edureka

Кто такой специалист по данным?

На сайте Data Scientists доступно несколько определений. Проще говоря, Data Scientist - это тот, кто практикует искусство Data Science.Термин «специалист по данным» былпридумано после рассмотрения того факта, что специалист по анализу данных получает много информации из научных областей и приложений, будь то статистика или математика.

Чем занимается специалист по данным?

Специалисты по обработке данных - это те, кто решает сложные проблемы с данными, имея большой опыт в определенных научных дисциплинах. Они работают с несколькими элементами, связанными с математикой, статистикой, информатикой и т.д. (хотя они могут не быть экспертами во всех этих областях).Они широко используют новейшие технологии для поиска решений и выводов, которые имеют решающее значение для роста и развития организации. Специалисты по обработке данных представляют данные в гораздо более удобной форме по сравнению с необработанными данными, доступными им как в структурированных, так и в неструктурированных формах.

Чтобы узнать больше о Data Scientist, вы можете обратиться к этой статье на

Двигаясь дальше, давайте теперь обсудим BI. Я уверен, что вы тоже слышали о Business Intelligence (BI). Часто Data Science путают с BI. Я изложу кратко и ясноконтрасты между ними, которые помогут вам лучше понять. Давайте посмотрим.

Бизнес-аналитика (BI) против науки о данных

  • Бизнес-аналитика (BI) в основном анализирует предыдущие данные, чтобы найти ретроспективный анализ и понимание бизнес-тенденций. Здесь BI позволяет вам брать данные из внешних и внутренних источников, готовить их, запускать запросы и создавать информационные панели, чтобы отвечать на такие вопросы, какквартальный анализ доходовили бизнес-проблемы. BI может оценить влияние определенных событий в ближайшем будущем.
  • Наука о данных - это более дальновидный подход, исследовательский подход с упором на анализ прошлых или текущих данных и прогнозирование будущих результатов с целью принятия обоснованных решений. Он отвечает на открытые вопросы о том, «что» и «как» происходят.

Давайте посмотрим на некоторые контрастные черты.

особенности Бизнес-аналитика (BI) Data Science
Источники данныхСтруктурированный
(Обычно SQL, часто хранилище данных)
И структурированные, и неструктурированные

(журналы, облачные данные, SQL, NoSQL, текст)

ПодходСтатистика и визуализацияСтатистика, машинное обучение, анализ графов, нейролингвистическое программирование (НЛП)
ФокусПрошлое и настоящееНастоящее и будущее
инструментыПентахо, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Это все о том, что такое Data Science, теперь давайте разберемся с жизненным циклом Data Science.

Распространенная ошибка, которую допускают в проектах Data Science, - это поспешный сбор и анализ данных без понимания требований или даже правильной постановки бизнес-проблемы. Поэтому для вас очень важно соблюдать все этапы жизненного цикла Data Science, чтобы обеспечить бесперебойную работу проекта.

Жизненный цикл науки о данных

Вот краткий обзор основных этапов жизненного цикла Data Science:

Жизненный цикл науки о данных - Edureka


Открытие науки о данных - EdurekaЭтап 1 - Открытие:
Прежде чем приступить к проекту, важно понять различные спецификации, требования, приоритеты и требуемый бюджет. Вы должны уметь задавать правильные вопросы.Здесь вы оцениваете, есть ли у вас необходимые ресурсы с точки зрения людей, технологий, времени и данных для поддержки проекта.На этом этапе вам также необходимо сформулировать бизнес-проблему и сформулировать начальные гипотезы (IH) для проверки.

Подготовка данных Data Science - Edureka

Этап 2 - Подготовка данных: На этом этапе вам потребуется аналитическая песочница, в которой вы можете выполнять аналитику на протяжении всего проекта. Перед моделированием вам необходимо изучить, предварительно обработать и обработать данные. Далее вы выполните ETLT (извлечение, преобразование, загрузку и преобразование), чтобы получить данные в песочнице. Давайте посмотрим на последовательность статистического анализа ниже.

Жизненный цикл науки о данных
Вы можете использовать R для очистки, преобразования и визуализации данных. Это поможет вам обнаружить выбросы и установить связь между переменными.После того, как вы очистили и подготовили данные, пришло время исследоватьаналитикав теме. Посмотрим, как этого добиться.

Этап 3 - Планирование модели: Планирование моделей Data Science - Edureka Здесь вы определите методы и приемы для установления взаимосвязей между переменными.Эти отношения создадут основу для алгоритмов, которые вы реализуете на следующем этапе.Вы будете применять исследовательскую аналитику данных (EDA), используя различные статистические формулы и инструменты визуализации.

Давайте посмотрим на различные инструменты планирования модели.

Инструменты планирования моделей в Data Science - Edureka

  1. р имеет полный набор возможностей моделирования и обеспечивает хорошую среду для построения интерпретируемых моделей.
  2. Службы анализа SQL может выполнять аналитику в базе данных, используя общие функции интеллектуального анализа данных и базовые модели прогнозирования.
  3. SAS / ДОСТУП может использоваться для доступа к данным из Hadoop и используется для создания повторяемых и многократно используемых блок-схем моделей.

Хотя на рынке присутствует множество инструментов, R - наиболее часто используемый инструмент.

Теперь, когда вы получили представление о природе ваших данных и решили, какие алгоритмы будут использоваться. На следующем этапе выприменятьалгоритм и построить модель.

как реализовать хэш-карту в Java

Построение модели Data Science - EdurekaЭтап 4 - Построение модели: На этом этапе вы разработаете наборы данных для обучения и тестирования. Здесь yВам нужно подумать, хватит ли ваших существующих инструментов для запуска моделей или потребуется более надежная среда (например, быстрая и параллельная обработка). Вы проанализируете различные методы обучения, такие как классификация, ассоциация и кластеризация, для построения модели.

Вы можете построить модель с помощью следующих инструментов.

Инструменты построения моделей в Data Science

Этап 5 - Ввод в эксплуатацию: Реализация науки о данных - Edureka На этом этапе вы предоставляете заключительные отчеты, брифинги, кодекс и техническую документацию.Кроме того, иногда пилотный проект также реализуется в производственной среде в реальном времени. Это даст вам четкое представление о производительности и других связанных ограничениях в небольшом масштабе до полного развертывания.


Коммуникация в науке о данных - EdurekaЭтап 6 - Сообщите о результатах:
Теперь важно оценить, смогли ли вы достичь своей цели, которую планировали на первом этапе. Итак, на последнем этапе вы определяете все ключевые выводы, доводите до сведения заинтересованных сторон и определяете,проекта являются успешными или неудачными на основании критериев, разработанных на Этапе 1.

Теперь я возьму пример из практики, чтобы объяснить вам различные этапы, описанные выше.

Пример из практики: Профилактика диабета

Что, если бы мы могли предсказать возникновение диабета и заранее принять соответствующие меры для его предотвращения?
В этом случае мы будем прогнозировать возникновение диабета, используя весь жизненный цикл, который мы обсуждали ранее. Давайте пройдемся по различным этапам.

Шаг 1:

  • Первый,мы соберем данные на основе истории болезнипациента, как описано в Фазе 1. Вы можете обратиться к образцу данных ниже.

Примеры данных Data Science - Edureka

  • Как видите, у нас есть различные атрибуты, упомянутые ниже.

Атрибуты:

  1. npreg - количество беременностей
  2. глюкоза - концентрация глюкозы в плазме
  3. bp - артериальное давление
  4. кожа - Толщина кожной складки трицепса
  5. bmi - Индекс массы тела
  6. ped - Диабетическая родословная функция
  7. age - Возраст
  8. доход - Доход

Шаг 2:

  • Теперь, когда у нас есть данные, нам нужно очистить и подготовить данные для анализа данных.
  • В этих данных много несоответствий, таких как отсутствующие значения, пустые столбцы, резкие значения и неправильный формат данных, которые необходимо очистить.
  • Здесь мы организовали данные в одну таблицу с разными атрибутами, чтобы они выглядели более структурированными.
  • Давайте посмотрим на образцы данных ниже.

Непоследовательные данные Data Science - Edureka

В этих данных много несоответствий.

  1. В столбце НПРЕГ , «Один» записываетсясловатогда как он должен быть в числовой форме, например 1.
  2. В столбце бп одно из значений 6600, что невозможно (по крайней мере, для человека) поскольку BP не может подняться до такого огромного значения.
  3. Как видите, Доход столбец пуст и не имеет смысла для прогнозирования диабета. Следовательно, иметь его здесь излишне, и его следует удалить из таблицы.
  • Итак, мы очистим и предварительно обработаем эти данные, удалив выбросы, заполнив нулевые значения и нормализуя тип данных. Если вы помните, это наша вторая фаза - предварительная обработка данных.
  • Наконец, мы получаем чистые данные, как показано ниже, которые можно использовать для анализа.

Согласованные данные Data Science - Edureka

Шаг 3:

Теперь давайте проведем некоторый анализ, о котором говорилось ранее в Этапе 3.

  • Сначала мы загрузим данные в аналитическую песочницу и применим к ним различные статистические функции. Например, у R есть такие функции, как описывает что дает нам количество пропущенных значений и уникальных значений. Мы также можем использовать итоговую функцию, которая предоставит нам статистическую информацию, такую ​​как среднее, медианное, диапазон, минимальное и максимальное значения.
  • Затем мы используем методы визуализации, такие как гистограммы, линейные графики, ящичные диаграммы, чтобы получить четкое представление о распределении данных.

Визуализация Data Science - Edureka

Шаг 4:

Теперь, основываясь на выводах, полученных на предыдущем шаге, лучше всего подходит для такого рода проблем дерево решений. Посмотрим как?

  • Поскольку у нас уже есть основные атрибуты для анализа, такие как НПРЕГ, БМИ и т.д., поэтому мы будем использоватьметод обучения с учителем для построениямодель здесь.
  • Кроме того, мы особенно использовали дерево решений, потому что оно принимает во внимание все атрибуты за один раз, например, те, которые имеютлинейные отношения, а также те, которые имеют нелинейные отношения. В нашем случае мы имеем линейную зависимость между НПРЕГ и возраст, тогда как нелинейная связь между НПРЕГ и пед .
  • Модели дерева решений также очень надежны, поскольку мы можем использовать различные комбинации атрибутов для создания различных деревьев, а затем, наконец, реализовать одно с максимальной эффективностью.

Давайте посмотрим на наше дерево решений.

Набор данных дерева проектирования

что такое переменная экземпляра

Здесь наиболее важным параметром является уровень глюкозы, поэтому это наш корневой узел. Теперь текущий узел и его значение определяют следующий важный параметр, который необходимо принять. Это продолжается до тех пор, пока мы не получим результат в виде позиция или негр . Pos означает, что склонность к диабету положительная, а отрицательная означает, что склонность к диабету отрицательная.

Если вы хотите узнать больше о реализации дерева решений, обратитесь к этому блогу.

Шаг 5:

На этом этапе мы запустим небольшой пилотный проект, чтобы проверить, соответствуют ли наши результаты. Мы также будем искать ограничения производительности, если таковые имеются. Если результаты неточны, то нам нужно перепланировать и перестроить модель.

Шаг 6:

После успешного выполнения проекта мы поделимся результатами для полного развертывания.

Быть специалистом по данным легче сказать, чем сделать. Итак, давайте посмотрим, что вам нужно, чтобы стать специалистом по данным.Специалисту по данным в основном требуются навыкииз трех основных областей, как показано ниже.

Навыки Data Science - Edureka

Как вы можете видеть на изображении выше, вам необходимо приобрести различные навыки и навыки общения. Тебе нужно уметь статистика и математика для анализа и визуализации данных. Разумеется, Машинное обучение составляет основу науки о данных и требует от вас хороших навыков. Кроме того, вам необходимо хорошо понимать домен вы работаете над четким пониманием бизнес-проблем. Ваша задача на этом не заканчивается. Вы должны уметь реализовывать различные алгоритмы, требующие хорошего кодирование навыки. Наконец, как только вы приняли определенные ключевые решения, вам важно довести их до сведения заинтересованных сторон. Очень хорошо общение определенно добавит вашим навыкам шоколадных очков.

Я настоятельно рекомендую вам посмотреть этот видеоурок по Data Science, в котором объясняется, что такое Data Science, и все, что мы обсуждали в блоге. Давай, наслаждайся видео и расскажи мне, что ты думаешь.

Что такое наука о данных? Курс Data Science - Учебное пособие для начинающих | Эдурека

В этом видео-курсе Edureka Data Science вы познакомитесь с потребностями науки о данных, что такое наука о данных, сценариями использования науки о данных для бизнеса, бизнес-аналитикой и наукой о данных, инструментами анализа данных, жизненным циклом науки о данных, а также демонстрацией.

В конце концов, будет правильно сказать, что будущее принадлежит Data Scientists. Прогнозируется, что к концу 2018 года потребуется около миллиона специалистов по анализу данных. Все больше и больше данных предоставят возможности для принятия ключевых бизнес-решений. Вскоре это изменит наш взгляд на мир, заваленный данными вокруг нас. Поэтому специалист по данным должен быть высококвалифицированным и мотивированным для решения самых сложных проблем.

Надеюсь, вам понравилось читать мой блог и вы поняли, что такое Data Science.Ознакомьтесь с нашими здесь, это сопровождается живым обучением под руководством инструктора и опытом реальных проектов.