Учебное пособие по большим данным: все, что вам нужно знать о больших данных!



В этом блоге, посвященном учебнику по большим данным, вы найдете полный обзор больших данных, их характеристик, приложений, а также проблем, связанных с большими данными.

Учебник по большим данным

Большие данные, разве вы не слышали этот термин раньше? Я уверен, что да. В последние 4–5 лет все говорят о больших данных. Но знаете ли вы, что такое большие данные, как они влияют на нашу жизнь и почему организации ищут профессионалов с ? В этом учебном пособии по большим данным я дам вам полное представление о больших данных.

Ниже приведены темы, которые я рассмотрю в этом руководстве по большим данным:





  • История больших данных
  • Факторы, влияющие на большие данные
  • Что такое большие данные?
  • Характеристики больших данных
  • Типы больших данных
  • Примеры больших данных
  • Приложения больших данных
  • Проблемы с большими данными

Учебник по большим данным - Edureka

Позвольте мне начать это руководство по большим данным с короткого рассказа.



История больших данных

В древности люди путешествовали из одной деревни в другую на телеге, запряженной лошадьми, но со временем деревни превратились в города, а люди рассредоточились. Также увеличилось расстояние, на которое можно добраться из одного города в другой. Так что передвигаться между городами вместе с багажом стало проблемой. Совершенно неожиданно один умный парень предложил нам больше ухаживать и кормить лошадь, чтобы решить эту проблему. Когда я смотрю на это решение, оно не так уж и плохо, но как вы думаете, может ли лошадь стать слоном? Я так не думаю. Другой умный парень сказал, что вместо одной лошади, тянущей телегу, позвольте нам иметь 4 лошади, чтобы тянуть ту же телегу. Что вы думаете об этом решении? Я считаю это фантастическим решением. Теперь люди могут преодолевать большие расстояния за меньшее время и даже нести больше багажа.

Та же концепция применима к большим данным. Большие данные говорят, что до сегодняшнего дня мы были в порядке с хранением данных на наших серверах, потому что объем данных был довольно ограничен, и количество времени на их обработку также было нормальным. Но сейчас в этом современном технологическом мире объем данных растет слишком быстро, и люди часто полагаются на них. Кроме того, из-за скорости роста данных становится невозможным хранить данные на каком-либо сервере.

В этом блоге, посвященном учебнику по большим данным, давайте рассмотрим источники больших данных, которые традиционные системы не могут хранить и обрабатывать.



Факторы, влияющие на большие данные

Количество данных на планете Земля растет в геометрической прогрессии по многим причинам. Различные источники и наша повседневная деятельность генерируют много данных. С изобретением Интернета весь мир оказался в сети, и все, что мы делаем, оставляет цифровой след. С переходом смарт-объектов в оперативный режим скорость роста объемов данных резко возросла. Основными источниками больших данных являются сайты социальных сетей, сенсорные сети, цифровые изображения / видео, сотовые телефоны, записи транзакций покупок, веб-журналы, медицинские записи, архивы, военное наблюдение, электронная коммерция, комплексные научные исследования и так далее. Вся эта информация составляет около нескольких квинтиллионов байтов данных. К 2020 году объем данных составит около 40 зеттабайт, что эквивалентно добавлению каждой песчинки на планете, умноженной на семьдесят пять.

Что такое большие данные?

Большие данные - это термин, используемый для набора больших и сложных наборов данных, которые сложно хранить и обрабатывать с помощью доступных инструментов управления базами данных или традиционных приложений для обработки данных. Задача включает в себя сбор, обработку, хранение, поиск, совместное использование, передачу, анализ и визуализацию этих данных.

Характеристики больших данных

Пять характеристик, которые определяют большие данные: объем, скорость, разнообразие, достоверность и ценность.

  1. ОБЪЕМ

    Объем относится к «количеству данных», которое растет день ото дня очень быстрыми темпами. Объем данных, генерируемых людьми, машинами и их взаимодействиями в социальных сетях, огромен. Исследователи предсказали, что к 2020 году будет создано 40 зеттабайт (40 000 эксабайт), что в 300 раз больше, чем в 2005 году.

  2. СКОРОСТЬ

    Скорость определяется как скорость, с которой разные источники генерируют данные каждый день. Этот поток данных огромен и непрерывен. Сейчас на мобильных устройствах 1,03 миллиарда активных пользователей в день (Facebook DAU), что на 22% больше, чем за год. Это показывает, насколько быстро растет количество пользователей в социальных сетях и насколько быстро данные генерируются ежедневно. Если вы сможете справиться со скоростью, вы сможете генерировать идеи и принимать решения на основе данных в реальном времени.

  3. РАЗНООБРАЗИЕ

    Поскольку существует множество источников, которые вносят свой вклад в большие данные, типы данных, которые они генерируют, различаются. Он может быть структурированным, полуструктурированным или неструктурированным. Следовательно, существует множество данных, которые генерируются каждый день. Раньше мы получали данные из Excel и баз данных, теперь данные поступают в виде изображений, аудио, видео, данных датчиков и т. Д., Как показано на изображении ниже. Следовательно, такое разнообразие неструктурированных данных создает проблемы при сборе, хранении, интеллектуальном анализе и анализе данных.

  4. ВЕРСИЯ

    Под достоверностью понимаются сомнительные данные или неточность имеющихся данных из-за несогласованности и неполноты данных. На изображении ниже вы можете видеть, что в таблице отсутствуют некоторые значения. Также трудно принять некоторые значения, например - минимальное значение 15000 в 3-й строке, это невозможно. Эта непоследовательность и неполнота и есть достоверность.
    Доступные данные иногда могут быть беспорядочными, и им может быть трудно доверять. При использовании многих форм больших данных качество и точность трудно контролировать, например сообщения в Twitter с хэштегами, аббревиатурами, опечатками и разговорной речью. Объем часто является причиной отсутствия качества и точности данных.

    • Из-за неопределенности данных каждый третий бизнес-руководитель не доверяет информации, которую они используют для принятия решений.
    • В ходе опроса выяснилось, что 27% респондентов не уверены, какая часть их данных неточна.
    • Низкое качество данных обходится экономике США примерно в 3,1 триллиона долларов в год.
  5. ЦЕННОСТЬ

    После обсуждения объема, скорости, разнообразия и достоверности есть еще один V, который следует учитывать при рассмотрении больших данных, то есть ценности. Хорошо иметь доступ к большимданныенопока мы не сможем превратить его в ценность, он бесполезен. Под превращением его в ценность я имею в виду: добавляет ли он преимуществ организациям, которые анализируют большие данные? Достигает ли организация, работающая над большими данными, высокой рентабельности инвестиций (ROI)? Если только это не увеличивает их прибыль, работая с большими данными, это бесполезно..

Просмотрите наше видео о больших данных ниже, чтобы узнать больше о больших данных:

Руководство по большим данным для начинающих | Что такое большие данные | Эдурека

Как уже говорилось в разделе «Разнообразие», существуют разные типы данных, которые генерируются каждый день. Итак, давайте теперь разберемся с типами данных:

Типы больших данных

Большие данные могут быть трех типов:

  • Структурированный
  • Полуструктурированный
  • Неструктурированный

php превратить строку в массив
  1. Структурированный

    Данные, которые можно хранить и обрабатывать в фиксированном формате, называются структурированными данными. Данные, хранящиеся в системе управления реляционными базами данных (СУБД), являются одним из примеров «структурированных» данных. Структурированные данные легко обрабатывать, поскольку они имеют фиксированную схему. Язык структурированных запросов (SQL) часто используется для управления такими данными.

  2. Полуструктурированный

    Полуструктурированные данные - это тип данных, который не имеет формальной структуры модели данных, то есть определения таблицы в реляционной СУБД, но, тем не менее, он имеет некоторые организационные свойства, такие как теги и другие маркеры для разделения семантических элементов, что упрощает анализировать. Файлы XML или документы JSON являются примерами полуструктурированных данных.

  3. Неструктурированный

    Данные, которые имеют неизвестную форму и не могут быть сохранены в РСУБД и не могут быть проанализированы, если они не преобразованы в структурированный формат, называются неструктурированными данными. Текстовые файлы и мультимедийное содержимое, такое как изображения, аудио, видео, являются примером неструктурированных данных. Неструктурированные данные растут быстрее других, эксперты говорят, что 80 процентов данных в организации неструктурированы.

До сих пор я только что рассказал о введении больших данных. Кроме того, в этом руководстве по большим данным рассказывается о примерах, приложениях и проблемах, связанных с большими данными.

Примеры больших данных

Ежедневно мы загружаем миллионы байтов данных. 90% мировых данных было создано за последние два года.

  • Walmart обрабатывает более 1 миллион клиентские операции каждый час.
  • Facebook хранит, получает доступ и анализирует 30+ петабайт пользовательских данных.
  • 230+ миллионов твитов создаются каждый день.
  • Больше, чем 5 миллиардов люди звонят, пишут текстовые сообщения, твиты и просматривают страницы на мобильных телефонах по всему миру.
  • Пользователи YouTube загружают 48 часов нового видео каждую минуту дня.
  • Амазонка обрабатывает 15 миллионов клиент нажимает на поток пользовательских данных в день, чтобы рекомендовать продукты.
  • 294 миллиарда электронные письма отправляются каждый день. Сервисы анализируют эти данные, чтобы найти спам.
  • Современные автомобили имеют близко к 100 датчиков который контролирует уровень топлива, давление в шинах и т. д., каждое транспортное средство генерирует множество данных датчиков.

Приложения больших данных

Мы не можем говорить о данных, не говоря о людях, людях, которые получают выгоду от приложений Big Data. Почти все отрасли сегодня так или иначе используют приложения для больших данных.

  • Умное здравоохранение : Используя петабайты данных пациента, организация может извлекать значимую информацию, а затем создавать приложения, которые могут заранее прогнозировать ухудшение состояния пациента.
  • Телеком : Сфера телекоммуникаций собирает информацию, анализирует ее и предлагает решения различных проблем. Используя приложения для больших данных, телекоммуникационные компании смогли значительно сократить потери пакетов данных, которые происходят при перегрузке сетей, и, таким образом, обеспечить беспрепятственное соединение для своих клиентов.
  • Розничная торговля : У розничной торговли одни из самых низких показателей рентабельности, и она является одним из самых больших бенефициаров больших данных. Прелесть использования больших данных в розничной торговле заключается в понимании поведения потребителей. Система рекомендаций Amazon предлагает предложения, основанные на истории посещенных пользователем страниц.
  • Контроль дорожного движения : Пробки на дорогах - серьезная проблема для многих городов мира. Эффективное использование данных и датчиков станет ключом к лучшему управлению трафиком, поскольку города становятся все более густонаселенными.
  • Производство : Анализ больших данных в обрабатывающей промышленности может уменьшить количество дефектов компонентов, улучшить качество продукции, повысить эффективность и сэкономить время и деньги.
  • Качество поиска : Каждый раз, когда мы извлекаем информацию из Google, мы одновременно генерируем для нее данные. Google хранит эти данные и использует их для улучшения качества поиска.

Кто-то правильно сказал: «Не все в саду розовое!» . До сих пор в этом руководстве по большим данным я только что показал вам радужную картину больших данных. Но если бы было так просто использовать большие данные, разве не думали бы вы, что все организации инвестировали бы в них? Позвольте мне сразу сказать вам, что это не так. При работе с большими данными возникает несколько проблем.

Теперь, когда вы знакомы с большими данными и их различными функциями, следующий раздел этого блога, посвященный учебному пособию по большим данным, прольет некоторый свет на некоторые из основных проблем, с которыми сталкиваются большие данные.

Проблемы с большими данными

Позвольте мне рассказать вам о нескольких проблемах, связанных с большими данными:

  1. Качество данных - Проблема здесь в 4thV то есть достоверность. Данные здесь очень беспорядочные, непоследовательные и неполные. Грязные данные ежегодно обходятся компаниям в США в 600 миллиардов долларов.
  1. Открытие - Анализировать большие данные - все равно что искать иголку в стоге сена. Очень сложно анализировать петабайты данных с использованием чрезвычайно мощных алгоритмов для поиска закономерностей и понимания.
  1. Место хранения - Чем больше данных у организации, тем сложнее могут стать проблемы управления ими. Здесь возникает вопрос: «Где это хранить?». Нам нужна система хранения, которую можно легко масштабировать вверх или вниз по запросу.
  1. Аналитика - В случае с большими данными большую часть времени мы не знаем, с какими данными имеем дело, поэтому анализировать эти данные еще сложнее.
  1. Безопасность - Поскольку объем данных огромен, обеспечение их безопасности - еще одна проблема. Он включает аутентификацию пользователя, ограничение доступа в зависимости от пользователя, запись истории доступа к данным, правильное использование шифрования данных и т. Д.
  1. Отсутствие таланта - В крупных организациях существует множество проектов по работе с большими данными, но сложная команда разработчиков, специалистов по обработке данных и аналитиков, которые также обладают достаточным объемом знаний в предметной области, по-прежнему представляет собой проблему.

Hadoop спешит на помощь

У нас есть спаситель, чтобы справиться с проблемами больших данных - его Hadoop . Hadoop - это среда программирования на основе Java с открытым исходным кодом, которая поддерживает хранение и обработку чрезвычайно больших наборов данных в распределенной вычислительной среде. Это часть проекта Apache, спонсируемого Apache Software Foundation.

Hadoop с его распределенной обработкой обрабатывает большие объемы структурированных и неструктурированных данных более эффективно, чем традиционное корпоративное хранилище данных. Hadoop позволяет запускать приложения в системах с тысячами обычных аппаратных узлов и обрабатывать тысячи терабайт данных. Организации переходят на Hadoop, потому что это программное обеспечение с открытым исходным кодом, которое может работать на стандартном оборудовании (на вашем персональном компьютере).Первоначальная экономия средств впечатляет, поскольку обычное оборудование очень дешево. По мере увеличения объема организационных данных вам необходимо оперативно добавлять все больше и больше стандартного оборудования для его хранения, и, следовательно, Hadoop оказывается экономичным.Кроме того, за Hadoop стоит сильное сообщество Apache, которое продолжает вносить свой вклад в его развитие.

Как и было обещано ранее, в этом блоге по Big Data Tutorial я дал вам максимум информации о больших данных. Это конец учебника по большим данным. Теперь следующий шаг - узнать и изучить Hadoop. У нас есть серия руководств по Hadoop блоги, в которых подробно рассказывается обо всей экосистеме Hadoop.

Всего наилучшего, Happy Hadooping!

Теперь, когда вы поняли, что такое большие данные, ознакомьтесь с от Edureka, надежной компании по онлайн-обучению с сетью из более чем 250 000 довольных учащихся по всему миру. Учебный курс Edureka Big Data по сертификации Hadoop помогает учащимся стать экспертами в области HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume и Sqoop, используя примеры использования в реальном времени в области розничной торговли, социальных сетей, авиации, туризма, финансов.

Есть вопрос к нам? Пожалуйста, отметьте это в разделе комментариев, и мы свяжемся с вами.

Похожие сообщения: