Важность науки о данных с Cassandra



Cassandra - это база данных с открытым исходным кодом для обработки больших объемов данных на многих серверах, поэтому спрос на специалистов по данным, обладающих знаниями о кассандре, высок.

'

Быстрое распространение цифровых данных с помощью компьютеров, мобильных устройств, видео, социальных сетей, цифровых датчиков и т. Д. В сочетании с крупными достижениями в области более дешевой вычислительной мощности, приложений баз данных с открытым исходным кодом и более широкой полосы пропускания вызвало огромный интерес во всем деловом мире к этой технологии. развивающаяся область науки о больших данных и аналитика.





Большие данные в больших неструктурированных объемах слишком велики, чтобы ими можно было управлять и анализировать традиционными методами. Огромный объем и скорость сегодняшних данных делают сбор, фильтрацию, хранение и анализ реальной проблемой. Для решения этой проблемы регулярно разрабатываются новые продукты, которые требуют новых навыков и опыта. Растет потребность в людях, которые могут интегрировать новую инфраструктуру, платформы и процессы в организацию, а также в тех, кто может создавать новые аналитические данные и алгоритмы, способные создавать огромные интеллектуальные возможности, имеющие большую ценность для бизнеса. Для получения дополнительной информации прочитайте наш блог на

Актуальность науки о данных в различных отраслях:

Наука о данных и аналитика применяется во всех отраслях:



  • электронная торговля - Механизмы персонализации и рекомендаций, которые увеличивают продажи.
  • Реклама - Точная доставка рекламы потребителям в режиме реального времени.
  • СМИ и развлечения - Разработка индивидуализированного контента, обеспечивающего максимальное вовлечение пользователей.
  • Социальные сети - Повышенная «липкость» сайта, рост числа пользователей, способность отслеживать стремительные тенденции на основе настроений потребителей.
  • Финансовые услуги –Оптимизированная практика кредитования, минимизирующая риски и мошенничество.
  • Фарма / Биоинформатика - Более совершенное открытие лекарств, более эффективное лечение угрожающих заболеваний, усовершенствования генной инженерии.
  • Здравоохранение - Лучшая оценка медицинских пациентов с точки зрения рисков для здоровья, а также прогнозирование и ранняя профилактика заболеваний.
  • Мощность энергии - Интеллектуальная сеть, эффективность использования, экономия энергии и сокращение времени простоя.
  • Информационной безопасности - Значительно улучшено обнаружение краж и мониторинг ценной информации и активов компании.

Ключевые навыки профессионалов в области науки о данных:

Область науки о данных требует профессионалов, которые:

  • Понимает аналитику данных и науку принятия решений
  • Хорошо разбираются в IT
  • Иметь сильную деловую хватку
  • Обладают способностью эффективно общаться с лицами, принимающими решения

Читать больше: Основные навыки, необходимые для работы в области Data Scientist.

Общие технологии, связанные с практикой Data Science:

Технологии, связанные с наукой о данных



  • Базы данных

Oracle, SQL Server, Терадата

Кассандра, Hadoop, MapReduce, HBase

Астра, Greenplum, Netezza

  • Языки

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Улей, Свинья, Люцен, Маут, Соль

  • Статистика и прогнозирование

Ангосс, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Визуализация данных

QlikView, Spotfire, Tableau, yWorks, R

  • Бизнес-аналитика и отчетность

BusinessObjects, Cognos, MicroStrategy

Что такое Кассандра?

  • Apache Cassandra - это система управления распределенными базами данных с открытым исходным кодом, предназначенная для обработки больших объемов данных на многих обычных серверах.
  • Cassandra обеспечивает высокую доступность без единой точки отказа.
  • Cassandra предлагает надежную поддержку кластеров, охватывающих несколько центров обработки данных, с асинхронной репликацией без ведущего, позволяющей выполнять операции с низкой задержкой для всех клиентов.

Для получения дополнительной информации прочитайте нашу запись в блоге на .

Как Data Science использует Cassandra?

Cassandra - это распределенная база данных для сервисов с низкой задержкой и высокой пропускной способностью, которая обрабатывает рабочие нагрузки в реальном времени, состоящие из сотен обновлений в секунду и десятков тысяч операций чтения в секунду.

Кассандра Пример использования - ЗА:

PROS - это компания, занимающаяся разработкой программного обеспечения для больших данных и использующая предписывающую аналитику в своем программном обеспечении, которая помогает клиентам анализировать свои данные и получать информацию и рекомендации по оптимизации цен, продаж и управления доходами.

У них есть служба в реальном времени, которая вычисляет доступность авиакомпаний, динамически принимая во внимание данные контроля доходов и уровни запасов, которые могут меняться сотни раз в секунду.

Эта служба запрашивается несколько тысяч раз в секунду, что приводит к десяткам тысяч поисков данных. Уровень внутреннего хранилища для этой службы - Cassandra.

Для своего решения в реальном времени PROS осознала необходимость:

  • Распределенный кеш с высокой доступностью.
  • Легко масштабируется.
  • С архитектурой без хозяина.
  • С репликацией данных почти в реальном времени даже между центрами обработки данных.
  • Это может обрабатывать чтение и запись в реальном времени.

PROS сравнил Cassandra с Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort и Redis. Apache Cassandra довольно легко возглавил список.

ПРОФИ и Кассандра

  • PROS использует Cassandra в качестве распределенной базы данных для сервисов с низкой задержкой и высокой пропускной способностью, которые обрабатывают рабочие нагрузки в реальном времени, состоящие из сотен обновлений в секунду и десятков тысяч операций чтения в секунду.
  • Например, у них есть служба в реальном времени, которая динамически вычисляет доступность авиакомпаний с учетом данных контроля доходов и уровней запасов, которые могут меняться сотни раз в секунду. Эта служба запрашивается несколько тысяч раз в секунду, что приводит к десяткам тысяч поисков данных. Уровень внутреннего хранилища для этой службы - Cassandra. Некоторые из их предложений SaaS используют Cassandra в качестве внутреннего хранилища для обработки комбинации пакетных рабочих нагрузок в реальном времени и Hadoop.
  • Говоря о Hadoop и Cassandra, они берут данные из Cassandra, помещают их в Hadoop и запускают пакетную обработку и аналитику для них, а затем они возвращаются в Cassandra. Это достигается за счет интеграции Cassandra с Hadoop.
  • Задания Hadoop извлекают данные из Cassandra, применяют преобразования или анализ для конкретных заданий и отправляют данные обратно в Cassandra. Они не используют выпуск Datastax (официальный Cassandra Maintainer) Enterprise для этой интеграции, а только установку Hadoop с открытым исходным кодом с Cassandra.

Моделирование данных с помощью Cassandra:

При поиске замены хранилища «ключ-значение» чем-то более способным к репликации в реальном времени и распределению данных, исследования Dynamo, теоремы CAP и модели конечной согласованности показывают, что Cassandra вполне подходит для этой модели. По мере того, как человек узнает больше о возможностях моделирования данных, мы постепенно переходим к декомпозиции данных.

Если кто-то исходит из реляционной базы данных с сильной семантикой ACID, то нужно потратить время, чтобы понять конечную модель согласованности.

Хорошо разбирайтесь в архитектуре Кассандры и в том, что она делает под капотом. С Cassandra 2.0 вы получаете облегченные транзакции и триггеры, но они не совпадают с традиционными транзакциями базы данных, с которыми вы, возможно, знакомы. Например, нет доступных ограничений внешнего ключа - это должно обрабатываться собственным приложением. Перед моделированием данных с помощью Cassandra необходимо четко понимать свои варианты использования и шаблоны доступа к данным, а также прочитать всю доступную документацию.

Заключение:

Apache Cassandra быстро развивается, и мы изучаем и понимаем его возможности, особенно в части моделирования данных. Мы рассматриваем его как предпочтительную распределенную базу данных NoSQL для наших услуг и решений в области больших данных.

что такое процедура в sql

Edureka предлагает комплексный для тех, кто хочет стать специалистом по данным. Курс охватывает ряд методов Hadoop, R и машинного обучения, включая полное исследование Data Science. Edureka также предоставляет который поможет вам освоить базы данных NoSQL. Этот курс разработан, чтобы предоставить знания и навыки, чтобы стать успешным экспертом по Кассандре.