'
Быстрое распространение цифровых данных с помощью компьютеров, мобильных устройств, видео, социальных сетей, цифровых датчиков и т. Д. В сочетании с крупными достижениями в области более дешевой вычислительной мощности, приложений баз данных с открытым исходным кодом и более широкой полосы пропускания вызвало огромный интерес во всем деловом мире к этой технологии. развивающаяся область науки о больших данных и аналитика.
Большие данные в больших неструктурированных объемах слишком велики, чтобы ими можно было управлять и анализировать традиционными методами. Огромный объем и скорость сегодняшних данных делают сбор, фильтрацию, хранение и анализ реальной проблемой. Для решения этой проблемы регулярно разрабатываются новые продукты, которые требуют новых навыков и опыта. Растет потребность в людях, которые могут интегрировать новую инфраструктуру, платформы и процессы в организацию, а также в тех, кто может создавать новые аналитические данные и алгоритмы, способные создавать огромные интеллектуальные возможности, имеющие большую ценность для бизнеса. Для получения дополнительной информации прочитайте наш блог на
Актуальность науки о данных в различных отраслях:
Наука о данных и аналитика применяется во всех отраслях:
- электронная торговля - Механизмы персонализации и рекомендаций, которые увеличивают продажи.
- Реклама - Точная доставка рекламы потребителям в режиме реального времени.
- СМИ и развлечения - Разработка индивидуализированного контента, обеспечивающего максимальное вовлечение пользователей.
- Социальные сети - Повышенная «липкость» сайта, рост числа пользователей, способность отслеживать стремительные тенденции на основе настроений потребителей.
- Финансовые услуги –Оптимизированная практика кредитования, минимизирующая риски и мошенничество.
- Фарма / Биоинформатика - Более совершенное открытие лекарств, более эффективное лечение угрожающих заболеваний, усовершенствования генной инженерии.
- Здравоохранение - Лучшая оценка медицинских пациентов с точки зрения рисков для здоровья, а также прогнозирование и ранняя профилактика заболеваний.
- Мощность энергии - Интеллектуальная сеть, эффективность использования, экономия энергии и сокращение времени простоя.
- Информационной безопасности - Значительно улучшено обнаружение краж и мониторинг ценной информации и активов компании.
Ключевые навыки профессионалов в области науки о данных:
Область науки о данных требует профессионалов, которые:
- Понимает аналитику данных и науку принятия решений
- Хорошо разбираются в IT
- Иметь сильную деловую хватку
- Обладают способностью эффективно общаться с лицами, принимающими решения
Читать больше: Основные навыки, необходимые для работы в области Data Scientist.
Общие технологии, связанные с практикой Data Science:
- Базы данных
Oracle, SQL Server, Терадата
Кассандра, Hadoop, MapReduce, HBase
Астра, Greenplum, Netezza
- Языки
Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala
Улей, Свинья, Люцен, Маут, Соль
- Статистика и прогнозирование
Ангосс, MATLAB, R, SAS, SPSS
ARCH, GARCH, SVAR, VAR, VEC, GAUSS
- Визуализация данных
QlikView, Spotfire, Tableau, yWorks, R
- Бизнес-аналитика и отчетность
BusinessObjects, Cognos, MicroStrategy
Что такое Кассандра?
- Apache Cassandra - это система управления распределенными базами данных с открытым исходным кодом, предназначенная для обработки больших объемов данных на многих обычных серверах.
- Cassandra обеспечивает высокую доступность без единой точки отказа.
- Cassandra предлагает надежную поддержку кластеров, охватывающих несколько центров обработки данных, с асинхронной репликацией без ведущего, позволяющей выполнять операции с низкой задержкой для всех клиентов.
Для получения дополнительной информации прочитайте нашу запись в блоге на .
Как Data Science использует Cassandra?
Cassandra - это распределенная база данных для сервисов с низкой задержкой и высокой пропускной способностью, которая обрабатывает рабочие нагрузки в реальном времени, состоящие из сотен обновлений в секунду и десятков тысяч операций чтения в секунду.
Кассандра Пример использования - ЗА:
PROS - это компания, занимающаяся разработкой программного обеспечения для больших данных и использующая предписывающую аналитику в своем программном обеспечении, которая помогает клиентам анализировать свои данные и получать информацию и рекомендации по оптимизации цен, продаж и управления доходами.
У них есть служба в реальном времени, которая вычисляет доступность авиакомпаний, динамически принимая во внимание данные контроля доходов и уровни запасов, которые могут меняться сотни раз в секунду.
Эта служба запрашивается несколько тысяч раз в секунду, что приводит к десяткам тысяч поисков данных. Уровень внутреннего хранилища для этой службы - Cassandra.
Для своего решения в реальном времени PROS осознала необходимость:
- Распределенный кеш с высокой доступностью.
- Легко масштабируется.
- С архитектурой без хозяина.
- С репликацией данных почти в реальном времени даже между центрами обработки данных.
- Это может обрабатывать чтение и запись в реальном времени.
PROS сравнил Cassandra с Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort и Redis. Apache Cassandra довольно легко возглавил список.
ПРОФИ и Кассандра
- PROS использует Cassandra в качестве распределенной базы данных для сервисов с низкой задержкой и высокой пропускной способностью, которые обрабатывают рабочие нагрузки в реальном времени, состоящие из сотен обновлений в секунду и десятков тысяч операций чтения в секунду.
- Например, у них есть служба в реальном времени, которая динамически вычисляет доступность авиакомпаний с учетом данных контроля доходов и уровней запасов, которые могут меняться сотни раз в секунду. Эта служба запрашивается несколько тысяч раз в секунду, что приводит к десяткам тысяч поисков данных. Уровень внутреннего хранилища для этой службы - Cassandra. Некоторые из их предложений SaaS используют Cassandra в качестве внутреннего хранилища для обработки комбинации пакетных рабочих нагрузок в реальном времени и Hadoop.
- Говоря о Hadoop и Cassandra, они берут данные из Cassandra, помещают их в Hadoop и запускают пакетную обработку и аналитику для них, а затем они возвращаются в Cassandra. Это достигается за счет интеграции Cassandra с Hadoop.
- Задания Hadoop извлекают данные из Cassandra, применяют преобразования или анализ для конкретных заданий и отправляют данные обратно в Cassandra. Они не используют выпуск Datastax (официальный Cassandra Maintainer) Enterprise для этой интеграции, а только установку Hadoop с открытым исходным кодом с Cassandra.
Моделирование данных с помощью Cassandra:
При поиске замены хранилища «ключ-значение» чем-то более способным к репликации в реальном времени и распределению данных, исследования Dynamo, теоремы CAP и модели конечной согласованности показывают, что Cassandra вполне подходит для этой модели. По мере того, как человек узнает больше о возможностях моделирования данных, мы постепенно переходим к декомпозиции данных.
Если кто-то исходит из реляционной базы данных с сильной семантикой ACID, то нужно потратить время, чтобы понять конечную модель согласованности.
Хорошо разбирайтесь в архитектуре Кассандры и в том, что она делает под капотом. С Cassandra 2.0 вы получаете облегченные транзакции и триггеры, но они не совпадают с традиционными транзакциями базы данных, с которыми вы, возможно, знакомы. Например, нет доступных ограничений внешнего ключа - это должно обрабатываться собственным приложением. Перед моделированием данных с помощью Cassandra необходимо четко понимать свои варианты использования и шаблоны доступа к данным, а также прочитать всю доступную документацию.
Заключение:
Apache Cassandra быстро развивается, и мы изучаем и понимаем его возможности, особенно в части моделирования данных. Мы рассматриваем его как предпочтительную распределенную базу данных NoSQL для наших услуг и решений в области больших данных.
что такое процедура в sql
Edureka предлагает комплексный для тех, кто хочет стать специалистом по данным. Курс охватывает ряд методов Hadoop, R и машинного обучения, включая полное исследование Data Science. Edureka также предоставляет который поможет вам освоить базы данных NoSQL. Этот курс разработан, чтобы предоставить знания и навыки, чтобы стать успешным экспертом по Кассандре.