Что такое Big Data и зачем «большие данные» нужны бизнесу?

О важности больших данных для бизнеса говорят уже давно. В медиа ведутся споры о том, как провайдеры могут собирать эти «большие данные» и каким образом они должны их защищать. Разбираемся, в чем особенность этих данных и почему они необходимы современному бизнесу.

Что такое Big Data и зачем «большие данные» нужны бизнесу?

Как развивалась технология «Больших данных»?

Само понятие «большие данные» появилось в середине 2000-х на фоне лавинообразного роста объёмов информации для аналитических задач. Эксперты журнала Nature предложили называть большими данными массивы свыше 150 Гб в сутки. Другие специалисты считают «большими» данные, которые объёмом превышают 8 Гб — этот объём был равен вместимости оперативной памяти тогдашних персональных компьютеров.

Но вычислительные мощности растут, и называть данные «большими», опираясь исключительно на их объём, уже некорректно. На сегодняшний день лучше определять большие данные по их применению в бизнесе и науке.

С точки зрения своего функционала Big Data — это колоссальные массивы информации, позволяющие принимать оптимальные управленческие решения и создавать высокоточные прогнозные модели. Их ещё называют фактологическими данными. Для работы с Big Data нужны специальные инструменты и мощности.

Есть шесть основных характеристик больших данных:

  • Объём от 150 Гб в сутки;
  • Высокая скорость обновления в реальном времени, требующая значительных вычислительных мощностей;
  • Широкое разнообразие типов — тексты, мультимедиа, различные форматы из множества источников. В отличие от однотипных традиционных данных;
  • Высокая достоверность, обеспечиваемая проверенными источниками и научными методами анализа;
  • Высокая степень изменчивости в связи со скоростью передачи, поведением пользователей и другими внешними факторами;
  • Высокая ценность для бизнеса и науки, позволяющая строить сложные аналитические модели и, в результате, принимать оптимальные решения.

Большие данные подразделяются на структурированные, частично структурированные и неструктурированные. Важная особенность — распределённая многокомпонентная архитектура на базе множества специализированных микросервисов.

Источником больших данных являются все площадки в интернете, на которых пользователь может оставить свои «цифровые следы» — соцсети, магазины и маркетплейсы, стриминговые платформы. Ваша история поиска в браузере, онлайн-магазине или кинотеатре — это уже основа для того, чтобы провайдер или продавец мог добавить вас в целевую аудиторию для рекламы чего угодно, от фильмов до авторских курсов.

Большие данные хранятся в облачных хранилищах, корпоративных данных хабах, озёрах данных, реляционных и нереляционных СУБД. Все зависит от того, кто и как их собирает, у разных площадок будут свои протоколы хранения. Обрабатывается эта информация по технологии MapReduce — выборка распределяется между узлами-хабами, после этого запускается параллельная мультизадачная обработка на базе инструментов типа Hadoop, Spark, GridGain. Анализ данных при помощи SQL, нейросетей, BI для получения аналитических срезов и наглядных отчётов.

Специалисты Big Data делятся на три основные группы:

Инфраструктурные специалисты: сотрудники облачных провайдеров, которые обеспечивают технический сбор и хранение данных, дата-инженеры и разработчики ЦОДов — центров обработки данных.

Аналитики: системные, веб- и аналитики данных, маркетологи. Их задача — обработать большие данные, чтобы сделать сервис более удобным для пользователей. Так, например, стриминговые сервисы обрабатывают все пользовательские данные — фильмы, сохранённые в «избранном», глубину и периодичность просмотра фильмов одного и того же жанра, с участием одних и тех же актёров, соотношение времени просмотра с фильмами других жанров. Благодаря этому в дальнейшем сервис может предлагать пользователю другие фильмы и сериалы на платформе с формулировкой «вам понравится».

Специалисты по ИИ и машинному обучению: используют Big Data для обучения нейросетей и создания «умных» роботизированных сервисов. Благодаря работе этих сервисов компании получают конкурентное преимущество на рынке: одни внедряют новые технологические решения, а другие меняют позиционирование и стратегию продвижения, ориентируясь на выводы, полученные из больших данных.

Большие данные в маркетинге

В рекламном рынке проникновение технологий больших данных сформировало отдельное направление — Data Driven подход. В рамках этой концепции решения принимаются на основе анализа конкретных показателей на различных этапах взаимодействия потенциального клиента с продуктом. Сколько времени человек тратит на изучение информации о продукте? Смотрит ли он отзывы, добавляет ли товар в сравнение? На какие сроки человек назначает доставку и как скоро среднестатистический пользователь даёт обратную связь? Все это позволяет сформировать более реалистичные гипотезы и стратегии.

Технологии больших данных помогают в маркетинге не только на этапе оценки результата, но и при подготовке стратегии продвижения. Так на рекламной платформе МегаФон Таргет можно проанализировать свою аудиторию по различным параметрам — географии пребывания и перемещений, интересам, сайтам посещения, частоте и категориям покупок, и множеству других характеристик. Это поможет найти клиентов, для которых ваше предложение будет наиболее релевантным.

Преимущества использования больших данных

Компания МегаФон Активно развивает и предоставляет сервисы на основе Big Data, способные облегчить работу бизнеса и повысить уровень безопасности. Основными системами для бизнеса, являются следующие решения:

IaaS

Infrastructure as a Service — благодаря этому сервису пользователь приобретает подписку на возможность пользоваться инфраструктурными облачными решениями от МегаФона. Среди них  — высокочастотные сервисы и хранилища SSD NVME для высокой производительности критичных приложений.

SaaS

Software as a Service — в рамках этого сервиса программное обеспечение предоставляется как услуга из облака. Все необходимые вычислительные мощности находятся в облаке, и полностью обслуживаются провайдером.

GPUaaS

Graphics processing unit as a Service — это облачный сервис, который оптимизирует выполнение ресурсоемких задач на базе графических процессоров, таких как вывод графики, 3D-моделирование, рендер.

DRaaS

Disaster Recovery as a Service — это облачный сервис для экстренного восстановления виртуальных серверов через резервный центр. Это позволяет сохранить данные и обезопасить конфиденциальную информацию даже от мощных кибератак.

BaaS

Backup as a Service — позволяет восстанавливать отдельные элементы инфраструктуры из облака.

NaaS

Network as a Service — эта облачная модель позволяет быстро организовать стабильный беспроводной канал связи под любые задачи бизнеса.

CDN

Content Delivery Network — это географически распределённая сетевая инфраструктура, которая позволяет ускорить загрузку, доставку и распространение контента конечным пользователям. Простыми словами: с помощью CDN скорость доступа к вашему сайту и загрузка его контента значительно повышается.

Использование Big Data даёт возможность работать с огромными объёмами информации и, на основе их, принимать более точные и обоснованные решения. Эти данные можно применять как для совершенствования стратегии компании, так и для доработки и совершенствования продукта.