Как развивалась технология «Больших данных»?
Само понятие «большие данные» появилось в середине 2000-х на фоне лавинообразного роста объёмов информации для аналитических задач. Эксперты журнала Nature предложили называть большими данными массивы свыше 150 Гб в сутки. Другие специалисты считают «большими» данные, которые объёмом превышают 8 Гб — этот объём был равен вместимости оперативной памяти тогдашних персональных компьютеров.
Но вычислительные мощности растут, и называть данные «большими», опираясь исключительно на их объём, уже некорректно. На сегодняшний день лучше определять большие данные по их применению в бизнесе и науке.
С точки зрения своего функционала Big Data — это колоссальные массивы информации, позволяющие принимать оптимальные управленческие решения и создавать высокоточные прогнозные модели. Их ещё называют фактологическими данными. Для работы с Big Data нужны специальные инструменты и мощности.
Есть шесть основных характеристик больших данных:
- Объём от 150 Гб в сутки;
- Высокая скорость обновления в реальном времени, требующая значительных вычислительных мощностей;
- Широкое разнообразие типов — тексты, мультимедиа, различные форматы из множества источников. В отличие от однотипных традиционных данных;
- Высокая достоверность, обеспечиваемая проверенными источниками и научными методами анализа;
- Высокая степень изменчивости в связи со скоростью передачи, поведением пользователей и другими внешними факторами;
- Высокая ценность для бизнеса и науки, позволяющая строить сложные аналитические модели и, в результате, принимать оптимальные решения.
Большие данные подразделяются на структурированные, частично структурированные и неструктурированные. Важная особенность — распределённая многокомпонентная архитектура на базе множества специализированных микросервисов.
Источником больших данных являются все площадки в интернете, на которых пользователь может оставить свои «цифровые следы» — соцсети, магазины и маркетплейсы, стриминговые платформы. Ваша история поиска в браузере, онлайн-магазине или кинотеатре — это уже основа для того, чтобы провайдер или продавец мог добавить вас в целевую аудиторию для рекламы чего угодно, от фильмов до авторских курсов.
Большие данные хранятся в облачных хранилищах, корпоративных данных хабах, озёрах данных, реляционных и нереляционных СУБД. Все зависит от того, кто и как их собирает, у разных площадок будут свои протоколы хранения. Обрабатывается эта информация по технологии MapReduce — выборка распределяется между узлами-хабами, после этого запускается параллельная мультизадачная обработка на базе инструментов типа Hadoop, Spark, GridGain. Анализ данных при помощи SQL, нейросетей, BI для получения аналитических срезов и наглядных отчётов.
Специалисты Big Data делятся на три основные группы:
Инфраструктурные специалисты: сотрудники облачных провайдеров, которые обеспечивают технический сбор и хранение данных, дата-инженеры и разработчики ЦОДов — центров обработки данных.
Аналитики: системные, веб- и аналитики данных, маркетологи. Их задача — обработать большие данные, чтобы сделать сервис более удобным для пользователей. Так, например, стриминговые сервисы обрабатывают все пользовательские данные — фильмы, сохранённые в «избранном», глубину и периодичность просмотра фильмов одного и того же жанра, с участием одних и тех же актёров, соотношение времени просмотра с фильмами других жанров. Благодаря этому в дальнейшем сервис может предлагать пользователю другие фильмы и сериалы на платформе с формулировкой «вам понравится».
Специалисты по ИИ и машинному обучению: используют Big Data для обучения нейросетей и создания «умных» роботизированных сервисов. Благодаря работе этих сервисов компании получают конкурентное преимущество на рынке: одни внедряют новые технологические решения, а другие меняют позиционирование и стратегию продвижения, ориентируясь на выводы, полученные из больших данных.
Большие данные в маркетинге
В рекламном рынке проникновение технологий больших данных сформировало отдельное направление — Data Driven подход. В рамках этой концепции решения принимаются на основе анализа конкретных показателей на различных этапах взаимодействия потенциального клиента с продуктом. Сколько времени человек тратит на изучение информации о продукте? Смотрит ли он отзывы, добавляет ли товар в сравнение? На какие сроки человек назначает доставку и как скоро среднестатистический пользователь даёт обратную связь? Все это позволяет сформировать более реалистичные гипотезы и стратегии.
Технологии больших данных помогают в маркетинге не только на этапе оценки результата, но и при подготовке стратегии продвижения. Так на рекламной платформе МегаФон Таргет можно проанализировать свою аудиторию по различным параметрам — географии пребывания и перемещений, интересам, сайтам посещения, частоте и категориям покупок, и множеству других характеристик. Это поможет найти клиентов, для которых ваше предложение будет наиболее релевантным.
Преимущества использования больших данных
Компания МегаФон Активно развивает и предоставляет сервисы на основе Big Data, способные облегчить работу бизнеса и повысить уровень безопасности. Основными системами для бизнеса, являются следующие решения:
IaaS
Infrastructure as a Service — благодаря этому сервису пользователь приобретает подписку на возможность пользоваться инфраструктурными облачными решениями от МегаФона. Среди них — высокочастотные сервисы и хранилища SSD NVME для высокой производительности критичных приложений.
SaaS
Software as a Service — в рамках этого сервиса программное обеспечение предоставляется как услуга из облака. Все необходимые вычислительные мощности находятся в облаке, и полностью обслуживаются провайдером.
GPUaaS
Graphics processing unit as a Service — это облачный сервис, который оптимизирует выполнение ресурсоемких задач на базе графических процессоров, таких как вывод графики, 3D-моделирование, рендер.
DRaaS
Disaster Recovery as a Service — это облачный сервис для экстренного восстановления виртуальных серверов через резервный центр. Это позволяет сохранить данные и обезопасить конфиденциальную информацию даже от мощных кибератак.
BaaS
Backup as a Service — позволяет восстанавливать отдельные элементы инфраструктуры из облака.
NaaS
Network as a Service — эта облачная модель позволяет быстро организовать стабильный беспроводной канал связи под любые задачи бизнеса.
CDN
Content Delivery Network — это географически распределённая сетевая инфраструктура, которая позволяет ускорить загрузку, доставку и распространение контента конечным пользователям. Простыми словами: с помощью CDN скорость доступа к вашему сайту и загрузка его контента значительно повышается.
Использование Big Data даёт возможность работать с огромными объёмами информации и, на основе их, принимать более точные и обоснованные решения. Эти данные можно применять как для совершенствования стратегии компании, так и для доработки и совершенствования продукта.