...

Как управлять большими данными: роль баз данных и аналитики

OLAP и многомерные СУБД: как устроен оперативный анализ данных

Как устроены системы оперативной аналитики данных, почему для BI больше подходит многомерный анализ и какие базы данных используют в OLAP.

В IT-системах компаний обычно есть приложения для комплексного анализа данных. Чаще всего их использует топ-менеджмент, чтобы принимать решения, основанные на данных, а не на интуиции.

Чтобы получить информацию, нужную для принятия взвешенного решения, надо собрать данные из различных источников, обработать и проанализировать. Для этого корпоративное хранилище данных должно быть организовано особым образом, в частности с использованием технологии OLAP. Ее мы и рассмотрим в статье.

Что такое OLAP и зачем нужны такие системы

OLAP — это online analytical processing, оно же — оперативный анализ данных. Давайте попробуем определить это понятие на человеческом языке.

В IT-системах данные хранятся в разных источниках — это несвязанные между собой базы данных, хранилища событий, файлы, быстрые хранилища, системы статистики. В этой куче информации прячется то, что важно знать для эффективного управления IT-продуктом и бизнесом. Но достать нужные сведения из столь разнородной структуры и представить в виде, удобном для менеджеров и аналитиков — проблематично.

Поэтому инженеры придумали системы, которые сами следят за всеми поставщиками данных и собирают всё, что надо знать менеджерам, в одном месте. Это и есть «анализ данных».

А почему «оперативный»? Допустим, вы управляете большим интернет-магазином и прямо сейчас тестируете на эффективность несколько рекламных кампаний. Из всех кампаний нужно отобрать самую эффективную и уже с ней работать дальше. Система обработки данных, конечно, позволит увидеть нужные цифры и принять правильные решения. Но данные из нее надо достать быстро — если построение отчета займет недели, то с такой задержкой хорошие решения принять нельзя.

Поэтому инженеры сделали не просто систему обработки и анализа данных из разнородных источников — они сделали ее быстрой, чтобы вся нужная информация попадала на стол менеджеров практически в режиме реального времени.

Весь этот подход и программы, которые задействованы в таком быстром сборе и анализе информации, и называется OLAP.

OLAP и многомерный анализ данных

Работа OLAP-систем опирается на многомерную модель данных, то есть такие системы позволяют анализировать множество разных параметров с разных сторон. Они обрабатывают многомерные массивы данных, то есть такие, в которых каждый элемент массива связан с другими элементами.

Поэтому OLAP позволяет строить гипотезы, выявлять причинно-следственные связи между разными параметрами, моделировать поведение системы при изменениях.

Данные при этом организованы в виде многомерных кубов — осями будут отслеживаемые параметры, на их пересечении находятся данные. Пользователи могут выбирать нужные параметры и получать информацию по разным измерениям.

Например, для продаж осями куба могут быть товары, тип покупателя, регион, частота покупки и так далее. Пользователь может получить данные о том, какие товары, в каких регионах чаще покупают, или какие типы покупателей чаще делают покупки, или сколько товаров продано в каждом регионе за месяц.

США Канада Мексика
Январь 20 000 4 000 2 000
Февраль 30 000 6 000 3 000
Март 50 000 10 000 5 000

Для визуализации данных многомерного куба используют обычные таблицытут видно число продаж по регионам за месяц

OLAP-система собирает информацию из баз данных, ERP, CRM и других источников, а затем формирует многомерный массив данных. В общем виде структура OLAP выглядит так:

  1. Источники данных — реляционные или многомерные базы данных, хранилище данных.
  2. OLAP-сервер, управляющий многомерными массивами данных.
  3. Приложения, которые формируют отчеты, графики, диаграммы для пользователей.

Как можно реализовать OLAP на практике: виды таких систем

Самый простой и очевидный подход — создать систему, которая напрямую ничего не хранит, но умеет быстро вынимать разные записи из разных мест и в правильном виде показывать данные менеджерам. Такие системы хорошо работают, когда данные разложены по однотипным СУБД. Например, все подразделения сидят на реляционной СУБД PostgreSQL.

OLAP с такой архитектурой будет называться Relational OLAP (ROLAP) — OLAP, построенный на отношениях таблиц и баз данных между собой. Такая система не требует предварительной подготовки записей в таблицах для анализа — можно брать все нужные значения напрямую и в режиме онлайн.

Если же данные лежат не только в однотипных корпоративных базах данных, то надо собирать информацию по разным источникам и сводить всё это вместе. Появляется этап предварительной подготовки данных на отдельном сервере. И такая система — это уже Multidimensional OLAP (MOLAP), или многомерный OLAP. Такую штуку построить сложнее, но иногда без нее никак — чем больше ваша компания, тем больше разнородных систем хранения данных в ней будет задействовано. Это наиболее эффективный тип для аналитической обработки, так как позволяет структурировать данные под разные запросы пользователей.

И третий вид — гибрид первых двух типов систем. В очень-очень больших компаниях часть данных проще достать через запросы в базы данных, а часть нужно предварительно готовить средствами многомерной OLAP, работающей с различными источниками.

Самое интересное: многомерный анализ данных

Самая интересная технология из всех этих — многомерный OLAP и многомерные системы, которые применяют для сбора информации из всех подразделений компании. Софт для таких систем чертовски сложен и интересен, он умеет работать с различными источниками, при этом делать это быстро и эффективно, одновременно опрашивая десятки многотерабайтных таблиц.

Однако впечатляющая способность опрашивать разных поставщиков — не самое главное, у таких систем есть еще крутейший набор инструментов для работы с самими данными.

Давайте бросим взгляд на несколько представителей рынка многомерных БД для OLAP:

  1. Vertica — неплохая база, появившаяся в 2005 году. Самая крутая фишка этой системы — встроенные в нее алгоритмы машинного обучения. Можно применять регрессии и считать кластеры на данных с помощью SQL-запросов, не написав ни строчки кода для создания моделей машинного обучения.
  2. Greenplum — профессиональная база данных, которая работает на основе PostgreSQL. Огромная производительность, надежность и масштабируемость для тех, кому надо ворочать гигабайтами записей в режиме реального времени. Пожалуй, трудно найти что-то гибче и мощнее этой штуки. А еще она доступна в готовом и настроенном виде в облаке — в виде СУБД Arenadata DB. Облачный сервис поможет развернуть сложную многомерную базу данных в максимально короткие сроки.
  3. Hadoop. Штука, в общем-то, не предназначенная для OLAP-процессов. Но, тем не менее, может выполнять роль ядра OLAP-системы. Качество и скорость, понятное дело, будут страдать, но зато этот инструмент всегда под рукой, он прост и умеет справляться со своими задачами. То есть вариант для быстрого прототипирования OLAP-систем. Также может интегрироваться с Greenplum, и в этом случае такая система подходит для работы с big data.

Какова роль больших данных и аналитики данных?

В настоящее время, когда информационные технологии проникают в различные области жизни, включая бизнес, здравоохранение, государственное управление, науку и технику, большие данные и аналитика данных приобретают все большую важность.

Большие данные — это многообразие, объем и скорость получения и обработки информации. Аналитика — это превращение данных в ценную информацию для принятия решений или ускорения процессов.

В бизнесе большие данные связаны с получением информации о клиентах, конкурентах, рынке, производстве и взаимодействии с внутренними системами. С помощью аналитики данных компании могут принимать быстрые и точные решения, чтобы улучшить производительность, достичь новых рынков и улучшить конкурентоспособность.

В медицине анализ больших данных помогает выявлять тенденции лечения и диагностики, идентифицировать группы риска, улучшать управление и выявлять новые методы лечения. В науке большие данные могут расширить наши знания о мире, анализируя данные от телескопов, геномов и многих других источников.

В государственном управлении большие данные могут помочь снизить затраты, повысить эффективность и улучшить качество обслуживания общества. Государственные учреждения могут использовать аналитику для выявления общественных потребностей, идентификации возможных угроз и принятия мер по улучшению безопасности.

Кратко говоря, большие данные и аналитика данных играют важную роль в различных областях жизни. Эти технологии могут помочь компаниям повысить производительность, улучшить качество продуктов и услуг, а государственные учреждения — снизить затраты и повысить качество обслуживания общества. Поэтому, для вступления в эру цифровой экономики и эффективного создания продукта рынке, необходимо уметь работать с большими данными и уметь анализировать их.

Как большие компании управляют большими данными

Объемы данных стремительно растут. Их хранение и обработка требуют значительных финансовых затрат как с точки зрения построения инфраструктуры, так и с учетом дефицита и высокой стоимости труда квалифицированных специалистов. При этом далеко не все данные могут быть полезны. Информацию нужно тщательно подготовить к дальнейшему использованию. CDO2DAY расспросило экспертов, как эти проблемы решаются в крупных компаниях.

Большие данные на рынке

Аналитики IDC в 2021 году оценили объем мирового рынка Big Data и бизнес-аналитики в $215,7 млрд, что на 10,1% больше, чем в 2020 году. Главные потребители больших данных – финансовые организации, дискретное производство и сфера услуг: на них приходится около трети всех затрат. За ними следуют непрерывное производство, телеком и госведомства. В ближайшие годы расходы на Big Data быстрее всего будут расти в телекоммуникационном секторе.

объем мирового рынка Big Data и бизнес-аналитики
59 зеттабайт
объем информации, накопленный в мире в 2020 году

В отчете Data Age Report аналитики IDC отмечают, что в 2020 году объемы информации в мире составили 59 зеттабайт. При этом около 90% этих данных являются реплицированными и лишь 10% – уникальными. В дальнейшем доля реплицированных данных будет только увеличиваться, а значит, что большинство данных потребляется и анализируется, а не генерируется.

К 2025 году в мире будет храниться и обрабатываться около 175 зеттабайт данных. Поставщиками большинства данных станут устройства Интернета вещей и метаданные. Доля информации от частных потребителей будет сокращаться, а от корпоративных – только расти.

Как работать с большими данными

Для работы с большими данными необходимы специальная инфраструктура и компетенции, которые доступны узкому кругу крупных компаний. Сбор и обработка Big Data, создание хранилищ, позволяющих формировать полноценную аналитику, требуют серьезных затрат и высококвалифицированных специалистов, которых на рынке явно не хватает.

Так, в крупнейшем российском ретейлере X5 Retail Group сегодня накоплено более 5 петабайт данных. В компании «Ростелеком» объемы данных также исчисляются петабайтами: они собираются из более чем 200 информационных систем и используются более чем 12 тысячами уникальных пользователей.

«С точки зрения функции «Управление данными» мы стараемся фокусироваться на тех данных, которые на горизонте года могут быть востребованы бизнесом для аналитических и операционных решений. То есть тех данных, которые доступны в контуре хранилища данных».

Сергей Носов, директор по управлению данными компании «Ростелеком»

Эксперты отмечают изменение отношения к большим данным в последние годы: наконец‑то пришло понимание, что делиться ими выгоднее, чем просто хранить. Вместе с тем для многих компаний по-прежнему характерно стремление собрать все данные в единый репозиторий, а уже потом решать, что с ними делать. Но такой подход неэффективен: прежде чем создавать хранилище, надо подумать об управлении данными и их безопасности.

Как организовать управление
данными

В «Ростелекоме» подразделения по управлению данными, входящие в состав ИТ-блока, отвечают за весь цикл работы с данными: инфраструктуру работы с данными, построение хранилища данных, архитектуру данных, внедрение систем мастер-данных, построение аналитики и отчетности, построение решений с использованием технологий искусственного интеллекта, монетизацию данных и разработку data-продуктов для внешнего рынка.

«Технологические задачи решаются силами ИТ-блока за счет собственного бюджета. С точки зрения технологических решений мы изначально фокусировались на использовании open source решений и in-house–разработке. Это позволило нам практически полностью отказаться от решений иностранных вендоров и создать для рынка собственную платформу управления данными».

Сергей Носов, директор по управлению данными компании «Ростелеком»

Работа по развитию отчетности в «Ростелекоме» выстроена по принципу одного окна. За каждый сегмент отвечает выделенный фронт-менеджер, в обязанности которого входит решение текущих задач бизнес-заказчиков. Такие работы выполняются за счет бюджета заказчика. Демократизация данных, единая методология решений и возможность переиспользования информационных сервисов – это важные принципы работы компании.

Необходимо не только загрузить данные из источников и реализовать конкретный отчет. Важно предоставить возможность для пользователей легко найти нужный информационный сервис, получить к нему доступ и обеспечить прозрачность методологии расчета, говорит Сергей Носов. В этом помогают глоссарий терминов, карта данных, реестр отчетов. Реализация операционных сервисов и сервисов монетизации данных реализуется также за счет бюджета заказчика в продуктовых командах, состоящих из бизнес- и ИТ-специалистов.

В X5 Retail Group, по словам директора по управлению данными в Х5 Tech Тиграна Саркисова, управление данными, как и всем технологическим блоком, организовано по доменно‑ориентированной модели. Однако ряд компетенций и сервисов предоставляются централизованно – например, мастер-данные, архитектура данных, безопасность.

Как построить сервис на больших данных

Данные сами по себе никому не интересны, и затраты на их хранение сложно обосновать. Поэтому управление данными подразумевает под собой в том числе формирование различных сервисов, которые могут принести пользу бизнесу.

«В Х5 внедрен доменно-ориентированный продуктовый подход: ценность из данных извлекают непосредственно бизнес-команды, усиленные компетенциями и экспертизой CDO. Тем не менее команда CDO/X5 Tech в целом оказывает и предоставляет бизнесу прежде всего платформенные сервисы, в части данных и аналитики. Это, например, DMP – платформа больших данных, CIP – сервис профиля клиента, X5ID – единый сервис авторизации».

При подготовке материала использовались источники:
https://mcs.mail.ru/blog/olap-mnogomernye-subd-kak-ustroen-operativnyy-analiz-dannykh
https://qaa-engineer.ru/kakova-rol-bolshih-dannyh-i-analitiki-dannyh/
https://cdo2day.ru/practice/kak-bolshie-kompanii-upravlyayut-bolshimi-dannymi/

Оцените статью