...

Программа биг дата что это

Как биг-дата управляет миром: на примере магазинов

Вокруг появляется много одних и тех же магазинов — почему так происходит и как они устроены.

Иногда стоя на перекрёстке можно увидеть вокруг несколько магазинов одной и той же сети: «Пятёрочки», «Дикси» или любые другие. Некоторые думают, что в этом нет никакого смысла: зачем строить новый магазин, когда через дорогу есть точно такой же?

На самом деле смысл есть — всё дело в правильном использовании биг-даты и аналитики (по крайней мере, нам хочется в это верить).

В этой статье покажем, как сбор и анализ данных помогает принимать важные бизнесовые решения.

Важная оговорка: мы намеренно упрощаем часть процессов, чтобы было проще понять принцип. Некоторые моменты могут показаться полной экзотикой и экономически невыгодными — это тоже сделано специально. В жизни всё происходит сложнее, дольше и не так безошибочно.

Карта пешеходных маршрутов

Магазин типа «Пятёрочки» надо открывать там, где ходят люди. Никто специально не поедет в соседний район ради продуктового магазина, поэтому для начала нужно ответить на такие вопросы:

Где в этом районе ходят люди?

По каким маршрутам?

Сколько их в разное время?

А где точно не ходят?

Чтобы это узнать, можно воспользоваться биг-датой: собрать её или заполучить. Примеры:

У сотового оператора. Можно получить информацию о геопозиции устройств и их примерном перемещении у оператора сотовой связи. Это обезличенные данные без привязки к фамилии или номеру: только информация о пути передвижения устройств в конкретном районе. Это дорого, но эффективно.

Данные собираются с сотовых базовых станций — это устройства, к которым подключаются ваши телефоны, чтобы быть на связи. В городах базовые станции стоят довольно плотно, и по уровню сигнала с них можно довольно точно определить положение всех ближайших абонентов.

Поставить Wi-Fi- и Bluetooth-точки в разных местах нужного района. Они соберут информацию о проходящих мимо людях через их же телефоны. Принцип такой: точка сканирует пространство и ищет мобильники с включённым вайфаем. Как только нашла — начинает его отслеживать до тех пор, пока человек не выйдет из зоны действия. При достаточном количестве таких точек можно получить довольно неплохую карту перемещений.

Поставить камеры с распознаванием лиц. Тут всё относительно просто — располагаем камеры в автомобилях или на зданиях, запоминаем лицо каждого проходящего и путь, по которому он прошёл. Потом накладываем это на карту местности и получаем пешеходные маршруты. Распознавание лиц уже настолько распространённая технология, что это может сделать кто угодно.

После того как мы получили карту перемещений, её нужно проанализировать и найти те точки, где получается максимальная проходимость. В идеале — найти такие места, где пешеходный поток не заходит в магазины конкурентов или где их вообще нет. Для этого просто собираем статистические данные, совмещаем их с картами и используем аналитические приёмы, чтобы сделать выводы.

Ассортимент

У каждой крупной розничной сети всегда ведётся такая статистика:

  • что покупают в магазинах чаще всего;
  • как продажи разных товаров зависят от площади магазина;
  • как покупатели ходят внутри магазина;
  • какие продукты нужно ставить рядом с другими продуктами, чтобы они лучше продавались;
  • как зависит ассортимент от проходимости за день.

Всё это собирается по каждому магазину, заносится в единую большую базу. На выходе дата-сайентисты получают картину необходимого ассортимента для нужной площади. Анализ больших данных выдаст нам именно те товары, которые будут продаваться в нашем магазине лучше всего.

Второй магазин

Задача розничной сети — получить как можно больше прибыли с каждого района в городе. Это значит — открыть столько магазинов, сколько это физически возможно и прибыльно.

Допустим, мы уже открыли много магазинов в каждом районе города. Наша задача — спуститься с уровня города на уровень жилого квартала. Кажется, что если один магазин уже стоит во дворе, то на соседней улице нет смысла открывать такой же — достаточно перейти через дорогу. Но это не всегда так.

Через некоторое время после открытия первого магазина мы снова начинаем смотреть на пешеходные потоки — как они изменились. Иногда мы предполагаем, что люди будут переходит через дорогу, чтобы зайти в наш магазин, но на деле это часто не так. Обычно бывает, что магазин притягивает одну часть пешеходов, а другая ходит сама по себе. Можно ли эту часть переманить?

На этом этапе наша задача — найти место на другой стороне улицы, где больше всего проходит тех людей, кто не заходит в наш первый магазин. Снова собираем много данных, анализируем их и находим нужное место.

Иногда может так получиться, что с одного перекрёстка видно сразу несколько таких одинаковых магазинов. Это значит, что в этом районе есть несколько независимых основных пешеходных маршрутов. И те, кто ходит в «Пятёрочку» за углом, обычно не ходят в «Пятёрочку» у светофора — это дольше и совсем не по пути.

Главный принцип

До биг-даты проектировщики и экономисты исходили из своих предположений: «Наверное, если открыть тут магазин, то люди будут в него заходить. Ведь это логично!» Теперь же у нас есть способы собирать данные о подлинном поведении покупателей. В каком магазине нужно продавать спелые авокадо, а в каком — водку? Где нужен отдел кулинарии, а где нужен акцент на сырую картошку и тушёнку? Где люди перестали заходить в магазины, а где просто кассиры воруют? Теперь не нужно гадать — можно просто посмотреть в данные.

В следующей части увидим, как магазины работают с ассортиментом и выкладкой товара, чтобы получить больше прибыли. Вкратце: ещё больше биг-даты и анализа поведения покупателей.

Получите ИТ-профессию

В «Яндекс Практикуме» можно стать разработчиком, тестировщиком, аналитиком и менеджером цифровых продуктов. Первая часть обучения всегда бесплатная, чтобы попробовать и найти то, что вам по душе. Дальше — программы трудоустройства.

Что такое «Big Data»?

Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

image

С развитием технологий количество данных стало увеличиваться в геометрической прогрессии. Традиционные инструменты перестали покрывать потребность в обработке и хранении информации. Для обработки данных, объем которых превышает сотни терабайт и постоянно увеличивается, были созданы специальные алгоритмы. Их принято называть «big data».

Сегодня информация собирается огромными объемами из разных источников: интернет, контакт-центры, мобильные устройства и т.д. Чаще всего такие данные не имеют четкой структуры и упорядоченности, поэтому человек не может использовать их для какой-либо деятельности. Для автоматизации анализа применяют технологии «big data».

Когда появились первые большие данные?

Большие данные появились в 60-70 годах прошлого столетия вместе с первыми ЦОД (центры обработки данных). В 2005 году компании начали понимать масштабы создаваемого контента пользователями интернет-сервисов (Facebook, YouTube и др.). Тогда же начала работу первая платформа, предназначенная для взаимодействия с большими наборами данных, — Hadoop. Сегодня она представляет собой большой стек технологий для обработки информации. Чуть позже популярность начала набирать NoSQL — совокупность методов для создания систем управления большими данными.

Объем генерируемой информации стал увеличиваться с появлением крупных интернет-сервисов. Пользователи загружают фотографии, просматривают контент, ставят «лайки» и т.п. Вся эта информация собирается в больших объемах для дальнейшего анализа, после которого можно вносить улучшения в работу сервисов. Например, социальные сети используют большие данные для показа пользователям релевантной рекламы (то есть той, которая соответствует их потребностям и интересам) в таргете. Это позволяет соцсетям продавать бизнесу возможность проведения точных рекламных кампаний.

Основные свойства больших данных

В самом начале статьи мы определили три основных свойства больших данных из общепринятого определения. Давайте раскроем их более подробно:

  • Объем. Из названия «большие данные» становится понятно, что они содержат в себе много информации. И это действительно так: компании могут ежедневно получать десятки терабайт различных данных, некоторые — сотни петабайт. То есть «большие данные» не были бы таковыми без объема.
  • Скорость. Большие данные поступают и обрабатываются из разных источников с высокой скоростью. При отсутствии этого свойства информацию уже нельзя будет назвать «big data». А еще они генерируются без остановки.
  • Разнообразие. Большие данные содержат в себе информацию, относящуюся к разным типам. Это одно из главных отличий от простых данных — они всегда структурированы и могут быть сразу сохранены в базе данных.

Как с ними работают?

Большие данные несут в себе много полезной информации, на основе которой компании создают новые возможности и формируют бизнес-модели. Работа с большими данными делится на 3 этапа: интеграция, управление и анализ.

1 этап. Интеграция

На этом этапе компания интегрирует в свою работу технологии и системы, позволяющие собирать большие объемы информации из разных источников. Внедряются механизмы обработки и форматирования данных для упрощения работы аналитиков с «big data».

2 этап. Управление

Полученные данные нужно где-то хранить, этот вопрос решается до начала работы с ними. Решение принимается на основе множества критериев, главными из которых считаются предпочтения по формату и технологии обработки. Как правило, для хранения компании используют локальные хранилища, публичные или частные облачные сервисы.

3 этап. Анализ

Большие данные начинают приносить пользу после анализа. Это заключительный этап взаимодействия с ними. Для этого применяют машинное обучение, ассоциацию правил обучения, генетические алгоритмы и другие технологии. После анализа данных остается только самое ценное для бизнеса.

Примеры использования больших данных

В общих чертах с «big data» разобрались. Но остался важный вопрос — где их можно применять практически? Ответ: в любой сфере деятельности, которая оперирует необходимыми для анализа данными. Давайте рассмотрим несколько реальных примеров. Это позволит лучше понять, для чего нужны большие данные и как от них можно получить пользу.

Big Data в банках

В российской банковской сфере большие данные первым начал использовать «Сбербанк». На основе «big data» и биометрической системы в 2014 году они разработали систему идентификации личности клиента по фотографии. Принцип работы очень простой: сравнение текущего снимка с фотографией из базы, которую делают сотрудники при выдаче банковской карты. Новая система сократила случаи мошенничества в 10 раз.

Сегодня «Сбербанк» продолжает использовать большие данные в работе: сбор и анализ информации позволяет управлять рисками, бороться с мошенничеством, оценивать кредитоспособность клиентов, управлять очередями в отделениях и многое другое.

Еще один пример из российского банковского сектора — ВТБ24. Внедрять «big data» компания начала чуть позже «Сбербанка». Сегодня они используют большие данные для сегментации и управления оттоком клиентов, формирования финансовой отчетности, анализа отзывов в интернете и многого другого.

«Альфа-Банку» большие данные помогают контролировать репутацию бренда в интернете, оценивать кредитоспособность новых клиентов, персонализировать контент, управлять рисками и т.п.

Большие данные в бизнесе

Многие ошибочно полагают, что работа с большими данными актуальна только для банковского сектора и ИТ-компаний. Это опровергает пример «Магнитогорского металлургического комбината», который разработал сервис «Снайпер» для снижения расходов сырья в производстве. Технология собирает большие объемы информации, анализирует их и дает рекомендации по оптимизации расходов материалов.

«Сургутнефтегаз» использует специальную систему для отслеживания основных бизнес-процессов в режиме реального времени. Это помогает в автоматизации учета продукции, ценообразовании, обеспечении персонала нужными данными и т.п.

Big Data в маркетинге

Маркетологи используют большие данные для прогнозирования результатов рекламных кампаний. Также анализ помогает в определении наиболее заинтересованной аудитории. Яркий пример «big data» в маркетинге — Google Trends. В систему поступает огромное количество данных, а после анализа пользователь может оценить сезонность того или иного товара (работы, услуги).

Сложности при использовании

Где есть большие возможности, там поджидают и большие трудности. Это правило не обошло стороной big data.

Первая сложность, с которой сталкиваются компании, — большие данные занимают много места. Да, технологии хранения постоянно улучшаются, но при этом и объем данных неуклонно растет (в среднем в два раза каждые два года).

Приобретение огромного хранилища не решает всех проблем. От простого хранения данных толку не будет, с ними нужно работать для получения выгоды. Отсюда вытекает другая сложность — налаживание обработки получаемых больших данных.

Сейчас аналитики тратят 50-80% рабочего времени для приведения информации в приемлемый для клиента вид. Компаниям приходится нанимать больше специалистов, что увеличивает расходы.

И еще одна проблема — стремительное развитие больших данных. Регулярно появляются новые инструменты и сервисы для работы (например, Hbase). Бизнесу приходится тратить много времени и средств, чтобы «быть в тренде» и не отставать от развития.

Таким образом, big data — это совокупность технологий обработки больших объемов информации (сотни терабайтов и более) и сегодня мало кто отрицает их важность в будущем. Их популярность будет расти и распространение в бизнесе увеличиваться. Впоследствии разработают технологии по автоматизации анализа и с big data будут работать не только крупные компании, но и средние с маленькими.

Хочешь научиться работать с большими данными и расширить знания в аналитике? Записывайся на наш онлайн-курс «Аналитик Big Data». Узнать подробности!

  • продакт-менеджемент
  • productstar
  • аналитика
  • bigdata
  • большие данные

Программа биг дата что это

Мировой объем оцифрованной информации растет по экспоненте. По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта. К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации.

Сможем ли мы совладать с ней? По расчетам IBS, в 2013 году только 1,5% накопленных массивов данных имело информационную ценность. К счастью, мир спасут технологии обработки больших данных. Они позволят людям объять необъятное и получить из этого пользу. Каким образом — читайте дальше.

Big data (большие данные) — огромные объемы неоднородной и быстро поступающей цифровой информации, которые невозможно обработать традиционными инструментами.

В русскоязычной среде под большими данными подразумевают также технологии их обработки. В мировой практике большими данными называют только объект анализа.

Данных много, а пользы нет? Только проверенные компании, которые специализируются на Big Data Термин big data родился в 2008 году. Редактор журнала Nature Клиффорд Линч употребил это выражение в спецвыпуске, посвященном взрывному росту мировых объемов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории big data относится большинство потоков данных свыше 100 Гб в день.

Анализ больших данных позволяет увидеть скрытые закономерности, незаметные ограниченному человеческому восприятию. Это дает беспрецедентные возможности оптимизации всех сфер нашей жизни: государственного управления, медицины, телекоммуникаций, финансов, транспорта, производства и так далее.

В последние годы big data фактически перестали быть термином. Журналисты и предприниматели сильно злоупотребляли им, и значение размылось. Российские специалисты до сих пор спорят о том, входят ли в понятие big data инструменты работы с ними. Западные эксперты считают этот термин окончательно дискредитированным и предлагают от него отказаться.

Data lake (озеро данных) — хранилище больших данных в необработанном виде.

«Озера» хранят данные из разных источников и разных форматов. Это обходится значительно дешевле традиционных хранилищ, в которые помещаются только структурированные данные. Data lake позволяют анализировать большие данные в исходном виде. К тому же пользоваться «озерами» могут сразу несколько сотрудников.

Data science (наука о данных) — дисциплина, изучающая проблемы анализа, обработки и представления информации в цифровой форме.

Датой возникновения термина считают 1974 год, когда датский информатик Петер Наур издал книгу «A Basic Principle of Data Science».

С начала 2010-х годов наука о данных перестала быть чисто академической дисциплиной. Под влиянием популяризации больших данных data science оказалась перспективным бизнесом. Тогда же профессия data scientist стала одной из самых востребованных и высокооплачиваемых в мире.

В понятие data science входят все методы обработки оцифрованной информации и проектирования баз данных. Некоторые специалисты считают термин data science наиболее адекватной заменой big data в смысле сферы деятельности и рыночной ниши.

Data mining (добыча информации) — интеллектуальный анализ данных с целью выявления закономерностей.

Израильский математик Григорий Пятецкий-Шапиро ввел этот термин в 1989 году.

Датамайнингом называют как технологии, так и процесс обнаружения в сырых данных ранее неизвестных и практически полезных знаний. Методы data mining находятся на стыке баз данных, статистики и искусственного интеллекта.

Machine learning (машинное обучение) — теория и практика разработки самообучающихся программ, большая область искусственного интеллекта.

Искусственный интеллект и нейронные сети

Machine learning — большая область искусственного интеллекта. Программисты учат свои алгоритмы выявлять общие закономерности по частным случаям. В результате компьютер принимает решения исходя из собственного опыта, а не команд человека. Многие методы такого обучения относятся к датамайнингу.

Первое определение машинному обучению дал в 1959 году американский информатик Артур Самуэль. Он написал игру в шашки с элементами искусственного интеллекта — одну из первых самообучающихся программ в мире.

Deep learning (глубокое обучение) — вид машинного обучения, создающий более сложные и более самостоятельные обучающиеся программы.

При обычном машинном обучении компьютер извлекает знания через управляемый опыт: программист дает алгоритму примеры и вручную исправляет ошибки. А при deep learning система сама проектирует свои функции, делает многоуровневые вычисления и выводы об окружающем мире.

Глубокое обучение применяют к нейронным сетям. Сферы применения этой технологии — обработка изображений, распознавание речи, нейромашинный перевод, вычислительная фармацевтика и другие прорывные технологии, внедряемые IT-гигантами вроде Google, Facebook и Baidu. Глубокое обучение стало одной из самых востребованных областей информационных технологий.

Доподлинно неизвестно, кто впервые применил термин к нейронным сетям. Deep learning стало популярным в 2007 году, когда канадский ученый Джеффри Хинтон создал алгоритмы глубокого обучения многослойных нейронных сетей.

В общем, выходит как-то так:

Искусственная нейронная сеть — система соединенных простых процессоров (искусственных нейронов), имитирующая нервную систему человека.

Благодаря такой структуре нейронные сети не программируются, а обучаются. Как и настоящие нейроны, процессоры просто принимают сигналы и передают их своим собратьям. Но вся сеть способна выполнять сложные задачи, с которыми не справляются традиционные алгоритмы.

Использование нейросетей

Понятие искусственных нейронных сетей ввели американские ученые Уоррен Маккалок и Уолтер Питтс в 1943 году. Сегодня нейросети используют для распознавания образов, классификации, прогнозирования, нейросетевого сжатия данных и других практических задач.

Business intelligence (бизнес-аналитика) — поиск оптимальных бизнес-решений с помощью обработки большого объема неструктурированных данных.

Эффективный business intelligence анализирует внешние и внутренние данные — как рыночную информацию, так и отчетность компании-клиента. Это дает полную картину бизнеса и позволяет принимать как операционные, так и стратегические решения (выбрать как цену продукта, так и приоритеты развития компании).

Термин появился в 1958 году в статье исследователя из IBM Ханса Питера Луна. В 1996 году аналитическое агентство Gartner, которое специализируется на изучении IT-рынка, включило в состав business intelligence методику датамайнинга.

Если у вас другое восприятие этих терминов, ругайтесь в комментариях 🙂

Материалы по теме:

Яндекс разработал нейросети, которые помогут врачам ставить диагнозы

Ученые смогут прочитать мысли птицы с помощью алгоритма нейронной сети

Американская разведка назвала российскую нейронную сеть по распознаванию лиц лучшей в мире

Пользователь Reddit выпустил нейросеть для замены лиц актеров в порно

Как устроены искусственные нейронные сети: видео

  • Начинающим
  • Большие данные
  • Самые важные технологические тренды
  • Словарь предпринимателя
  • Hardware-проекты
  • IT

При подготовке материала использовались источники:
https://thecode.media/big-data-sales/
https://habr.com/ru/companies/productstar/articles/503580/
https://rb.ru/howto/big-data-in-8-terms/

Оцените статью