Большие данные или большой беспорядок?

22 мая 2020, 09:30

Big data важна для бизнеса. Но это не «волшебная таблетка» — использовать ее следует осторожно, понимая все ограничения.

Управленцы часто не понимают на самом деле, что такое большие данные. Они слышат эти слова от консультантов и рассуждают: наверное, и мы должны что-то делать с big data или аналитикой данных. Но, вопреки распространенному мнению, большие данные — это не очередной IT-феномен. Что же это? И чем большие данные могут быть полезными вашему бизнесу?

Видео дня

Существует общепринятое определение больших данных, которое было предложено очень давно компанией IBM. Согласно ему big data описывается четырьмя параметрами (4V):

  • объем (volume): эти данные генерируются постоянно,
  • скорость (velocity): обрабатывать их нужно быстро,
  • многообразие (variety): используется много источников и типов данных,
  • точность (veracity): данные должны быть качественными.
Лучший результат возникает, когда управленец движется от мудрости к данным — а не наоборот

Это определение не потеряло своей актуальности и сейчас, хотя сменилось немало: компьютеры могут обрабатывать данные значительно быстрее, а сами данные теперь можно собирать из множества устройств (потому что мы ставим сенсоры всюду, где только возможно). В прошлом данные были преимущественно числовыми, а теперь они гораздо разнообразнее: изображения, звуки, тексты и т. п. Что же касается качества, то данные сегодня нередко теряются или бывают размытыми, поэтому их сложно интерпретировать.

Многие компании полагают, что их данные — хороши уже такие, какие есть. Это предубеждение возникает из убеждения, что big data — это о технологиях. На самом деле так называемая очистка данных занимает очень много времени, и только после этого их можно использовать, «загоняя» в алгоритмы. Скажем, обработка данных каким алгоритмом может занять минуты, а предварительная очистка — недели.

Еще одна ошибка компаний — начинать с внедрения технологических решений. Нередко они тратят миллионы и годы, чтобы формировать отчеты не в Excel, а в продвинутой IT-программе, но в итоге получают результат, который не удовлетворяет их потребности. Например, одна нидерландская компания, владеющая кемпингами, внедрила дорогое IT-решение. Но когда появилась необходимость узнать — сколько немецких туристов посещают ее локации, система не смогла дать ответ, потому что не была рассчитана на такие вопросы. Проблема заключалась в том, что компания сфокусировалась на технологиях, не имея понимания — зачем ей вообще нужна аналитика данных.

Управленцу начинать нужно с главных вопросов и ключевых бизнес-целей. Чего я хочу достичь? Что получить? И только после этого думать: как данные могут мне в этом помочь? Аналитика данных должна представлять собой перевернутую пирамиду (см. рисунок). Если перед управленцем появился бизнес-вызов (скажем, увеличить рыночную долю), то, прежде всего, он должен подумать: какая мудрость поможет нам справиться с задачей? Потом — какие знания нужны, чтобы получить эту мудрость? Какая информация обеспечит эти знания? И только потом стоит спросить себя: из каких данных можно получить эту информацию?

poster
Дайджест главных новостей
Бесплатная email-рассылка только лучших материалов от редакторов НВ
Рассылка отправляется с понедельника по пятницу

Такое мышление может не подходить IT-менеджерам, однако оно необходимо управленцам. Руководители не должны рассуждать: что мы можем сделать с данными, которые у нас есть? Так невозможно достичь максимального эффекта от своих действий. Лучший результат возникает, когда управленец движется от мудрости к данным — а не наоборот.

В общем алгоритм действий должен выглядеть так:

1. Выяснить, какой бизнес-вызов сейчас имеет бизнес. (Например, выбрать лучшее место для нового магазина или снизить затраты на обслуживание оборудования.)

2. Сформировать гипотезу.

3. Собрать соответствующие данные.

4. Проанализировать данные.

5. Сделать выводы.

6. Составить перечень рекомендуемых действий.

7. Отследить выполнение и определить результаты.

Используя данные, следует также понимать определенные ограничения. Во-первых, нередко для полноценной аналитики недостаточно данных, которые может собрать сама компания. Нужны еще и внешние данные. Например, авиакомпания KLM получает данные от аэропорта Схипхол, чтобы принять решение — сколько работников она должна привлечь для обслуживания клиентов на стойках регистрации.

Во-вторых, аналитика данных дает гораздо более точные результаты в физике, чем в социальных науках. Ведь в первом случае все переменные известны, они подчиняются известным законам — потому их поведение можно предсказать и рассчитать. Использование законов физики не меняет систему. А в социальных науках имеется огромное количество взаимодействий между людьми, измерить все переменные невозможно, а когда мы используем данные, то этим влияем на систему и меняем ее.

Бизнес и экономика — это тоже социальные науки. Это не значит, что в бизнесе не стоит использовать большие данные. Но нужно быть очень осторожными с тем, как мы это делаем. Если вы пользуетесь методами машинного обучения для анализа больших данных, то можно увидеть корреляции, которые не соответствуют действительности. Например, подобный алгоритм, анализируя данные об американцах за 2000−2009 годы, нашел четкую корреляцию между объемом потребления сыра и вероятностью умереть в собственной постели, запутавшись в простыне. Мы понимаем, что эти переменные не связаны между собой, но алгоритм может сделать вывод о причинно-следственной связи и начать строить прогнозы.

Как показывает практика, когда мы имеем большой набор случайных данных, паттерны в них находятся очень легко. Но вряд ли стоит основывать свои выводы на таких паттернах — иначе мы решим, что стоит запретить употреблять сыр, чтобы избежать смерти в постели.

Как и любая инновация, большие данные проходят определенный жизненный цикл. Сейчас ожидания от big data находятся на пике. Управленцы думают, что большие данные могут трансформировать их бизнес, люди — что большие данные изменят их жизнь и мир в целом. Скорее всего, эти ожидания не оправдаются, и через некоторое время мы увидим разочарование в big data. А потом большие данные найдут путь для того, чтобы действительно изменить наши бизнесы. Однако не так радикально, как нам кажется сейчас.

Показать ещё новости
Радіо НВ
X