Что такое Big Data
Big Data — это бесконечные объемы оцифрованной информации. В 2008 году редактор научного журнала Nature Клиффорд Линч рассказал о потоке «больших данных». Теперь этим термином описывают все, что копится и обрабатывается в сетях и ПК. Источники Больших данных — каналы, по которым мы получаем текстовые материалы, изображения, видео, аудио, графики:
-
интернет;
-
считывающие устройства, датчики, трекеры;
-
соцсети, СМИ;
-
данные со спутника и измерительных приборов;
-
облачные хранилища;
-
научные открытия, медицинские исследования;
-
статистика компаний, городов, государств.
Те данные, которые уже обработала нейросеть или аналитик, называют структурированными. Информационные ресурсы непрерывно растут, поэтому большая часть Big Data всегда не структурирована.
Data Science или наука о данных — это математический и статистический анализ. Цель этого процесса — обработать массивы неструктурированной информации и найти в них что-то ценное для конкретных задач.
Характеристики Больших данных
К основным признакам информации VVV — volume/объем, velocity/скорость, variety/разнообразие, со временем добавили еще три V — veracity/достоверность, variability/изменчивость, value/ценность. Сейчас актуальна еще одна характеристика — безопасность.
-
Объем. Материалы занимают терабайты и петабайты памяти. К 2025 году Big Data увеличится до 175 зеттабайт. Обрабатывают такие объемы через грид-вычисления («виртуальный суперкомпьютер»), нейросети, специальные формулы и программы.
-
Скорость создания. Данные быстро генерируются и постоянно обновляются в режиме реального времени. Все мы в этом участвуем: 66% людей пользуются сотовой связью, и 60% регулярно выходят в Интернет.
-
Разнообразие. Любые цифровые форматы (анимация, фильмы, транзакции, аудиофайлы, показания сенсоров) относятся к Big Data. Они могут быть упорядоченными или скапливаться хаотично. Data mining — процесс, который помогает найти закономерности и привести данные к единому виду.
-
Достоверность. Информация для анализа должна быть неподдельной, из надежных источников. Иначе результаты будут бесполезными.
-
Изменчивость. Большинство данных поступают не последовательно, со спадами и всплесками.
-
Ценность. Чтобы оценить пользу данных, их делят на две категории. Важные и сложные — финансовая аналитика, показатели медицинских приборов, статистика населения, сигналы со спутников. Второстепенные и простые — фотографии из соцсетей, комментарии под видео, городской справочник.
-
Безопасность. Файлы должны быть очищены от вирусов и защищены от взлома. Конфиденциальность данных волнует почти половину потребителей — 48% в 2019 году отказались от компаний, которые недостаточно заботятся о безопасности. И следующие 5 лет 74% предпринимателей планируют развивать этику работы с данными.
Как работает технология Big Data
Google разработали MapReduce — самую известную модель вычислений для Больших данных. На ее примере опишем технологию работы с Big Data:
-
Массив информации проходит через программные коды MapReduce.
-
Программа разделяет данные на форматы.
-
Параллельно обрабатывается каждая часть массива.
-
В финале все результаты объединяются на отдельном узле.
Искусственные нейросети пропускают через себя нужные материалы по этому же принципу. Они получают и обрабатывают новую информацию, то есть постоянно обучаются.
Как используют Big Data
Компании изучают своих пользователей, отслеживают мировые тенденции и делают прогнозы. Такие корпорации, как Google, Facebook, Microsoft, имеют больше данных для анализа Big Data благодаря широкой аудитории. Рассмотрим, как это работает в разных сферах.
Маркетинг. Большие данные в торговле помогают изучать предпочтения клиентов: какой товар пользуется спросом в будние и выходные дни, как меняются предпочтения из сезона в сезон. На основании результатов, гипермаркеты корректируют ассортимент, ценовую политику, оформление зала и рекламу. Так, Amazon проводит полную аналитику поведения своих покупателей, чтобы рекомендовать им подходящие товары.
Найм сотрудников. HR-аналитику проводят, чтобы вычислить текучесть кадров, загруженность персонала, каналы привлечения новых сотрудников. Рекрутеры обрабатывают много заявок на вакансии, собирают сведения о каждом кандидате, проводят собеседования, делают заметки и по результатам выбирают подходящих.
Банки анализируют поведение клиентов и предлагают выгодные кредитные условия.
Большие данные применяют и для безопасности платежей. Например, если пользователь снял крупную сумму далеко от его места жительства, банк может заподозрить, что карта попала в руки мошенников и временно заблокировать ее.
Медицина. В здравоохранении с помощью технологии можно собирать данные о привычках пациентов, об образе жизни, хирургических вмешательствах, амбулаторных обследованиях, а после — предлагать лечение.
Также Большие данные помогают анализировать МРТ, КТ снимки и анализы. И управлять медицинским персоналом: следить, сколько пациентов принимают врачи, какое лечение назначают и удается ли вылечить людей.
Госструктуры. Большие данные помогают следить за населением, выявлять преступников и мошенников. Например, можно проанализировать где, в какое время граждане чаще нарушают порядок и разработать график патрулирования.
Сведения о нарушителях получают через видеокамеры, GPS-датчики, анализ комментариев, публикуемого контента, сообществ в интернете.
Транспорт. Большие данные помогают системам навигации построить маршрут в объезд пробкам и просчитывают загруженность дорог. ГЛОНАСС собирает координаты, контролирует скорость движения. Так система Яндекс.Такси показывает водителю районы с высоким спросом.
Логистика. Здесь Big Data нужна, чтобы следить, успевают ли сотрудники принимать заказы, соблюдают ли сроки поставки и как заполняется склад. Для обработки используют машинные данные со сканеров посылок в почтовых офисах, а также отзывы людей в интернете.
Обработка фото. Программы для обработки фото считывают недостатки и автоматически корректируют их или предлагают фильтры, которые тоже работают на основании Больших данных. Есть приложения, в которые можно загрузить селфи и найти своего «двойника» или разыскать человека по фото. А в интернет-магазинах есть функция поиска похожих товаров.
В медиа Большие данные — это реакции пользователей на контент: лайки, репосты, комментарии, просмотры. Медиаресурсы научились предлагать пользователям то, что может их заинтересовать. Платформа Netflix учитывает продолжительность фильмов, жанр и даже паузы во время просмотра для подбора рекомендаций.
Методики анализа и обработки Больших данных
Машинное обучение и нейронные сети. Искусственный интеллект можно запрограммировать на распознавание лиц, математические расчеты, прогнозирование. Для этого нужны большие объемы достоверных данных из разных источников. Например, шахматист из Санкт-Петербурга загрузил сыгранные виртуальные партии в многомерную аналитическую модель и изобрел новую систему подготовки к турнирам. Так начинается много успешных стартапов.
Прогнозная аналитика. Чтобы сделать прогноз, аналитика использует шаблоны, которые построены на предыдущем опыте. С ней можно предсказать цену доллара, нефти или платежеспособность клиента банка.
Имитационное моделирование. Здесь нужно сымитировать изменения: в прошлых отчетах и графиках повысить или понизить показатель, например, цену продукта. Расчеты дохода и результаты отчетов будут меняться, так вы увидете риски.
Статистический анализ. Чем больше информации для статистики, тем выше достоверность. Статистика вычисляет средние значения. Также с помощью статистики можно определить закономерности (корреляцию).
Data Mining построена на:
-
классификации — разделении данных на группы;
-
кластеризации — поиск сходств;
-
ассоциации — распознавании похожих образов;
-
регрессионном анализе — поиск факторов, которые могут изменить результаты;
-
анализе отклонений — поиск нетипичной информации.
Визуализация аналитических данных — это финальный этап анализа. Результаты получают в виде 3D-модели, графика, диаграммы, карты и пиктограммы, гистограммы.
Описательная аналитика. Ее цель — изучать данные, которые поступают на компьютеры. Анализ Больших данных помогает понять, почему некоторые события приводят к успеху, а другие — к неудаче. Затем строится модель будущих действий и решений. Данные рекламных кабинетов — пример описательной аналитики.
Предписательская аналитика находит кризисные ситуации и рассчитывает, как избежать неудач в будущем, создает сценарии, которые помогают избежать повтора ошибок.
Диагностическая аналитика выясняет причины происходящего, находит между событиями взаимосвязь и аномалии.
Кто работает с Большими данными
Для работы с Big Data нужен навык программирования, опыт работы с системами баз данных и аналитики, знание языка java и математического анализа.
Дата-сайентист находит закономерности, строит модели и гипотезы и прогнозирует возможные варианты событий. Может предсказать, сколько товара будет продано магазином в сезонную распродажу, или какой погоды ждать в конце лета. Для этого дата-сайентист исследует статистику прошлых лет.
Аналитик данных проводит анализ, описывает результаты и приводит их в понятный для восприятия вид.
Дата-инженер организует сбор информации, хранение и первоначальную обработку.
Инженеры создают программное обеспечение, которое автоматизирует задачи исследования данных.
Проблемы и перспективы Big Data
Big Data помогает:
-
развивать новые технологии;
-
вести медицинскую статистику;
-
прогнозировать будущее компаний и государств;
-
отслеживать экологическую ситуацию;
-
создавать «умные» города и делать городскую среду комфортной.
Информации становится все больше, сведения для нейросетей постоянно обновляются. Для торговли это вечный двигатель: компании генерируют половину Больших данных, проводят исследования, результаты применяют для развития бизнеса и увеличивают их доход.
Из-за переизбытка информации с Big Data могут возникать проблемы. Например:
-
Не хватает вычислительной мощности. Обработкой Big Data занимаются специальные вычислительные компьютеры. Это дорогие ресурсы, которые доступны только компаниям-гигантам.
-
Вопросы приватности. Компании собирают информацию, в том числе и персональную. Многие пользователи против этого и даже обращаются в суд. Иски подавали на Google, Facebook.
-
Честность работы с данными и безопасность. Есть случаи, когда на данных пытаются нелегально заработать. Продают недостоверные клиентские базы или просто конфиденциальную информацию. В этом обвинили антивирусную систему Аваст. Хакеры взламывают серверы, которые хранят Большие данные, и данные попадают в третьи руки.
Что важно запомнить
-
Объем, скорость создания, разнообразные форматы, безопасность, ценность, изменчивость — главные признаки Больших данных.
-
Обработкой Big Data занимаются дата-аналитики, дата-инженеры и дата-сайентисты с помощью программирования.
-
Применяют Big Data в медицине, маркетинге, логистике и строительстве, навигации, госструктурах и медиа.
-
К минусам технологии можно отнести необходимость следить за безопасностью данных, поддерживать вычислительные ресурсы, приватность пользователей и клиентов компаний. А к плюсам — помощь в решение медицинских и экологических задач человечества, контроль распределения государственного бюджета, создание комфортной городской среды.
-
Перспективы Больших данных долгосрочные и многообещающие. Нейросети быстро развиваются и пользуются популярностью.