Виктор Яценко
Виктор Яценко

Руководитель проекта информационной системы «Экосистема»

Россия должна стать не только ключевым логистическим транспортным узлом планеты, но и одним из мировых центров хранения, обработки, передачи и защиты информационных массивов — «больших данных» (big data). 

В.В. Путин

Что такое Большие Данные? 

Большие данные (Big Data) – современное технологическое направление, связанное с обработкой крупных массивов данных, которые постоянно растут. Big Data – это сама информация, методы её обработки и аналитики. Перспективы, которые может принести Big Data интересны бизнесу, маркетингу, науке и государству. 

На сегодняшний день большие данные являются одним из ключевых факторов развития информационных технологий. Это направление относительно новое для России, однако оно получило широкое распространение в западных странах. 

Введение самого термина «большие данные» связывают с Клиффордом Линчем, редактором журнала Nature, подготовившим в 2008 году специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству». 

В широком смысле о больших данных говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объём данных, и вытекающих из этого трансформационных последствий. 

Источники больших данных 

Классическими источниками больших данных признаются интернет и социальные медиа. Считается также, что большие данные могут происходить из внутренней информации предприятий и организаций (генерируемой в информационных средах, но ранее не сохранявшейся и не анализировавшейся), из сфер медицины и биоинформатики, из астрономических наблюдений. 

В качестве примеров источников возникновения больших данных приводятся непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов, потоки сообщений из социальных сетей, метеорологические данные, данные дистанционного зондирования Земли, потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио и видеорегистрации. Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления. 

Формула Big Data: семь «V» 

В качестве определяющих характеристик для больших данных выделяют: 

Volume (объем) – накопленная база данных представляет собой большой объем информации, который трудоемко обрабатывать и хранить традиционными способами, для них требуются новый подход и усовершенствованные инструменты. 

Velocity (скорость) – данный признак указывает как на увеличивающуюся скорость накопления данных (90% информации было собрано за последние 2 года), так и на скорость обработки данных. В последнее время стали более востребованы технологии обработки данных в реальном времени. 

Variety (многообразие) – возможность одновременной обработки структурированной и неструктурированной разноформатной информации. Главное отличие структурированной информации – это то, что она может быть классифицирована. Примером такой информации может служить информация о клиентских транзакциях. 

Неструктурированная информация включает в себя видео, аудио файлы, свободный текст, информацию, поступающую из социальных сетей. На сегодняшний день 80% информации входит в группу неструктурированной. Данная информация нуждается в комплексном анализе, чтобы сделать ее полезной для дальнейшей обработки. 

Еще недавно трех «V» было вполне достаточно. Но все на свете изменяется, в том числе и подходы к определению. Поэтому аналитики присовокупили еще четыре «V», чтобы избежать недопонимания. Итак, в определение были добавлены Veracity, Variability, Visualization, Value. Рассмотрим каждый из этих пунктов. 

Veracity – достоверность данных. Все большее значение пользователи стали придавать значимость достоверности имеющихся данных. Так, у интернет-компаний есть проблема по разделению действий, проводимых роботом и человеком на сайте компании, что приводит в конечном счете к затруднению анализа данных. 

Variability – изменчивость. Здесь речь идет о том, что значение одних и тех же данных может различаться в зависимости от контекста, например, одни и те же слова в социальных сетях могут иметь различные значения и отражать различные настроения. Мы должны учитывать все нюансы! Для того чтобы выполнить правильный анализ настроений, алгоритмы должны быть в состоянии понять контекст и быть в состоянии расшифровать точное значение слова в этом контексте. 

Visualization – визуализация. Это необходимая часть анализа, поскольку именно визуализация делает большие данные доступными для человеческого восприятия. Визуализация больших объемов сложных данных гораздо более эффективна и понятна для человека, чем электронные таблицы и отчеты, полные чисел и формул. Конечно, визуализация в рамках Big Data не означает построение обычных графиков или круговых диаграмм: возможно, будут построены сложные графики, которые будут включать в себя множество переменных данных, однако они все равно останутся понятными и читаемыми. 

Value – ценность накопленной информации. Большие данные должны быть полезны компании и приносить определенную ценность для нее. К примеру, помогать в усовершенствовании бизнес-процессов, составлении отчетности или оптимизации расходов. 

Для чего нужны большие данные? 

Главная задача работы с большими данными – анализировать и направлять. Большие данные помогают решать следующие задачи: 

• повышение производительности труда; 

• точная реклама и оптимизация продаж; 

• прогнозирование ситуаций на внутренних и глобальных рынках; 

• совершенствование товаров и услуг; 

• улучшение логистики; 

• качественное таргетирование клиентов в любой сфере бизнеса; 

• и многие другие. 

Большие данные делают услуги удобнее и выгоднее как для продавцов, так и для покупателей. Предприятия могут узнать, какая продукция популярнее, как сформировать ценовую политику, когда лучшее время для продаж, как оптимизировать ресурсы на производстве, чтобы сделать его эффективнее. За счёт этого клиенты получают точное предложение «без воды». 

Большие данные в РФ 

В 2019 году Национальный центр информатизации в сотрудничестве с Группой компаний «Форпост» и Ассоциацией участников рынка больших данных разработали дорожную карту по развитию в России сквозной цифровой технологии (СЦТ) больших данных. 

В дорожной карте выделено шесть субтехнологий больших данных, в логике развития которых и сформирован документ: 

· технологии, обеспечивающие прослеживаемость и интероперабельность данных (Субтехнология сбора данных представляет из себя ряд технологий, включающих стандарты, протоколы и системы сбора данных из различных источников, обеспечивающих прослеживаемость данных от источника до потребителя, включая интероперабельность данных); 

· программно-определяемые (распределенные) хранилища данных (Субтехнология хранения данных представляет из себя программно-определяемые хранилища данных (SDS). SDS включает в себя пулы виртуализированных хранилищ с характеристиками, которые могут быть заданы через управляющий интерфейс); 

· технологии обработки, утилизации данных с использованием AI, ML (Субтехнология обработки и управления данных включает в себя технологии обработки и утилизации данных с использованием искусственного интеллекта (AI) и машинного обучения (ML). Данные технологии представляют из себя класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задач, а обучение в процессе применения решений множества сходных задач. Для построения таких методов используются средства математической статистики, численных методов, методов оптимизации, теории вероятностей, теории графов и различные техники работы с данными в цифровой форме. Готовность российских технологий в данной сфере находится на шестом уровне – на три шкалы ниже, чем зарубежных. Это единственная субтехнология, где российские разработки заметно отстают от зарубежных); 

· технологии обогащения данных (Также в состав субтехнологии обработки и управления данных входят технологии обогащения данных. Готовность российских разработок в этой сфере находится на восьмом уровне – на одно деление ниже, чем готовность зарубежных решений.); 

· предиктивная аналитика (Частью субтехнологии вывода данных является предиктивная аналитика. Это финальное и самое ответственное звено в извлечении пользы из больших данных для бизнеса и государства. Готовность российских разработок в данной сфере находится на восьмом уровне, отставая от уровня готовности зарубежных решений на одно деление). 

По каждой из субтехнологий определены цели развития и ключевые показатели эффективности. 

Использование технологий больших данных к 2024 г. внесет вклад в российский ВВП в размере 4,2 трлн руб., подсчитали авторы дорожной карты. При этом по большинству субтехнологий больших данных российские разработки находятся практически на одном уровне готовности с зарубежными.

Наш сайт использует файлы cookies, чтобы улучшить работу и повысить эффективность сайта. Продолжая работу с сайтом, вы соглашаетесь с использованием нами cookies и политикой конфиденциальности.

Принять