Явление больших данных и проблемы безопасности

В эпоху интенсивного технологического прогресса много внимания стало уделяться явлению больших данных как новой многообещающей идеи для организации и обработки данных. Ссылка на рисунок 1 показывает, что общественный интерес к теме больших данных стал исключительно высоким за последнее десятилетие, что означает, что в этой терминологии все больше и больше пользователей становятся вовлеченными в эту терминологию. В общих чертах, большие данные следует понимать как постоянно увеличивающиеся наборы данных того же контекста, который можно собирать и представлены в разных форматах. В исследованиях нет универсального определения больших данных, так как его использование сильно варьируется в зависимости от научной области и значения применения. Сувармухи и Сешашайи определяют большие данные как «поле, связанное с анализом и обработкой большой информации, которая доступна из различных источников», и эта интерпретация этого явления аналогична вышеуказанному (Suvarnamukhi & Seshashayee, 2018, с. 712). Другое исследование сообщает, что большие данные являются «революционной концепцией для анализа данных, чтобы получить точные результаты и анализ в интересах людей во многих областях» (Desai, 2018, p. 737). Таким образом, типичная картина в определении термина заключается в том, что большие данные позволяют обрабатывать цифровые данные гигантских объемов для эффективного управления им.

Рисунок 1. Тенденции в Google запроса ключевого термина «большие данные» за последние восемнадцать лет

С такими объемами данных стратегии обработки становятся критически важными. Практическим решением является стратегия параллельной обработки, в которой несколько вычислительных устройств участвуют в одновременном выполнении нескольких фрагментов одной и той же программы — это позволяет значительно сэкономить время при обработке. Например, в то время как концепция больших данных применима к электронным медицинским записям, параллельная обработка клинических данных позволяет фрагментировать общую задачу в анализ моделей личных данных пациентов, исследования финансовой стабильности учреждения, HRM, стратегического планирования и ряда других микро-заданий, которыми помогают управлять большие данные. Понятно, что делегирующие задачи увеличивают проблемы кибербезопасности, поскольку, естественно, создает необходимость большего доступа к стратегически важным данным, увеличивая риски человеческих и технических ошибок (Le et al., 2018). То есть, на самом деле, кибербезопасность становится уязвимой в среде обработки параллельных данных, потому что она создает открытую систему, которая подвержена кибератаке и внутренним ошибкам.

Сбор данных и обработка не всегда унифицированы, потому что данные могут существовать в неструктурированных и структурированных формах. Неструктурированные данные — это данные, которые размещаются в хранилищах (озера данных), не классифицируются, неупорядочен и собираются с приемных устройств «как есть». Этот тип данных не сгруппируется в форматы или категории, поэтому репозитории получают данные о различных формах, которые технически трудно анализировать без предварительного подготовки. Например, если весь архив электронной почты пользователя разгружен в качестве текстовой информации, такие данные не будут структурированы, хотя он строго текстовой. Противоположность — это структурированные данные, которые классифицируются и упорядочены, обычно по высокоорганизованным таблицам. Функция поиска проста в массиве таких данных, а отдельный компонент является семантическим и значимым. Данные, структурированные в виде таблиц, диаграмм и диаграмм, намного проще в использовании для последующего анализа и легче воспринимать при обработке.

Эта классификация может быть расширена путем добавления терминов «повторения» и «не повторных» данных. В целом, повторяющиеся данные должны быть определены как любые большие данные, будь то структурированные или неструктурированные, которые имеют тенденцию повторять с течением времени. Например, повторение неструктурированных данных — это данные, поступающие от датчиков электронных устройств. В отличие от таких неструктурированных, но повторяющихся данных, существуют также не повторные данные, которые сами по себе являются уникальными, например, элементами бизнес-соответствия или изображений. По аналогии, структурированные, повторяющиеся данные представляют собой любые высокоорганизованные массивы данных, которые можно систематически собирать, такие как ежеквартальные данные о заработной плате для сотрудников той же компании. В этом случае структурированные, но неповторимые данные могут быть, например, именами сотрудников в базе данных компании, поскольку они сохраняют требования к уникальности и организованы одновременно.

Каждый из описанных типов данных имеет бизнес -ценность. Структурированные и неструктурированные повторные данные позволяют отслеживать динамику бизнеса, в то время как данные не повторно используются для суммирования всех данных компании (все сотрудники в организации) и сформировать одну базу данных. Между тем, большие данные связаны с рисками кибербезопасности (Maayan, 2020). Это относится к вероятным угрозам атак DDOS и любым вредоносным ПО, которое направлено на кражу данных; Понятно, что потеря стратегических данных организации может стать кризисом для организации. Отсутствие структуры в данных также повышает уязвимость к кибератаке (Kish, 2019). В частности, хаос неструктурированных данных затрудняет защиту данных и использование унифицированных доменов безопасности.

Во время обработки больших данных следует различить три процесса, которые суммируются по аббревиатуре ETL: извлечение, преобразование и нагрузка. Первая фаза, извлечение, состоит из получения данных от внешних электронных устройств. За этим следует второй этап, преобразующий, в течение которого извлеченные данные преобразуются и очищаются в полезной формат для дальнейшего использования в бизнес -проектах. Наконец, наступает этап загрузки, в течение которого информация загружается в репозитории и другие репозитории, чтобы оставаться там до тех пор, пока они не заявили; Только часть данных, которые были преобразованы на предыдущем этапе, загружается. Существует несколько преимуществ для такой трехступенчатой ​​системы, поскольку она позволяет извлекать данные из нескольких источников одновременно, удобно адаптированные к бизнес-потребностям и последовательно использование вычислительной мощности; Между тем, ETL также связан с рядом рисков (Etleap, 2022). В частности, ETL довольно ресурсоемкий и трудно адаптироваться к изменениям, поскольку любые преобразования на одном уровне влияют на другие.

Ссылки

Desai, PV (2018). Опрос по приложениям и проблемам больших данных [PDF document]Полем Веб —

EtLeap. (2022). Аналитист-удобный и без обслуживания ETL. Веб —

Киш Д. (2019). Правда о неструктурированных данных. Журнал безопасности. Веб —

Le, DN, Khari, M. & Chetterjee, JM (2018). Кибербезопасность в параллельных и распределенных вычислениях [PDF document]Полем Веб —

Мааян, GD (2020). Безопасность больших данных: проблемы и решения. Dataversity. Веб —

Suvarnamukhi, B. & Seshashayee, M. (2018). Концепции и методы больших данных в обработке данных. Международный журнал компьютерных наук и инженерии, 6 (10), 712-714.