Получение информации при исследовании поведения клиентов
Введение
Получение информации является полезным методом прогнозирования поведения клиентов и позволяет лучше ориентироваться и продавать продукты. Тем не менее, у этого метода имеются некоторые ограничения.
Обсуждение
Чистота данных и возможность повторения проблем являются одним из ограничений использования полученной информации в будущем. Организация ранее уже сталкивалась с такой проблемой, и нет никаких гарантий, что это не повторится. Это стало причиной необходимости очистки данных, что привело к дополнительной работе и затратам времени на получение информации. При дальнейшем сборе данных необходимо убедиться в том, что информация чистая, правильно разделена и классифицирована, чтобы к ней можно было легко получить доступ и использовать ее в будущем.
Другая проблема связана со сложностью данных. Это связано, прежде всего, с наличием в информации, собираемой организацией, как категориальных, так и числовых значений. Это может привести к проблемам с возможностью правильной категоризации и оценки данных (Lutes, 2020). Более того, атрибуты, из которых состоит набор данных, являются независимыми переменными, которые могут сильно исказить результаты анализа, поскольку их значения могут не повлиять на фактическую релевантность прогноза (Сантини, 2015). Между тем, процедуры анализа, связанные с получением информации, по-прежнему будут использовать эти данные, и необходимо адаптировать процессы соответственно возможным проблемам.
Переобучение является распространенной проблемой при получении информации, и ее следует учитывать во всех возможных случаях. Эта проблема связана с тем, что модели прогнозирования способны адаптироваться к оцениваемой информации, что часто приводит к неправильным прогнозам (Bramer, 2007). Тем не менее, необходимо отметить, что это не вина отдельных моделей, а скорее человеческий фактор. Выбор модели и ее адаптация к набору данных должны проводиться с учетом того, чтобы избежать чрезмерной сложности изменений в модели (Провост и Фосетт, 2013). Эти модификации обычно являются основной причиной возможной переобучения и должны выполняться осторожно и уместно. Основным методом, который следует использовать во избежание переобучения, является тестирование разработанной модели на контрольном наборе.
При получении информации предпочтение отдается атрибутам, имеющим множество возможных значений. Потенциальные группы риска атрибутов практически неизбежны. Так обстоит дело в рассматриваемой организации, и существующим атрибутом такой категории является идентификатор. Причина этого кроется в независимости идентификаторов от каких-либо факторов и большом разнообразии их значений (Tang, Alelyani, Liu, 2014). Это может привести к тому, что модель окажется слишком предвзятой для оценки информации на основе этого атрибута, что приведет к тому, что энтропия будет близка или равна нулю (Бушеми, Дас и Уайльд, 2016). Подобные проблемы приводят к невозможности использования информации, полученной в результате анализа, и их следует избегать.
Заключение
Ограничения по удобству использования информации описаны в случае работы с данными Amazon. Этот случай подчеркивает проблемы, с которыми приходится сталкиваться при работе с данными для их подготовки к получению информации и прогнозированию поведения клиентов (Здравенски и др., 2020). Необходимо разработать и внедрить методы, позволяющие правильно классифицировать и преобразовывать данные для извлечения из них каких-либо знаний, что и продемонстрировано в статье. Другой случай, связанный с продажей одежды, подчеркивает проблемы, связанные с модификациями моделей и их склонностью к переобучению, создавая алгоритм, свободный от этих проблем (Sun et al., 2015). Это примечательно с точки зрения того, как модель должна быть разработана с учетом потребностей бизнеса в правильном прогнозировании поведения клиентов.
Список литературы
Брамер, М. (2007) «Как избежать переобучения деревьев решений», Принципы интеллектуального анализа данных, стр. 119–134.
Бушеми Ф., Дас С. и Уайлд ММ (2016) «Приблизительная обратимость в контексте прироста энтропии, прироста информации и полной позитивности», Physical Review A, 93(6), стр.062314.
Лютес, Дж. (2020) Энтропия и прирост информации в деревьях решений. Веб.
Провост Ф. и Фосетт Т. (2013) Науки о данных для бизнеса: что вам нужно знать об интеллектуальном анализе данных и аналитическом мышлении. Севастополь, Калифорния: O’Reilly Media.
Сантини, М. (2015) «Лекция 4. Деревья решений (2): энтропия, прирост информации, коэффициент прироста» (презентация PowerPoint). Веб.
Сунь Ф., Лю Ю., Сюриган С. и Чжан К. (2015) «Исследование прогнозирования и анализа продаж одежды на основе алгоритма дерева решений ID3», на Международном симпозиуме по компьютерам и информатике.
Тан Дж., Алеляни С. и Лю Х. (2014) «Выбор функций для классификации: обзор», Классификация данных: алгоритмы и приложения.
Здравевски Э., Ламески П., Апанович К. и Сльзак Д. (2020) «От больших данных к бизнес-аналитике: пример прогнозирования оттока клиентов», Applied Soft Computing, 90, 106164.