Прирост информации и энтропия в науке о данных

Фундаментальная теоретическая конструкция получения информации и энтропии является основой науки о данных. Целью данной статьи является описание ее применения и ограничений при анализе данных.

Использование и примеры

Первый тип применения можно рассматривать как метод оценки вероятности в виде прогнозов точечных процессов. Рейтинг энтропии наблюдаемого результата с прогнозом вероятности p равен –log p (Fan et al., 2011). Если p получено на основе вероятностной модели, то существует базовая модель с вероятностью того же события (Fan et al., 2011). Тогда логарифмическая пропорция log(p/) представляет собой прирост правдоподобия, а его прогнозируемое значение — прирост информации для этого результата (Fan et al., 2011). Вероятность системы и уровень ее энтропии являются тесно связанными понятиями (Дейли и Вер-Джонс, 2005). Когда рассматриваемыми результатами являются частота или вероятность неудачи эпизодов в рандомизированном точечном процессе, исследуются связи между этими понятиями (Buscemi, Das and Wilde, 2017). Среднее увеличение данных в единицу времени, прогнозирование которого производится в настраиваемые дискретные моменты времени, ограничено выше коэффициента энтропии набора точек в этом контексте (Инь и Си, 2017). В результате приведенная выше информация представляет собой одно из потенциальных применений методологии.

Рисунок 1. Изображение демонстрирует график со случайно сгенерированными точками на нем, а также систему координат x и y, которые определяют положение этих точек в двумерном пространстве. Рисунок 2. В том же пространстве, которое показано на рисунке. 1 происходит расщепление, разделяющее все точки на две отдельные группы – левую и правую.

Прирост информации, как и примесь Джини, представляет собой древовидную метрику обучения. Эти метрики точно оценивают качество разделения, показанного на рисунке 2. Например, если у кого-то есть данные на рисунке 1, интересно подумать о том, что произойдет, если данные будут разделены при x = 1,5. На рисунке 2 показано, что разделение неполное: четыре синие точки слева, одна синяя и пять зеленых точек на правых ветвях. Тем не менее, не существует устоявшегося метода определения степени эффективности разделения (Козак, Кания и Ющук, 2020). Таким образом, для количественной оценки вида разделения необходимо использовать прирост информации и энтропию; пример, упомянутый выше, демонстрирует использование классификации примесей Джини и разделения.

Рисунок 3. График Пьетросанто и др. демонстрирует структуру РНК, изображая ее стебли и другие различные значения (2021 г.)

Семейство пре-микроРНК RF02021, также известное как mir-3179, имеет структуру капсида с центральной шпилькой, размер которой варьируется. Короткая внутренняя петля также подвержена изменениям, но из оценок замен можно сделать вывод, что ее часто заменяют более благоприятными структурными контекстами (рис. 3). Существует несколько сценариев: zBEAR имеет лучшие показатели RIG, чем полный алфавит, из-за более грубой кодировки (Pietrosanto et al., 2021). На базовом уровне абстракции фундаментальные выравнивания имеют набор сохраненных мест (Pietrosanto et al., 2021). Например, в контексте стебля нуклеотиды занимают такие места, но признаки более тонкого уровня не благоприятны с точки зрения замены (Оладышкин и Новак, 2019). В результате несколько длин стеблей совпадают, хотя пропорции задействованных ветвей редко встречаются вместе.

Контексты структурирования не сохраняются, когда низкие оценки RIG связаны с алгоритмами сжатия частиц по размеру, а высокие значения связаны с детальным кодированием. Такие сайты включают в себя множество различных контекстов, таких как внутренние петли, стебли и шпильки, хотя их рейтинг замещения с более высокой степенью специфичности приемлем (Reddy and Chittineni, 2021). Когда задействованы шпильки различной длины, это может быть условием для структуры 5′-шпильки, которая может быть сопоставлена ​​с 3′-концом эквивалентного 5′-стержня (Crevecoeur, 2019). Следовательно, этот конкретный пример объясняет, как увеличение данных и энтропия используются в двух направлениях: анализ РНК и оценки RIG.

Некоторые неравенства ограничивают то, насколько успешно ученые могут обращаться с физическими системами для достижения любой желаемой цели в физике. Примерами могут служить энтропия, второй закон термодинамики, ограничения в теории квантовой связи и теория возмущений квантовой механики (Рихтарикова и др., 2016). Недавние опубликованные научные результаты физически улучшили эти ограничивающие утверждения, влияя на то, насколько успешно можно попытаться исправить необратимый процесс (Новозин, 2012). Реализация и расширение этих результатов позволяет добиться значительных улучшений в многочисленных энтропийных неравенствах, таких как энтропийное возмущение, прирост информации, прирост энтропии и полная положительность динамики нелинейных динамических систем (Новозин, 2012). Непосредственным результатом в этой ситуации является остаточный член для увеличения энтропии квантового канала (Чичарро и Панзери, 2017). В результате использование предложенных методов анализа данных принесет пользу упомянутому выше исследованию.

Ограничения и неточности

Однако использование прироста информации и энтропии имеет свои недостатки и ограничения. При изучении обстоятельств полученная информация всегда была направлена ​​вверх (Отте и др., 2017). Обычно это происходит, когда два элемента сталкиваются: один имеет небольшую выборку и многочисленные уровни переменных, которые вычисляются неравномерно, а другой имеет большую выборку (Otte et al., 2017). В большинстве случаев причина заключается в том, что в большинстве случаев получается наивный информационный сбор или выборочная оценка (Провост и Фосетт, 2013). В результате на это с высокой вероятностью повлияют различия наблюдаемых вероятностей от теоретических. Наблюдаемые отклонения правдоподобия будут преувеличены, если меньшее количество наблюдений будет приводить к более переменным уровням. Эти выводы показывают два существенных недостатка: предвзятость выборки и выявление обстоятельств.

Кроме того, существует ограничение, которое в большей степени влияет на энтропию, а не на прирост информации, хотя в данном конкретном случае они согласованы. Существует ограничение, которое в основном влияет на энтропию, а не на получение информации, но в этой ситуации они связаны (Müller, 2020). Комбинация энтропии системы и изменений ее окружения, S sys + S sur, может быть только больше или равна нулю для любого процесса (Müller, 2020). Снижения энтропии космоса никогда не будет (Мюллер, 2020). Со временем произойдет S iso = S sys + S sur 0 (Müller, 2020). Таким образом, теоретическая невозможность расчета случаев, связанных с отрицательным спектром, ограничивает возможные возможности анализа.

Список литературы

Бушеми Ф., Дас С. и Уайлд ММ (2017) «Приблизительная обратимость в контексте прироста энтропии, прироста информации и полной позитивности», Physical Review A, 93 (6), 062314. Web.

Чичарро Д. и Панзери С. (2017) «Синергия и избыточность в двойной декомпозиции взаимного получения и потери информации», Entropy, 19 (2), 71. Web.

Кревекёр, Гу (2019) «Рост энтропии и получение информации в операционных организованных системах», AIP Advances, 9 (12), 125041.

Дейли, Дж., и Вер-Джонс, Д. (2005) «Оценка вероятностных прогнозов для точечных процессов: оценка энтропии и прирост информации», Journal of Applied Probability, 41 (A), 297–312.

Фан, Р. и др. (2011) «Подходы к получению информации на основе энтропии для обнаружения и характеристики взаимодействий/корреляций ген-ген и ген-окружающая среда сложных заболеваний». Генетическая эпидемиология, 35(7), 706-721.

Козак Дж., Кания К. и Ющук П. (2020) «Энтропия перестановок как мера прироста/потери информации в различных символических описаниях финансовых данных», Entropy, 22 (3), 330. Web.

Мюллер, Дж. Г. (2020) «Обнаружение фотонов как процесс получения информации», Entropy, 22 (4), 392. Web.

Новозин, С. (2012) «Улучшенная оценка прироста информации для индукции дерева решений», arXiv, 1206.4620. Веб.

Оладышкин С. и Новак В. (2019). «Связь между байесовским выводом и теорией информации для выбора модели, получения информации и планирования эксперимента», Entropy, 21 (11), 1081.

Отте и др. (2017) «Энтропийные стратегии физического исследования степеней свободы окружающей среды», IEEE/RSJ, стр. 615–622.

Пьетросанто, М. и др. (2021) «Относительный прирост информации: основанная на энтропии мера относительной структурной консервативности в выравнивании РНК», NAR-геномика и биоинформатика, 3 (1), lqab007. Веб.

Провост Ф. и Фосетт Т. (2013) Наука о данных для бизнеса: что вам нужно знать об интеллектуальном анализе данных и аналитическом мышлении. О’Рейли Медиа, Инк.

Редди, Г.С., и Читтинени, С. (2021) «C4, основанный на энтропии. Алгоритм 5-SHO с оптимизацией получения информации при интеллектуальном анализе данных». PeerJ Computer Science, 7, e424. Веб.

Рихтарикова Р. и др. (2016) «Получение точечной информации и анализ многомерных данных», Entropy, 18 (10), 372. Web.

Инь К. и Си Дж. (2017) «Модель максимальной энтропии для классификации мобильного текста в облачных вычислениях с использованием улучшенного алгоритма получения информации», Мультимедийные инструменты и приложения, 76 (16), 16875-16891. Веб.

Прокрутить вверх