cointegrated (cointegrated) wrote,
cointegrated
cointegrated

Category:

Праздник воинствующего байесианства (1/2)

Probability theory: the logic of science. E.T. Jaynes.

После трёх месяцев молчания (о, поверьте, это были весьма насыщенные месяцы!) я решил вернуться к бложику и рассказать о книге, которую дочитал сегодня. Это довольно математически нагруженный труд, повествующий о байесовском подходе к теории вероятностей. Это не учебник, т.к. содержит мало "рецептов" решений задачи, и много личных эмоций автора по поводу того, что правильно и неправильно в математике. Книга формирует много полезной интуиции, но, наверное, её стоит читать уже после ознакомления с "классическим" курсом теорвера и статистики.





Первая половина книги
пытается объяснить азы философии. Я постараюсь приблизительно передать её содержание, хотя это и не просто - автор пытается сказать очень много, и не всегда делает это удачно.

Человечеству давным-давно известна логика высказываний - удобный инструмент мышления. Но в большей части ситуаций нельзя сказать точно, является ли высказывание истинным, а можно лишь выразить ту или иную степень уверенности в этом. Авторы ставят задачу создать "робота", который оперировал бы неоднозначными высказываниями по правилам, подобным правилам классической логики. Этот робот должен: выражать степень уверенности в высказывании числами, непрерывными по степени уверенности, и монотонными по степени уверенности в условии, значения чисел не должны зависеть от способа их получения, должны использовать всю релевантную информацию, одинаковая информированность робота о высказываниях должна соответствовать одинаковым числам. Не факт, что люди мыслят именно так, но мы хотим получить "идеальный" безукоризненный способ мышления, которого хорошо было бы придерживаться, и который бы приводил к наилучшему результату.

Оказывается, из этих качественных требований можно вывести, что степень уверенности P лежит в интервале от 0 до 1 (с точностью до монотонного преобразования), и что (с точностью до степени) P(AB)=P(B)P(A|B) - правило произведения. Более того, P(A|B)+P(не A|B) = 1 - правило суммы. Наконец, если событие А разбивается на n событий, так, что имеющаяся информация не позволяет предпочесть одно другому, то вероятность каждого из них при условии А равна 1/n - принцип безразличия.  Степень уверенности мы будем называть вероятностью, но это не колмогоровское определение вероятности, основанное на элементарных событиях, а всего лишь отражение степени информированности о высказываниях. Другими словами, "в природе" вероятности не существует - это всего лишь описание нашего сознания. Тем не менее, по своим свойствам полученная сущность полностью совпадает с классической вероятностью.



Далее автор вводит эксперименты с вытягиванием шаров из корзин - гипергеометрическое распределение, биномиальное (гипергеометрическое с бесконечно большой корзиной), функцию распределения и матожидание. Автор подчёркивает, что равновероятность вытягивания шаров - это следствие не физического устройства шаров и корзина, а лишь нашего неумения предсказать следующий вытянутый шар, если мы потрясем корзину как следует.

Тестирование гипотез - это сравнение постериорных вероятностей гипотез (после того, как мы поглядели на данные). Например, можно сравнивать вероятности нормальной и дефектной работы станка, измеряя правдоподобие того, что он приизвёл при каждой из гипотез. Априорные вероятности - это то, что мы думали до данных; постериорные вероятности пропорциональны априорным, умноженным на правдоподобие данных при соответствующих гипотезах. Именно это называется теоремой Байеса и основой баейсовских методов, кстати. Если кусочки данных независимы, то каждый следующий меняет отношение шансов двух гипотез в константное число раз. Поэтому количество доказательства в пользу гипотезы удобно мерять в "децибелах" - пропорционально логарифму числа наблюдений. Если гипотез на самом деле больше чем две, то отношение шансов меняется нелинейно (хотя асимптоты линейные). В принципе, можно сравнивать бесконечно большое число гипотез (как предел конечного числа) - в этом случае вместо вероятностей удобно использовать функцию плотности. Тогда постериорная вероятность находится через интеграл.

Пример проверки гипотезы: наблюдаем телепатию. С каждым следующим успешным экспериментом вера в существование телепатии только падает. Почему? Подкрепляется уверенность в третьей гипотезе, о том, что эксперимент организован некорректно. Следовательно, одни и те же данные у разных людей могут вызывать разные выводы - в зависимости от прямой информации. Очень неправдоподобные данные вызывают к жизни новые гипотезы - таки и рождается новое знание. И всё это можно (и нужно!) делать в строгом соответствии с байесовскими законами.


На примере корзин с шарами рассматривается получение постериорного распределения неизвестных параметров - например, числа красных шаров. Рассматриваются разные априорные распределения - равномерное, урезанное равномерное, выпуклое и вогнутое.  Все они несут разную информацию, но приводят приблизительно к похожим результатам. Можно рассмотреть цепочку из двух распределений; наблюдается второе, выводы делаются о первом. В зависимости от структуры априорных представлений, данные могут менять или не менять ожидаемое распределение скрытых параметров. К сожалению, ортодоксальная статистика, отказываясь использовать априорные распределения, делает не такие логичные и полноценные выводы, как байесовская.

В качестве априорного распределения очень часто используется нормальное. Причина этого в том, что очень много различных действий над распределениями (сохраняющих их 1 и 2 моменты) делают эти распределения более похожими на нормальное. Пример тому - свёртка, описанная в ЦПТ; другие примеры - возведение в степень и преобразование Фурье. Есть несколько способов вывести нормальное распределение. Во-первых, для двумерного распределения можно потребовать независимости как декартовых, так и полярных координат друг от друга - тогда нормальная окружность будет определена с точностью до радиуса. Во-вторых, можно потребовать, чтобы точка максимума правдоподобия для центра по независимой выборке совпадала со средним арифметическим (оно же - результат МНК). Это значит, что нормальное распределение лучше всего выполняет взаимоподавление ошибок. В-третьих, это единственное распределение, которое сохраняет свою форму (с точностью до смены центра и масштаба) в результате свёртки. Нормальное распределение имеет смысл применять, когда мы не знаем об изучаемых величинах ничего, кроме примерно их среднего и дисперсии. Оказывается, нормальное распределение делает меньше дополнительных предположений (имеет наибольшую энтропию), чем любое другое распределение с теми же двумя моментами. Таким образом, использование нормального распределения оправдано не тем, что в реальном мире величины распределены так же, а тем, что оно хорошо отражает наши априорные знания о мире. Пример устойчивости нормального распределения - таким должно быть распределение роста людей, если в популяции действует эффект случайных отклонений и одновременно регресса к среднему, чтобы оно было стабильным (см. исследования Гальтона). Но в некоторых системах существуют сильные положительные обратные связи (например, чем глубже падает фондовый рынок, тем более пессимистичны инвесторы), и там стабилизации ждать не приходится. В той же самой биологии мы знаем, что популяция состоит из субпопуляций, которые могли бы принадлежать к разным видам - может ли быть такое, что каждая популяция имеет нормальное распределение внутри? Можем ли мы наилучшим образом выявить эти кластеры, разложив данное распределение на смесь нормальных? Оказывается, что без априорных предположений не можем - такое разложение не единственно. Но если мы, например, зафиксируем число компонент и потребуем одинаковые дисперсии в каждой, то получим k-means.

Нормальное распределение полностью определяется первыми двумя моментами в том смысле, что, зная выборочные среднее и дисперсию, мы знаем о нём столько же, как если бы знали значение каждой точки в выборке. Среднее и дисперсия называются в этом случае достаточными статистиками. В общем случае, достаточная статистика - такая функция от данных, что правдоподобие полностью через неё выражается. Достаточная статистика для какого-то параметра даёт (по неравенству Рао) наименьшую возможную среднеквадратическую ошибку. Однако в распределениях типа Коши достаточных статистик нету - из правдоподобия ничего не выносится. Если пользоваться байесовскими методами, можно говорить, что какая-то статистика является достаточной при использовании определенного семейства прайоров, но не в общем случае. Принцип правдоподобия - в том, что все выводы, которые можно сделать из данных, содержатся в функции правдоподобия. Для байесовских методов это так, а вот частотные методы (опираясь на p-value), его иногда нарушают, т.к. их выводы зависят от дизайна эксперимента (от неслучившихся событий). Вспомогательные статистики - те, которые не влияют на априорное распределение изучаемого параметра. Если руководствоваться принципом правдоподобия, они никак на него не влияют. Информация Фишера (вторые производные правдоподобия) - удобный способ измерить разрешающую силу экспериментов. Что ещё важно? Перемножать правдоподобие, только если данные реально независимы (см. историю про рост китайского императора). И вообще, включать голову - в принципе, вся книга об этом.

Есть куча философов, которые считали, что индуктивное мышление (экстраполяция опыта) невозможно. А что на самом деле? Возьмём нашего мыслительного робота и дадим ему результат n экспериментов подряд по k исходов (не рассказав о смысле всех n^k исходов) - тогда по неведению он решит, что все n^k исходов равновероятны, породив биномиальное распределение, а за ним нормальное, и так далее - всю классическую статистику. И это только плохо информированный робот! Что ещё интересного можно узнать про такие последовательности экспериментов? Пусть каждый исход j добавляет g_j к сумме чего-нибудь, нам важного. Какова вероятность, что общая сумма будет равна G? Число исходов, дающих такую сумму, делить на число всех исходов. Число исходов задаётся разностной системой линейных уравнений, которая имеет элементарные решения, которые можно описать через статистические суммы (partition function)  Z(lambda) = sum_j exp(-lambda g_j). Оказывается, эта самая статистическая сумма очень хорошо описывает распределение G. А число исходов с суммой G можно вычислить приближенно, при большом числе экспериментов n, как  exp(nH), где H = -sum f log(f) , где f- максимально вероятные из частот исходов, дающих G. Величина H, таким образом, показывает, как часто распределение f_i может встречаться, будучи сгенерированным путем равномерных экспериментов. Эта величина называется энтропией. Чуть более подробно про неё можно узнать, уйдя в статистическую механику, но нетехнарю типа меня это сложно. Зато что мы можем сделать - это понаезжать на ортодоксальную статистику, что она использует кривые тесты - измеряет p-value, не специфицируя нормально альтернатив. В качестве разницы между имеющимся f и модельным p распределением можно использовать кросс-энтропию -sum f log(f/p), но статистики чаще берут критерий хи-квадрат. В целом это близкие вещи, но хи-квадрат переоценивает важность очень редких событий по сравнению с байесовскими оценками и интуицией. А вообще, p-value использовать глупо, когда можно наблюдать отношение шансов конкурирующих гипотез в явном виде.


Изучение теории вероятностей часто опирается на эксперименты с монеткой. Однако попытка определить вероятность как частоту орлов в повторяемом эксперименте обречена на провал: кидая монетку разными ловкими способами, можно получить любую чистоту орлов. Если описать какой-то один конкретный способ кидания, и строго его придерживаться, то законы физики будут определять исход - всегда одинаковый! Если описывать менее конкретно - остаётся свобода для мошенничества. Значит, "случайность" вовсе не в физике монетки, а в  человеческой неспособности предугадать результат. Попытки перенести собственное незнание в природу автор называет mind projection fallacy - ошибкой проекции сознания. Явления типа квантовой неопределенности автор считает не физической реальностью, а результатом не очень удачного выбора языка, на котором наука говорит о такого рода явлениях. Вероятность 1/2 для монетки выбирается только из соображений симметрии - неизвестно причин предпочесть одну сторону другой. Можно знать, что монетка симметричная, а можно не знать ничего. И там, и там вероятности 1/2. Но результаты эксперимента влияют на картину мира по-разному. Про statistical inference (заключения о мироустройстве по данным) и конструирование априорных вероятностей - подробнее во второй части книги.

Subscribe

  • The defining decade: why your Twenties matter - and how to make most of them now. Meg Jay.

    Книгу эту можно назвать практическим пособием по взрослой жизни для новичков. Она написана американским психотерапевтом, и подводит итог…

  • Цифровой путь в светлое будущее

    Верховный алгоритм. Педро Домингос. На этой неделе (а на самом деле ещё осенью) я прочитал удивительную книгу - наверное, лучшее введение в машинное…

  • Ивашково

    Сегодня я снова побывал на своей липовой родине - в селе Ивашково Шаховского района Московской области. Об этом и рассказ. Встал необычно рано для…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic
  • 0 comments