cointegrated (cointegrated) wrote,
cointegrated
cointegrated

Category:

Праздник воинствующего байесианства (2/2)

Продолжаю обсуждать книгу Probability theory: the logic of science.



В первой части книги мы потратили кучу времени на подтверждение корректности байесовского подхода:

Здесь "прайор" (prior) - это те релевантные знания о мире, которые у нас были до получения данных. Остался только вопрос: как представлять эти самые априорные знания в виде вероятностных распределений? Один принцип нам уже известен - принцип симметрии, который работает, когда мы знаем только список возможных исходов и не можем предпочесть один другому. Но если, кроме этого, мы ещё априори знаем матожидание какиих-нибудь величин, как включить это в нашу картину мира? На помощь приходят методы максимальной энтропии. Интуиция в том, чтобы наше априорное распределение было наиболее "вероятным" при условии ограничений, но что такое "вероятность распределения" (попахивает метаметафизикой)? Рассмотрим такой эксперимент: возьмём m банок, и случайным образом раскидаем по ним n шаров, n>>m. Тогда можно считать, что мы сгенерировали распределение . Вероятность конкретно такого исхода задаётся мультиномиальным распределением, но, если мы теперь устремим n к бесконечности, мы получим . Как известно, эта величина называется энтропией, а распределение, обладающее максимальной энтропией - наиболее вероятно в смысле такого эксперимента! Народ начал активно считать энтропию всего, чего угодно, после Шеннона, который показал, что это единственная мера "непредсказуемости" распределения, обладающая свойствами непрерывности, возрастания по числу равновероятных вариантов, и аддитивности при выделении условных вероятностей из безусловной. Имея какие-то ограничения на распределения, энтропию можно максимизировать методом множителей Лагранжа. Распределение с максимальной энтропией отражает максимальную нашу неопределенность относительно рассматриваемого явления, т.е. готовность к любым исходам. "Вероятность" появления в природе какого-то распределения экспоненциально зависит от его энтропии, поэтому распределения с максимальной энтропией встречаются чаще всего.

Ещё один хороших способ задавать априорные вероятности - это принцип трансформационных групп, звучащий так: если в двух задачах мы имеем одинаковую априорную информацию, мы должны задавать в них одинаковые априорные вероятности. Следовательно, априорное распределение должно быть устойчиво к трансформациям одной задачи в другую. Типичные "геометрические" трансформации - это параллельный перенос, поворот и смена масштаба. Например, если мы хотим, чтобы вероятность p(x|u, s) была нечувствительна к сдвигу на b и умножению на a (u'=u+b, s'=sa, x'-u'=a(x-u)), то с необходимостью она имеет форму p(x|u,s)=1/s h((x-u)/s). Вероятности от этого не меняются, если априорное распределение на u,s пропорционально 1/s (распределение Джеффриса). К сожалению, это "несобственное" распределение - оно не нормализуется. Наложение таких ограничений позволяет, например, получить однозначное решение задачи Бертрана (какова вероятность, бросив случайную прямую на окружность, получить хорду длиннее, чем сторона вписанного равностороннего треугольника), которая в противном случае однозначного решения не имеет.

Теория вероятности, в общем-то, нужна, чтобы принимать решение в условиях неопределённости. Принятие решение обычно завязано на оптимизацию какого-то целевого критерия - "функции полезности" или "функции потерь". Первым толково об этом сказал миру Даниил Бернулли, в своём "петербургском парадоксе" положив полезность от денег, пропорциональную логарифму денежной суммы. И, кажется, это действительно самый адекватный подход. Вальд, исходя исходно совсем не из байесовского взгляда на дело, пришёл к тому, что рациональная стратегия принятия решения в условиях неопределенности может быть только байесовской, т.е. максимизирующей матожидание полезности при каком-то априорном распределении неизвестных параметров. Рациональная (admissible)- значит, нет такой другой стратегии, что при любых значениях неизвестного параметра моя стратегия даёт ожидаемую полезность не больше (и где-то строго меньше), чем эта другая. Таким образом, разумное фреквентистское принятие решений всегда можно описать в байесовских терминах. Конечно, в ряде задач можно выбирать такой алгоритм a(x) оценивания (estimator) неизвестного параметра а по данным x, что матожидание E_x Loss(a(x),a) минимально. Но проблема в том, что в общем случае это матожидание зависит от неизвестного настоящего параметра a, и поэтому эффективный алгоритм просто не определён! Байесовское же оценивание очень простое - найти постериорные вероятности p(a|x), и минимизировать матожидание потерь по этим вероятностям. То есть вся работа происходит с произведением трёх функций - априорных вероятностей, правдоподобия, и функции потерь. Больше ничего не нужно. В случае выбора из двух гипотез для принятия решения необходимо сравнить отношение правдоподобия этих двух гипотез с порогом, получаемым как произведение априорного отношения шансов этих гипотез, и отношения потерь в случае ошибок первого и второго рода. Прелесть такой схемы в том, что в неё легко включить любую дополнительную информацию, как показывает автор в задаче с виджетами.

В ортодоксальной теории вероятностей есть ряд парадоксов, связанных, например, с неконгломерабельностью (среднее больше максимума). Автор показывает, что эти парадоксы рождаются из неаккуратного обращения с математикой: переходов к пределу без определения лимитирующего процесса. Лично мне глава про парадоксы показалась неинтересной: автор, кажется, написал её ради самоутверждения путём наезда на чужие работы, а практически полезных выводов в ней мало, кроме того, что надо быть аккуратными.

Автор долго описывает биографию классических авторов в теорвере, особенно Фишера, и показывает, в каких условиях зародились их методы, и почему они плохо применимы к более общим условиям (а байесовские методы применимы, конечно, всегда). Социологическое наблюдение: если раньше учёные вынуждены были нанимать специально обученных статистиков, чтобы сделать inference, то теперь можно делать всё самостоятельно, пользуясь фундаментальными принципами и софтом. И лучше делать самостоятельно, ибо статистиков есть за что ругать.

Например, можно поругать несмещённые ошибки: в погоне за несмещённостью, статистики забывают минимизировать разброс, и в итоге часто получают далеко не самые точные оценки (впрочем, регуляризация, не обязательно байесовская, это фиксит - но байесовская наиболее логична). Беда с несмещённостью ещё в том, что она не сохраняется при замене параметров. Наконец, несмещённые оценки при определённых данных могут быть просто нелогичными. Одна из важных основ классической статистики - это неравенство Рао-Крамера; оно показывает, какие оценки являются наиболее эффективными. Оказывается, оно обращается в равенство, если использовать распределения с максимальной энтропией - вот мы и получили конструктивный способ описания эффективных оценок! Наконец, можно поругать статистиков-практиков: они любят "фильтровать" данные (например, очищать от сезонности), прежде чем решать задачи (например, измерять тренд). Автор показывает, что два эти являения могут быть связаны, а значит, анализировать их надо одновременно. Автор говорит, что байесовские методы это делают, потому они могучи (и объясняет, как надо делать - обычный регуляризованный МНК). Впрочем, классическими методами можно сделать точно так же.

Ещё одна интересная тонкость вероятностного мышления в том, что указание вероятности может не описывать полную картину информации, которой я обладаю. На вопросы "с какой вероятностью на Марсе была жизнь?" и "с какой вероятностью симметричная монетка падает орлом?" я отвечаю одинаково: 50%. Но, например, три решки подряд практически не изменят моего второго ответа, а вот три геологические находки на Марсе могут изменить первый ответ почти до 100%. Такие явления можно описать, если считать эту вероятность p параметром, и присваивать ему какую-то плотность распределения f(p). Тогда моя оценка p равна просто матожиданию Ep, но одному и тому же матожиданию могут соответствоать совсем разные распределения. Получение новой информации просто меняет f(p) по правилу Байеса. В случае с бинарными утверждениями можно считать априорную f(p) равномерной, тогда при наблюдении n успехов в N экспериментах, постериорная f будет бета-функцией с матожиданием (n+1)/(N+2). Это соответствует Лапласовскому правилу преемественности (rule of succession), и применимо, только если априори мы ничего не знаем о двух альтернативах (кроме того, что их две), и все эксперименты независимы. Это правило можно обобщать на более сложные эксперименты или более содержательную априорную информацию. Любая последовательность экспериментов, вероятность которой заменяема (зависит от числа исходов различного типа, а не от их взаиморасположения в последовательности) может быть описана через f(p) и биномиальное распределение.

Задача взаимного расположения Юпитера и Сатурна, которую в своё время решил Лаплас, сводилась к оценке 8 параметров по 75 противоречивым наблюдениям. В наше время такие задачи называются избыточно определёнными, и могут быть решены путём "обобщенного обращения" матриц. Допустим, что все наши наблюдения имеют случайную погрешность (если мы знаем про неё только среднее и разброс, то лучше всего считать её гауссовской - энтропия максимальна). Тогда нам надо взять какое-нибудь неинформативное распределение неизвестных параметров, и просто рассчитать их постериорное распределение. Если все входные распределения гауссовы, то оно - тоже, а параметры находятся по МНК с регуляризацией в стиле ridge (квадратичной). Тот же самый подход применим и к недостаточно определённым задачам (неизвестных больше, чем наблюдений). Дисперсия постериорного наблюдения показывает точность оценки.

Научившись оценивать по-байесовски параметры моделей, нам теперь хочется научиться сравнивать разные модели друг с другом. Постериорное отношение шансов двух моделей M1 и M2 при данных D и прайоре I напрямую выводится из формулы Байеса: . Здесь , где тэта - неизвестный параметр в модели Mi. Пока что я не сказал ничего необычного, но необычное возникает, когда мы смотрим на отдельно взятую модель Мi: при её применении на практике мы обычно оперируем оценкой максимального правдоподобия тэта* (она же является байесовской модой и иногда матожиданием при неинформативном априорном распределении) ,. Сравнивая две модели, мы могли бы сравнивать только лучшие их "достижения" , как это часто делается, например, в эконометрике. Однако такое сравнение не совсем корректно: некоторые модели могут подогнать тету* под данные очень чётко... и получить оценку параметра, априори совсем неправдоподобную. Как говорять технари - переобучиться. Именно для учёта склонности модели к переобучению можно использовать "множитель Оккама" . Интуитивно этот множитель показывает, какая доля априорной вероятности сосредоточена в окрестности наиболее правдоподобной теты. Причём тут Оккам? Да при том, что чем сложнее модель, тем проще ей загнать тету* куда-нибудь в невообразимую задницу, и тем больше тогда получится W. Тогда наш критерий сравнения моделей превращается в дробь . Хорошая модель - это априори подходящая, правдоподобная, и не склонная к переобучению. Всё чётко. Каждый множитель можно рассматривать и интерпретировать по отдельности.

Интересно приложение байесовских методов для работы с выбросами. Мы можем считать, что доля p наших данных x порождена истинным распределением f(x|theta), а доля 1-p - шумом g(x|mu). Нас интересует только параметр theta, а p и mu важны лишь постольку поскольку. Если считать априорную p равной 1, то никаких выбросов не существует, и все данные важны. Если считать p довольно далёкой от 1, то, возможно, есть точки, которые вообще не важны для оценки theta, и их надо выкинуть, чтобы они не мешались. Выбрав адекватные априорные распределения неизвестных параметров, вы можете записать постериорное распределение theta. Оно будет относиться к выбросам адекватно: не выкидывать их совсем, но и не обращать на них слишком много внимания. Общую формулу для этого постериорного распределения предлагаю вам выписать самим в качестве простого упражнения.

Последняя глава в книге Джейнса посвящена теории коммуникации. Есть некий канал, через который отправитель может посылать получателю различные символы, складывающиеся в сообщения. Мне, как инженеру канала, важно число W(t) различных сообщений, которые можно передать по каналу за время t. Число возможных сообщений растёт экспоненциально с ростом числа символов (т.е. с ростом t), и пропускную способность (бит в секунду) можно обозначить как предел 1/t log(W(t)). Оказывается, если каждый символ i должен встречаться с частотой f_i, то эта способность пропорциональна энтропии распределения f_i. Ровно тот же результат достигается, если каждый символ передаётся не за равное время, а за пропорциональное f_i. Как это можно применять? Например, выбирать для часто встречающихся символов короткие обозначения, чтобы максимизировать пропускную способность. По такому принципу была создана, например, азбука Морзе пару столетий назад. Для радиоинженеров или создателей архиваторов это крайне насущная задача и сегодня. Её ещё можно усложнить, если допустить, что канал может быть шумным - искажать некоторые сигналы. Тогда для их восстановления требуются контрольные суммы, и оптимальный размер этих контрольных сумм можно получить опять же вероятностными методами. Мораль: теория вероятности как логика может использоваться для оптимального решения самых различных задач, даже близко не связанных со "случайными экспериментами".


Общие выводы, которые можно сделать после прочтения:
  1. Теории вероятностей действительно достаточно для хорошего описания любой человеческой интуициию. Если качественного описания не получается - значит, и интуиция была плохой.
  2. Теорвер даёт оптимальный ответ для любой поставленной задачи. Но чтобы её поставить, надо сформулировать целевую функцию и априорные распределения. Если ты не можешь их сформулировать, тогда твоя задача не задача - уникального решения у неё просто не может быть.
  3. К счастью, для формулировки логичных априорных вероятностей есть ряд техник, таких, как максимзиация энтропии. Но чтобы их осознанно и свободно применять, нужно ботать матан.
  4. К счастью, в век компьютеров можно минимизировать количество матана, используя методы Монте-карло. Поэтому применять байесовские методы может любой тупой кодер.
  5. Но теорию вероятностей всё равно лучше ботать, ибо самое сложное - это правильная постановка задачи, а для неё нужна мощная интуиция. Работа с фундаментальным теорвером эту интуицию хорошо развивает.

Желаю вам хорошей интуиции и счастья!
Subscribe

  • The defining decade: why your Twenties matter - and how to make most of them now. Meg Jay.

    Книгу эту можно назвать практическим пособием по взрослой жизни для новичков. Она написана американским психотерапевтом, и подводит итог…

  • Цифровой путь в светлое будущее

    Верховный алгоритм. Педро Домингос. На этой неделе (а на самом деле ещё осенью) я прочитал удивительную книгу - наверное, лучшее введение в машинное…

  • Ивашково

    Сегодня я снова побывал на своей липовой родине - в селе Ивашково Шаховского района Московской области. Об этом и рассказ. Встал необычно рано для…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic
  • 0 comments