Выявление простейших причинно-следственных зависимостей

 

Серия наблюдений №1

 

Серия наблюдений №2

 

Серия наблюдений №3

X

Y

 

X

Y

 

X

Y

 

 

 

*

 

*

 

 

 

*

 

 

*

*

 

*

 

*

 

 

*

*

 

 

 

 

 

*

 

 

 

 

*

*

 

*

*

 

 

*

 

 

*

 

 

*

 

 

 

 

 

*

*

*

 

 

 

*

*

*

 

 

 

*

 

 

 

 

*

*

*

*

 

 

 

*

 

 

*

 

 

*

 

 

 

 

*

*

 

 

 

 

 

*

*

*

 

 

 

*

 

 

 

*

 

*

 

*

 

 

*

*

 

 

 

*

 

*

*

*

 

 

 

*

*

*

 

 

*

 

 

 

*

 

 

*

 

 

 

 

 

*

 

*

 

 

 

*

 

 

 

Серия наблюдений №4

 

Серия наблюдений №5

X

Y

 

X

Y

 

 

 

*

 

 

 

 

*

*

 

*

 

 

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

 

 

 

*

*

 

 

*

 

 

 

 

 

 

 

*

*

 

 

 

 

 

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

*

 

*

 

 

 

 

 

*

*

 

 

 

*

*

 

 

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

Пусть проведено 5 серий наблюдений. В ходе наблюдения проводился мониторинг событий X и Y. В выше приведенных таблицах  №1-5 представлены результаты различных серий наблюдений. Столбцам соответствуют события, а строкам наблюдения. Знак звезды означает, что событие было зарегистрировано в ходе наблюдения. Попытаемся найти, какие серии испытаний показывают наличие зависимости между X и Y. Будем искать причинно-следственную зависимость, выражаемую в виде правила “ЕСЛИ X ТО Y”. 

В результате анализа серии №1 можно увидеть, что в подавляющем числе случаев реализация события X не сопровождалась реализацией события Y. Можно сделать вывод, что серия испытаний №1 показывает отсутствие искомой зависимости. Тот же анализ серии №2 показывает, что в 5 из 6 числе случаев, реализация события X сопровождалась реализацией события Y. Но необходимо обратить внимание на то, что вероятность реализации события Y близка к 1. Это свойство делает вероятность P(Y/X) так же близкой к 1 и не позволяет нам говорить, что X может быть причиной Y, впрочем, обратное мы тоже утверждать не можем. Анализ серии №3 показывает, что вероятность события Y далека от 1 и во всех 6 случаях реализации события X наблюдалась реализация события Y. Это позволяет нам говорить о том, что событие X ведет к возникновению события Y.  Анализ серии №4 то же показывает, что вероятность события Y  далека от 1 и нет случаев, когда при возникновении события X не возникало событие Y. Но наблюдаемый случай совместной реализации X и Y всего один.  Этот случай мог быть просто случайностью. Следовательно, мы не в праве утверждать, что в серии №4 прослеживается искомая зависимость. В серии №5 на 3 случая совместной реализации X и Y приходится 3 случая, когда реализация события X не сопровождалась реализацией события Y. Следовательно, в серии №4 искомая зависимость отсутствует.

На основе приведенных выше неформальных рассуждениях можно  сформировать список неформальных требований достаточный для утверждения наличия причинно-следственной связи между произвольными событиями X и Y:

1.        Наблюдаемых случаев реализации события Y при реализации события X должно быть существенно больше, чем наблюдаемых случаев не реализации события Y при реализации события X. Данное требование можно записать как P(Y/X) >> P(не Y/X).

2.        Событие Y должно быть редким  P(Y) << 1

3.        Число наблюдаемых реализаций события X должно быть велико

 

Можем ли мы ввести обобщенный формальный критерий истинности гипотезы о том, что следствием X является Y? Велик соблазн применить аппарат теории вероятности. К сожалению, для этого потребуются дополнительные сведения о поведении вероятностей событий  X и Y. Зададимся вопросом, столь ли нам нужен статистически обоснованный критерий проверки гипотезы? Для процесса поиска зависимостей достаточно вести критерий предпочтительности. Вместо статистически обоснованного  критерия проверки гипотезы введем эвристический критерий, по которому можно сравнивать гипотезы на предпочтительность.

 

F=(P(Y/X)-0.5)*(1-P(Y))*N  (1)

Здесь P(Y/X) и P(Y) оцениваются по всей серии наблюдений, N – количество наблюдаемых реализаций события X

 

Первый сомножитель в формуле (1) соответствует первому требованию к утверждению о наличие причинно-следственной связи. Дополнительно он становится отрицательным, когда скорее X ведет к запрету события Y, чем наоборот. Так как остальные сомножители строго неотрицательны, то данное свойство не позволяет принять явно неверную гипотезу о наличие причинно-следственной зависимости “Если X то Y” даже если остальные критерии выполнены. Второй сомножитель в формуле (1) соответствует второму требованию к утверждению о наличие причинно-следственной связи. Третий сомножитель в формуле (1) соответствует третьему требованию к утверждению о наличие причинно-следственной связи.