Наличие обширных баз данных дало возможность не просто проверить наши гипотезы, но и выявить причины. Важно, однако, отдавать себе отчет, что далеко не все сведения пригодны для формулирования выводов о каузальных зависимостях. В главе 6 мы увидим, как свойства данных влияют на возможные логические умозаключения, а в главе 7 узнаем, как преодолеть некоторые препятствия с помощью эксперимента, понимая под ним как сложные клинические испытания, так и простой выбор между планами спортивных занятий на бытовом уровне.
Различие между тем, что происходит «как правило», и тем, что бывает «в отдельном случае», и есть та проблема, для решения которой необходимы специализированные стратегии объяснения событий (это тема главы 8). Но использование причин для эффективного вмешательства (например, указание в меню сведений о калорийности блюд для профилактики ожирения) требует расширенного пула данных, а многие воздействия могут вызвать незапланированные последствия (как мы увидим в главе 9). Эта книга поможет вам осознать, почему поиски причинных зависимостей так трудны (а также имеют гораздо больше нюансов и намного более сложны, чем заставляют думать новостные СМИ) и почему, несмотря на всю сложность, эта задача настолько важна и имеет широкое прикладное значение.
Да, трудностей не миновать; но вы также увидите, что надежда на их преодоление остается. Вы получите набор инструментов: вопросы, которые следует задавать; «красные флажки», которые должны вызвать ваше подозрение; способы повышения достоверности каузальных утверждений. Вы научитесь не только определять причины, но и использовать их на практике.
Для чтения этой книги не нужны специальные знания, она для всех. От вас требуется лишь интерес к вопросам причинности. Моя цель – обеспечить всем желающим самый широкий доступ на пересеченную местность под названием «
В финале книги мы сосредоточимся на интуитивном подходе: как прийти к пониманию причинно-следственных связей, не прибегая к математическому аппарату (на самом деле математики не будет совсем). Если вы обладатель докторской степени по информационным технологиям или статистике, сможете найти для себя кое-какие новые инструменты и взглянуть на проблему под углом зрения сопряженных наук, а заодно пополните научный багаж методологическими инструментами. Но все же наш путь будет проходить под знаменем, на котором начертано: «Знания о причинности – для всех!»
1. Начало. Где коренятся представления о причинных зависимостях и методах их выявления
В 1999 году британский солиситор[4] Салли Кларк предстала перед судом по обвинению в убийстве двух своих детей. Первый сын умер внезапно в возрасте 11 недель в декабре 1996 года. Тогда это сочли смертью от естественных причин, но всего через год скончался и второй ребенок: ему было 8 недель. В обоих случаях дети казались в целом здоровыми, поэтому их внезапная гибель вызвала подозрения.
Обстоятельства были очень схожими: малыши умерли примерно в одинаковом возрасте, именно Салли Кларк обнаружила их бездыханными, дома с ними находилась она одна, и оба ребенка, согласно патологоанатомическому исследованию, имели травмы.
Изначально повреждения на теле первого мальчика объяснялись попытками проведения реанимации, но после гибели второго данные были пересмотрены, и ситуация показалась подозрительной. Через месяц после второй смерти обоих родителей арестовали, а позднее Салли Кларк обвинили в убийстве и вынесли приговор.
Какова вероятность того, что двое детей из одной семьи умерли от синдрома внезапной детской смерти (СВДС)? По мнению английских обвинителей, это событие настолько невероятно, что два подобных исхода могли быть только результатом убийства. Этот аргумент (одна из причин в такой степени невероятна, что могла иметь место только другая) и привел к событию, ставшему одним из знаменитых примеров несправедливого приговора. И это ярчайший образец того, к каким последствиям приводит неверное применение статистики и игнорирование причинных зависимостей.
Главная из причин, по которой этот случай получил широкую известность среди статистиков и исследователей вопросов каузальности, заключается в аргументе обвинения. Он был основан, по сути, на следующем:
Такая статистика совершенно неверна. Но, даже если бы она оказалась справедливой, все равно ее нельзя использовать так, как это было сделано.
Мидоу базировал свой вывод на научном докладе, в котором шансы СВДС оценивались как 1: 8543, а потом заявил, что вероятность двух смертей равна 1: 8543 × 8543, то есть примерно 1: 73 000 000[5].
Но эти вычисления ложны, потому что заключение опиралось на предпосылку о независимости двух событий, ставших предметом судебного разбирательства.
Когда вы бросаете монетку, то шанс выпадения «орла» не влияет на то, как монетка упадет в следующий раз. Поскольку вероятность каждого исхода всегда равна одной второй, математически корректно перемножить оба числа, если мы желаем узнать вероятность выпадения двух «орлов» подряд.
Именно это и сделал Мидоу.
Причины СВДС точно неизвестны, однако среди факторов риска указываются и окружающие условия: к примеру, курят ли родители, употребляют ли алкоголь. Это означает, что, если в семье был один случай СВДС, другой может произойти с вероятностью намного большей, чем 1: 8543, поскольку у детей общая генетика и одинаковые условия жизни. То есть первая смерть дает сведения о вероятности второй.
Представленный случай, таким образом, можно сравнить с шансами киноактера на получение второго «Оскара». Ведь награды присуждаются не случайным образом: скорее, те же свойства (талант, известность, связи), что обеспечили кому-то первую из них, повышают вероятность получения второй.
В этом и коренилась проблема дела Кларк. Поскольку оба события не были независимыми и, напротив, для обоих могла иметься общая причина, неверно рассчитывать вероятность простым умножением. Вместо этого, анализируя шанс второй смерти, следовало принять во внимание факт первой, а значит, определить допустимость СВДС в семье, где уже произошла подобная трагедия. Показатель вероятности и то, как его использовали, были столь явно и в высшей степени ошибочны, что при рассмотрении первой апелляции защита вызвала в качестве свидетеля профессионального статистика, а Королевское статистическое общество прислало письмо с выражением своих сомнений[6].
Неверные расчеты, однако, оказались не единственной проблемой, связанной с причинностью. Обвинители попытались поставить знак равенства между вероятностью некоего события (а именно двух СВДС) в 1: 73 000 000 и возможностью того, что Салли Кларк невиновна. Подобного рода ошибочное рассуждение, когда шанс события приравнивается к вероятности вины или невиновности, известно как «