Почему

22
18
20
22
24
26
28
30

Со времен Юма главный вызов заключался в следующем: как отличить каузальные и некаузальные паттерны осуществления событий? В 60–70-х годах XX века появились три основных метода, построенные на трудах Юма. Следствие редко проистекает от воздействия единственной причины, поэтому Джон Мэки[21] разработал теорию, представляющую собой набор условий, которые совместно производят следствия. Эта теория позволяет лучше исключить некаузальные взаимосвязи, исходя из сложности причин[22]. Точно так же многие каузальные взаимосвязи включают в себя элемент случайности, когда причины просто с большей вероятностью вызывают соответствующие следствия. Причем необязательно, что подобное будет происходить каждый раз (согласно вероятностным подходам Патрика Суппеса[23] и др.[24]). Юм также заложил основы контрфактуального подхода, задача которого – дать определение причины, исходя из того, насколько иными могли бы стать следствия, если бы причина не имела места[25]. Например, благодаря кому-то была достигнута победа в игре, поскольку без усилий этого конкретного игрока победить не удалось бы ни за что.

Кажется, что у всех этих философских трудов нет ничего общего с вычислительными методами, но это не так. Для компьютерщиков этаким святым Граалем в сфере искусственного разума стала возможность автоматизировать человеческое мышление, а ключевым элементом оказалось нахождение причин и формулировка объяснений. Это используется и в робототехнике (роботам нужны модели мира, чтобы планировать действия и предсказывать их последствия), в рекламе (компания Amazon лучше формулирует рекомендации для целевой аудитории, если знает, что заставило вас кликнуть по клавише «купить прямо сейчас») и медицине (врачи отделения интенсивной терапии моментально узнают, почему состояние пациента внезапно изменилось). И все же для разработки алгоритмов (последовательности шагов по решению задачи) мы должны конкретизировать проблему. Чтобы создать программу для выявления причин, требуется их рабочее определение.

В 1980-х годах группа специалистов по информационным технологиям под руководством Джуды Перла[26] доказала, что философские теории, определяющие каузальные взаимосвязи в терминах вероятностей, можно представить графически, обеспечив одновременно визуальное изображение причинных связей и способ кодирования математических зависимостей между переменными. Что еще важнее, эксперты предложили методы построения графических моделей на основе предварительного знания и методов их выведения из имеющихся данных[27]. Эти работы породили множество новых вопросов. Можно ли определить взаимосвязь там, где запаздывание между причиной и следствием – величина переменная? Если сами взаимосвязи со временем изменяются, что мы можем узнать? Кроме того, компьютерщики разработали метод автоматизации поиска объяснений, а также методы тестирования объяснений для каждой модели.

В последние несколько десятилетий заметен существенный прогресс, но многие проблемы по-прежнему не решены – главным образом потому, что нашей жизнью все в большей степени правит информация. Однако вместо тщательно выверенных баз данных, собираемых исключительно в рамках научных исследований, мы имеем дело с громадным массивом неопределенных сведений, полученных в результате простых наблюдений.

Представим на первый взгляд несложную проблему: определить социальный статус людей по данным Facebook. Первая сложность заключается в том, что этой социальной сетью пользуется далеко не каждый, так что вы изучите лишь определенную группу, которая может не быть репрезентативной для населения в целом. Вторая: не все используют Facebook одинаково. Кто-то вообще не указывает статус отношений, кто-то лжет, а кто-то просто не обновляет профиль.

Итак, возникла масса проблем с формулированием выводов о причинных зависимостях. Самые важные заключаются в поиске причин на основе неточных данных или данных, в которых отсутствуют необходимые переменные и результаты наблюдений (если мы не фиксируем фактов курения, не начнем ли выискивать другие условия, вызывающие рак легких?), сложных взаимосвязей (что происходит, когда для наступления следствия требуется целая последовательность событий?), а также причин и следствий нерегулярных ситуаций (что вызвало резкий обвал фондового рынка в 2010 году?).

Что интересно, именно массивы данных, к примеру электронные медицинские карты, сводят на одном поле здравоохранения специалистов как по эпидемиологии, так и по информатике, которые разбираются в факторах, влияющих на здоровье населения. Доступность исторических данных о состоянии здоровья больших групп населения – их диагнозы, симптомы, лечение, экологические условия проживания и многое другое – становится громадным преимуществом для исследователей, старающихся понять факторы, которые влияют на состояние здоровья, а затем использовать это понимание для плановых действий в здравоохранении. Соответствующие вызовы лежат одновременно в области планов клинических исследований (с традиционным упором на эпидемиологические аспекты) и в возможности делать эффективные и достоверные заключения на основе крупных наборов данных (здесь главное место отводится компьютерной науке).

Эпидемиология, с точки зрения стоящих перед ней целей, имеет долгую историю разработки методов выявления причин – начиная с Джеймса Линда, который выборочно обследовал моряков, чтобы узнать причины цинги[28], и Джона Сноу, который обнаружил, что холера передается через зараженную воду[29], до Коха, который выявил связь между бактериями и туберкулезом[30], и Остина Хилла, связавшего рак легких с курением и сформулировавшего инструкции по оценке каузальных утверждений[31].

Медицинские исследования в наше время основываются на данных больше, чем когда-либо в истории. И больницы, и отдельные специалисты, оказывающие врачебные услуги, переводят данные о пациентах из бумажных в электронные форматы, при этом они должны следовать определенным критериям их применения (например, на основе данных принимаются врачебные решения). И все же большинство задач по соответствию этим критериям включает в себя анализ больших и сложных массивов информации, для которого нужны вычислительные методы.

Нейробиологи имеют доступ к обширным объемам информации о мозговой деятельности, содержащимся в записях ЭЭГ и МРТ[32], и для их анализа берутся на вооружение методы из области экономики и информационных технологий. Данные ЭЭГ – это, по сути, количественные, числовые записи мозговой активности, которые структурно не слишком отличаются от информации фондового рынка, сообщающей цены на акции и объемы торгов в динамике. Клайв Грэнджер[33] сформулировал теорию причинности в терминах экономических временных рядов (и получил за это Нобелевскую премию), но сам метод не связан с экономикой и применялся также к другой биологической информации, например к биочипам для анализа экспрессии генов (на их основе измеряется динамика активности генов)[34].

Основная проблема в сфере экономики – определить, поможет ли реализация той или иной программы достичь поставленной цели. Это очень похоже на проблемы общественного здравоохранения, например попытки определить, поспособствует ли ограничение продаж газированных напитков борьбе с ожирением. Эта задача – одна из самых сложных, так как во многих случаях сам факт реализации программы инициирует изменения в системе.

В главе 9 мы увидим, как поспешное внедрение программы по сокращению размера учебных классов в штате Калифорния дало результаты, сильно отличавшиеся от тех, к которым привел первый эксперимент в Теннесси. Вмешательство может иметь положительный эффект при условии, что в остальном обстоятельства остаются прежними, а новая политика изменяет человеческое поведение. Если применение законов об использовании ремней безопасности снизило количество нарушений ПДД, а уровень смертности при этом поднялся, важно определить степень воздействия дорожного законодательства и решить, дать обратный ход жестким нормам или, напротив, ввести новые.

Наконец, для психологов выявление причин – как это работает, насколько по-разному действуют люди и животные, если осмысление дает сбой, – становится одним из ключей к пониманию поведения. Экономисты тоже стремятся понять, почему индивидуумы ведут себя так, а не иначе, в особенности когда дело доходит до принятия решений. Недавно психологи и экономисты совместно применили экспериментальные методы, чтобы изучить интуитивные воззрения на причинные взаимосвязи (в рамках научного направления, именуемого «экспериментальная философия», или X-Phi[35]).

Одна из главных проблем – выявление взаимосвязи между каузальными и моральными суждениями. Если некто подтасовал сведения в заявке на грант и получил финансирование, а другие, честные и достойные ученые – нет, потому что объемы средств ограничены, можно ли сказать, что причина неполучения ими гранта – тот самый мошенник? Стоит задаться вопросом о его виновности и о том, изменились бы наши взгляды на ситуацию, если бы жульничал кто-то другой. Понимание, каким образом формируются каузальные суждения, важно не только для лучшего представления о способе мышления, но и из практических соображений – к примеру, для разрешения разногласий, улучшения отдачи от теоретического обучения и практической подготовки[36] и обеспечения честных судебных разбирательств.

Как вы узнаете из этой книги, невозможно устранить все источники ошибок и смещений. Но реально эффективнее выявлять случаи, когда вмешательство этих факторов возможно, и учитывать последствия.

Зачем нужны причины

Причинам сложно дать определение, их нелегко отыскать – так в чем же заключается их смысл, почему мы в них нуждаемся?

Есть три основополагающие вещи, которые могут выполняться либо только по определенным причинам, либо лучше всего по определенным причинам: прогнозирование, объяснение и вмешательство.

Скажем, нужно предсказать, кто выиграет президентские выборы в США. Предлагаются всевозможные модели: к примеру, кандидат от республиканцев должен выиграть праймериз[37] в Огайо; ни один президент США со времен Рузвельта не был переизбран, если на тот момент уровень безработицы превышал 7,2 %[38]; в США на президентских выборах побеждали только кандидаты-мужчины (по крайней мере на момент написания этой книги)[39].

Но модели – всего лишь модели. Можно обнаружить неограниченное количество общих свойств у группы лиц, когда-либо побеждавших на выборах, но это не объяснит, почему победил тот или иной кандидат. Видимо, избирателям важен именно уровень безработицы; а может, этот факт просто дает косвенную информацию о состоянии дел в стране и экономике, и мы должны сделать вывод, что при высоком уровне безработицы люди стремятся к переменам? Хуже того, если выявленные зависимости оказываются простыми совпадениями, они в любой момент могут дать сбой. Кроме того, выводы базируются на ограниченном массиве данных; в США было только 44 президента[40], и менее половины из них переизбирались на новый срок.