Кликер-тренинг с точки зрения науки. Как это работает?
Автор: Чикурова Евгения
Обзор статьи Lynna C. Feng, Tiffani J. Howell, Pauleen C. Bennett «How clicker training works: Comparing Reinforcing, Marking, and Bridging Hypotheses» // Applied Animal Behaviour Science 181 (2016)34-40
Кликер-тренинг или дрессировка с помощью кликера — сравнительно недавнее изобретение Карен Прайор, которое становится все более популярным. Австралийские ученые, чью статью мы выбрали для очередного выпуска Дайджеста, проанализировали более 50 работ, как посвященных кликер-тренингу (в их числе еще неопубликованная книга по нему) лабораторных и домашних животных, так и фундаментальным работам по научению, из которых, собственно идея кликер-тренинга и выросла. На этой основе был сделан ряд предположений о том, как именно работает кликер-тренинг, как он помогает или мешает обучению, и как его лучше использовать.
Существует несколько гипотез, которые могут объяснить, как условные сигналы могут облегчить процесс обучения. Авторы рассматривают три из них: 1) гипотеза условного (вторичного) подкрепления, 2) гипотеза маркера события (подчеркивание нужного тренеру поведения животного), и 3) гипотеза «мостика» — согласно которой кликер «заполняет паузу» между нужным поведением животного и его «материальным» поощрением.
Наиболее вероятной и простой в употреблении оказалась одна, она же получила подтверждение на основании одной из современных физиологических теорий. Поэтому я расскажу вам о ней, как наиболее полезной для практики. Если вам интересны и другие теории, вы найдете их в первоисточнике.
К сожалению, авторы не рассматривали более привычную для русского читателя теорию условно-рефлекторного поведения (по Павлову), поэтому будет интересно сравнить некоторые их выводы с теорией, привычной нам.
На основе чего появился кликер-тренинг.
В основе него лежал «закон эффекта» Торндайка (1911): любое действие, вызывающее удовольствие в определённой ситуации, ассоциируется с ней и в дальнейшем повышает вероятность повторения данного действия в подобной ситуации, неудовольствие же (или дискомфорт) при действии, связанное с определённой ситуацией, приводит к снижению вероятности совершения этого акта в похожей ситуации. Впрочем, на него авторы не сослались, а предпочли
формулировку Скиннера (1938): если животное после какого-то поведения получит подкрепление (поощрение), то это поведение оно станет демонстрировать чаще, чем то, которое привело его к нежелательным последствиям (наказанию). (Тут, конечно же, есть ряд оговорок и исключений, через 20 лет экспериментов от второй часть его отказались, но мы на это отвлекаться не будем).
Опыт над белыми крысами (Grice,1948) показал, что задержка поощрения на 10 секунд снижает скорость обучения. Крысы, получающие поощрение немедленно, научались решать поставленную перед ними задачу в среднем за 20 повторений, а с задержкой в 10 секунд – в среднем за 580. Крысы, которые получали поощрение с опозданием, но получали вскоре после правильного поведения сигнал, который сообщал им, что еду они вот-вот получат, учились справляться с задачей в среднем за 155 повторений.
Далее авторы ссылаются на работы Прайор от конца 90-х годов прошлого века и сообщают, что тогда возникла идея кликера, как устройства, которое (вне лабораторных условий) подавало бы животному сигнал о том, что его вот-вот покормят. Первое подобие кликера (это был свисток у тренеров дельфинов) у нее был описан в работе 1975 года (книга «Несущие ветер»).
«Кликают», сразу же, как только произошло желательное поведение, и далее, как можно скорее животное получает еду.
Профессионалы часто используют кликер, как вторичное подкрепление; как маркер (нужного поведения); или как «мостик» (поясняющий животному, что его скоро поощрят «материально», т.е. оно получит первичное подкрепление) (Pryor, 2009).
Облегчает ли кликер-тренинг обучение?
Карен Прайор (Pryor, 1999) утверждает, что с помощью кликера животные учатся быстрее. Но что говорят исследования?
Существуют исследования, где сравнивали скорость обучения проверяемой группы животных, которым подавали предварительный сигнал кликером (дальше я ее буду называть кликер-группой) и контрольной группы животных, которых обучали прямым или первичным подкреплением (едой или водой). Два исследования были проведены с лошадьми (McCall and Burgin, 2002; Williams et al., 2004), одно с карликовыми козами (Langbein et al., 2007), и два с собаками-компаньонами (Smith and Davis, 2008; неопубликованные данные Blandina, n.d.).
Только одно из этих исследований (то, что на карликовых козах) показало, что животные из кликер-группы учатся достоверно быстрее, чем животные из контрольной группы.
В случае с собаками одно исследование (неопубликованные данные Blandina) показало, что контрольная группа учится быстрее, чем животные из кликер-группы, но статистики по этим данным нет, поэтому непонятно, достоверны ли эти отличия.
В других исследованиях достоверных различий между кликер-группой и контрольной группой по скорости обучения не было найдено. (Так и хочется добавить – а если не видно разницы, зачем платить больше?)
То есть, обучение с кликером идет или с той же скоростью, что и с прямым подкреплением (собаки и лошади), но также кликер может способствовать ускорению обучения (у коз) и замедлению его (у некоторых собак).
Стоит учесть, что связь сигнала с первичным подкреплением в этих исследованиях считалась установленной за 20 повторов. При этом нигде не оценивалась эффективность именно такого количества связи сигнала с прямым подкреплением у этих видов животных. Кроме того, для такого рода исследований всегда берут необученных животных. Ясно, что собака, с которой занимались кликер-тренингом (и она хорошо знает «правила игры») может обучаться очень быстро, но исследовать ее трудно – практически нереально отследить возникла ли у нее ассоциативная связь между задачей, условным и безусловным стимулом или она догадалась, что хочет хозяин по его взгляду, неосознанным жестам, опыту уже освоенных похожих трюков.
Сигналы, которые использовались для поощрения лабораторных животных, отличались от щелчка кликера. В исследованиях Скиннера (1938) голодная крыса научилась связывать предупредительный сигнал с пищей с первого предъявления. 20 повторений потребовалось для того, чтобы крыса связала предупредительный сигнал с поощрением водой со вкусовыми добавками. В дальнейшем Скиннер использовал от 50 до 200 повторений для того, чтобы крыса выучила сигнал, как поощрительный.
Гипотеза условного или вторичного подкрепления.
В отличие от прямого или первичного подкрепления (пищи, воды), которое имеет изначальную ценность для животного, условное или вторичное – это изначально нейтральный стимул (щелчок кликера), который, при соединении с первичным подкреплением, со временем станет для животного столь же ценным. То есть, вторичное подкрепление становится наградой само по себе (временно или навсегда — тема отдельных исследований).
Теоретически любой нейтральный для животного стимул может стать вторичным подкреплением. И тогда он сможет обеспечить поощрение животному независимо от его местоположения или позы. Spence (1947) предположил, что все обучения с отсроченным подкреплением происходят в результате немедленного вторичного подкрепления.
Является или нет сигнал вторичным подкреплением, можно определить стандартными методами (Williams,1994): измерить скорость обучения, установить, как долго при поддержке него задачи решаются правильно (сохраняется нужное поведение), и проверить возможность сформировать новое поведение при поддержке только сигнала.
В 4 работах (с 1938 по 1999 годы, в разных лабораториях), проведенных на крысах, показано, что в группе крыс, которых обучали с использованием сигнала+пищи обучение шло достоверно быстрее, чем в контрольной группе (подкрепление только пищей).
В 7 исследованиях на крысах нужное поведение при поддержке только сигнала сохранялось дольше у группы, которую обучали с сигналом+пищей по сравнению с контрольной группой
Сохранялось нужное поведение дольше и у голубей (2 исследования из 2).
Обучение новой задаче только на сигнале, Скиннер провел на 4 крысах. 60 повторов с уже знакомой задачей сигнал подавался одновременно с первичным подкреплением. Затем крысам дали новую задачу и правильные решения поощряли только сигналом. Крысы обучились ее решать довольно быстро, но после 30-50 испытаний только с сигналом — перестали ее решать.
По той же схеме эксперимента, с поощрением одним лишь сигналом, обучались решать новые задачи крысы в еще двух исследованиях, и мартышки.
McCall and Burgin (2002) подтвердили, что сигнал не работает как поощрение неопределенно долгое время. В их исследовании лошади из группы кликер+пища, работали лучше, чем лошади только на прямом подкреплении, но через полчаса работы производительность у обеих групп оказалось одинаковая. (Читая эту часть я, выражаясь ненаучным языком, «выпала в осадок». Лошадей целый час заставили решать логические задачи. Да кроме удовольствия от поощрения есть еще простое утомление!)
Далее авторы рассуждают о том, почему условное подкрепление не может быть эффективным постоянно, а я думаю: все это как раз четко ложится в рамки учения об условном рефлексе, который без поддержания имеет свойство ослабевать.
Физиологический подход.
Если этологи изучают поведение, глядя на объект, то физиологи смотрят на влияние химических процессов в организме на поведение. Я люблю, когда оба подхода объединяют (а если еще генетику добавляют, вообще красота получается), поэтому с интересом прочла то, что авторы «нарыли» в работах по физиологии.
(Domjan, 2003) определил, что дофамин играет определенную роль во внутренних процессах вознаграждения и мотивации (вообще-то это еще в учебнике по физиологии от 1992 года, по которому я училась, было написано, ну ладно).
Сейчас у физиологов в моде теория действия дофамина от Шульца (Schultz, 1998): ошибочно предсказанной награды. Получили эту теорию так: у обезьян вырабатывали условный рефлекс по Павлову (наконец-то!) и при этом следили за активностью дофаминовых нейронов. Когда она увеличивается — животное получает удовольствие.
Обезьяны в эксперименте получали стимул, а затем в рот им впрыскивали сладкий сок. Удалось выяснить следующее:
В процессе обучения активность дофаминовых нейронов увеличивалась, когда обезьяна получала сок неожиданно, или после сигнала.
Когда условный рефлекс был сформирован, выяснилось, что активность дофаминовых нейронов возрастает уже после подачи сигнала и до впрыскивания сока. Дальнейшее получение сока (после сигнала) не влияло на активность нейронов.
А вот если после сигнала сок обезьяна не получала, активность дофаминовых нейронов снижалась.
То есть, на физиологическом уровне была подтверждена гипотеза условного подкрепления.
Но если прямое подкрепление задержится сильно, уровень дофамина снизится. И значение сигнала, как вторичного подкрепления – обесценится.
Дальнейшие исследования (Stauffer et al., 2015) показали, то, что Шульцу (Schultz, 1998) обнаружить не удалось: дофаминовый ответ имеет две составляющие. Первая — увеличение уровня дофамина в ответ на стимул, и, вторая — еще одно увеличение уровня, когда получается обещанная награда или падение уровня – если обещанной награды нет. Это еще предстоит исследовать, но похоже, что для нормального действия условного подкрепления (кликера) у нас есть время поощрить животное прямым подкреплением до того момента, как начнет снижаться уровень дофамина, выросший на условном подкреплении.
В целом все это соответствует теории Павлова об условных рефлексах: есть нейтральный стимул (световой или звуковой сигнал), есть безусловный раздражитель (еда, вода, удар током) и физиологический ответ на него, и если долгое время нейтральный стимул будет подаваться с безусловным раздражителем, то через какое-то время физиологический ответ будет возникать на нейтральный стимул. Со временем, если безусловный раздражитель будет исключен надолго, нейтральный стимул перестанет вызывать физиологический ответ. Однако теперь мы узнали еще немного о том, как физиологически возникает связь между условным и безусловным стимулом.
Замечу, что в экспериментах Павлова и Скиннера есть сходства, и есть различия. Мы сравниваем здесь выводы только в том, в чем они действительно похожи – как нейтральный стимул становится условным (в результате чего собака начинает обращать внимание на щелчок кликера). Но обучение происходит иначе. Когда собака проявляет инициативу, принимает участие в процессе собственного обучения, ее мотивации (и их физиологическая основа — дофамин, эндорфины) отличаются от обучения, где собака – объект к которому применяют «безусловные раздражители».
Итак, вывод, который вы можете сделать из этой части статьи: при кликер-тренинге
во время щелчка кликера у собаки активируются дофаминовые нейроны, так что она действительно получает удовольствие, когда находит «правильный ответ».
Карен Прайор (Pryor, 1975) сообщает, что если за поведением не всегда следует поощрение едой (вариативный режим подкрепления), то животное начинает заниматься азартнее. Также возрастает интерес к занятиям, если животное изредка получает «большой куш» (большое количество первичного подкрепления).
Мне самой не раз приходилось убеждаться, что куш и вариативный режим подкрепления работают. С точки зрения разобранных здесь теорий непонятно, как это происходит. Почему кратковременная отмена лакомства и куш заставляют работать азартнее? Но есть ведь и другие теории (например, теория значимого стимула у физиологов). Что ж, будем ждать, когда кто-нибудь подробно разберет их в связи с кликером!
Спасибо за репост! 🙂