Отрицательное подкрепление и наказание
«Закон эффекта» («вероятность повторения реакции, за которой следует подкрепление, возрастает, а вероятность повторения реакции, за которой следует неприятное последствие снижается»), предложенный Торндайком в 1913 году лег в основу бихевиористского подхода к научению животных. Исходя из этого закона, известный ученый Фред Скиннер, дал свое определение «подкреплению». Он считал, что подкрепление – это любое событие, которое совпадая по времени с определенным поведением, делает это поведение более частым. Таким образом подкреплением может быть и отдых, и морковь, и вода, и поглаживание: все, к чему лошадь только могла бы стремиться. Скиннер считал, что подобрав нужное подкрепление, можно научить животное всему чему угодно, только если оно способно выполнить это физически. О том, как это было опровергнуто я расскажу чуть позже. Сейчас важно то, что если поглаживание было бы лошади неприятно, то она бы училась избегать его. При таком определении подкрепления, приятное и неприятное действует на животное по одному принципу – делая какое-то поведение более частым. Поэтому «положительным подкреплением» принято называть стимул, который побуждает животное приближаться к нему, а «отрицательным подкреплением» — стимул, который животное старается избегать.
Многие ученые не считают нужным разделять «отрицательное подкрепление» и «наказание», считая, что это одно и то же. Другие указывают на несколько их различий. Наказание происходит после проступка животного, а отрицательное подкрепление – до. То есть, если вы хотите повернуть и натягиваете повод (неприятное давление трензеля на десну), то вы используете отрицательное подкрепление. Неприятное ощущение наступило до поступка (лошадь повернула). А если лошадь попыталась вас скинуть и вы ударили ее хлыстом, то вы использовали наказание (неприятное ощущение после сопротивления лошади). Второе существенное различие в том, что при использовании отрицательного подкрепления, у лошади всегда есть возможность уйти от неприятного ощущения, совершив нужное человеку действие. Наказание наступает после поступка и следовательно лошадь уже ничего не может изменить. В целом, взаимодействие человека и лошади очень сложно разделить на отдельные поступки и реакции. Например, вы едете по середине манежа. Лошади вдруг приходит в голову повернуть, что вас не устраивает. Вы чуть натягиваете повод и прижимаете шенкель (это было наказание?). Затем лошадь, поняв, что от нее требуется, снова идет прямо (или отрицательное подкрепление?). При обучении наказание не приносит пользы, в отличие от отрицательного подкрепления, которым мы пользуемся постоянно (на нем основана практически вся работа средств управления – поводом, шенкелем, перемещением центра тяжести). Но все же главное здесь не четкие формулировки, а стиль работы в целом.