La dopamine dans les apprentissages - Partie 3

Un élément qui porte souvent à confusion quand on parle des quadrants du conditionnement opérant c’est que… A un moment, on a fini d’apprendre. On donne un code, le cheval exécute un comportement qu’il sait être la bonne réponse… Et voilà. Un comportement acquis ne peut pas être renforcé de la même manière qu’un comportement en cours d’apprentissage.

C’est devenu une habitude.

Il n’y a donc plus d’erreur de prédiction, ni de surprise, et par conséquent… plus de pic de dopamine. Ce procédé (qui s’appelle le surentraînement) permet de solidifier les réponses et de les rendre plus indépendantes de la présence d’un renforcement. Même si de notre point de vue, il se passe exactement la même chose, le cerveau du cheval, lui, vit les choses de façon très différente.

La formation des habitudes est la 3e étape du processus d’apprentissage (après l’acquisition du comportement et la formation des liens entre l’action et son résultat). Un comportement qui est devenu une habitude n’a plus besoin d’être renforcé à chaque répétition pour se maintenir. Néanmoins, s’il ne l’est plus jamais, il risque tout de même de s’éteindre. Chaque comportement existe pour une raison !

Les études que j’ai pu lire sur les ratios de renforcement qui ne sont pas du 1-1 (un comportement = un renforcement) ont été faites avant cette phase de formation des habitudes, et montrent donc une dégradation du temps de réponse, ou de la qualité de la réponse, en absence de renforcement. Que ce soit avec la nourriture ou avec la pression, il vaut mieux ne pas être trop pressé de s’en passer, au risque de perdre les résultats acquis !

(Opinion liée à ma propre expérience : la plupart des débutants en clicker training ou ceux pour qui “ça ne marche pas” ne renforcent pas assez et/ou s’arrêtent beaucoup trop vite de le faire.)

Surentrainer un comportement est donc un avantage : cela veut dire que, dans une certaine mesure, on peut se passer de renforcement (nourriture ou pression) de façon plus régulière sans pour autant dégrader la qualité de la réponse.

Cependant, le surentraînement a aussi des désavantages : il peut réduire la flexibilité avec laquelle l’animal va être capable de donner une réponse. Par exemple, un cheval peut être incapable de reproduire un comportement pourtant acquis dans un contexte différent, ou avec une personne différente.

Un bon entraînement est donc un équilibre précaire entre un élément de surprise qui va marquer le cerveau du cheval plus longuement grâce à l’impact de la dopamine, et des habitudes qui rendent le travail prévisible, ce qui contribue à garder un cheval serein et moins “branché” sur le besoin de renforcement.

Dans la dernière partie de cette série sur la dopamine et l’apprentissage, je parlerai de “désapprendre” : le phénomène d’extinction !

Sebastian D. McBride a, Matthew O. Parker b, Kirsty Roberts c, Andrew Hemmings “Applied neurophysiology of the horse; implications for training, husbandry and welfare” Applied Animal Behaviour Science 190, (2017): 90-101

https://www.sciencedirect.com/science/article/abs/pii/S0168159117300655