La dopamine soutient le processus d’apprentissage en encodant ce qui s’appelle “les erreurs de prédiction”. Lorsque le cheval apprend un nouveau comportement, il ne sait pas encore ce que sera “la bonne réponse”. Il la découvre au moment de recevoir une récompense ou en se libérant de l’inconfort. C’est cet effet de surprise “waw top bien !” ou “ouf, j’ai réussi à me libérer de ce truc dérangeant” qui génère le pic de dopamine.
En renforcement positif, le pic de dopamine apparaît d’abord au moment de l’obtention de la récompense. Mais peu à peu, ce pic de dopamine va se déplacer vers le prédicteur le plus fiable de la venue du renforcement. Ok, c’est un peu prise de tête, donc prenons un exemple 👍 :
J’enseigne la jambette à mon cheval.
D’abord il va avoir cet effet “waw” au moment où il reçoit de la nourriture. S’il est bien entraîné au clicker, ce “waw” arrive même peut-être déjà au clic, plutôt qu’à la réception de la nourriture.
Ensuite, c’est le fait de faire une jambette qui va être lié au pic de dopamine (car il sait qu’après ça, il y aura clic et récompense). Et enfin, ce sera au moment du code même qu’il vivra ce “waw (car il sait ce que le code veut dire, qu’il va faire une jambette ensuite, qu’il sera clické, et donc qu’il obtiendra sa récompense).
Durant l’apprentissage, il peut même y avoir deux pics de dopamine : durant le code / le comportement et au moment de recevoir la récompense. Ce qui rend le processus particulièrement agréable !
Et en renforcement négatif alors ?
L’erreur de prédiction joue ici le même rôle qu’en renforcement positif. Lorsque le cheval trouve la bonne réponse et se libère de la pression ou de l’inconfort, une partie des récepteurs de dopamine liés à la récompense s’activent. Ce n’est donc pas un effet “waw” comme en R+. D’autres neurotransmetteurs, comme la noradrénaline, réagissent beaucoup plus fort aux aversifs, et jouent donc aussi un rôle important dans ce contexte.
Néanmoins, qui dit renforcement négatif, dit présence d’un certain aversif. Au moment de l’utilisation de cet aversif, le niveau de dopamine *baisse* dans le cerveau et cause une sensation désagréable. Trouver la bonne réponse a donc plutôt un effet de montagnes russes pour le cheval, qui s’apparente à un soulagement plutôt qu’à un véritable plaisir.
C’est grâce à cette baisse de dopamine que le cheval peut développer des stratégies d’apprentissage par évitement. Dans le but de ne pas subir l’aversif et donc la baisse de dopamine, le cheval va réagir au premier prédicteur fiable… de l’aversif. Donc la phase 2, la phase 1, puis finalement, juste le fait que l’humain regarde les pieds du cheval et commence à lever son stick pour demander la jambette.
Que ce soit en R+ ou en R-, l’absence de renforcement est dommageable à l’apprentissage (ou au maintien du comportement). Si on ne relâche pas la pression ou qu’on ne donne pas de récompense au moment où le cheval l’attend, il s’agit d’une nouvelle erreur de prédiction qui va causer une baisse désagrable du niveau de dopamine.
En résumé, la dopamine est activée quand il se passe quelque chose d’inhabituel, particulièrement quand c’est une surprise positive (agréable, appétitive). Cette surprise peut-être liée à la conséquence (ex. récompense ou non, récompense plus appétitive qu’avant) ou au timing. Une fois la période d’apprentissage terminée, il n’y a plus de surprises et donc… plus de pic de dopamine. D’autres neurotransmetteurs et zones du cerveau prennent alors le relais pour apprécier la récompense ou le relâchement de la pression :)
Remerciements spéciaux pour la Dr Emma Lethbridge, neuroscientifique et spécialiste du comportement du cheval pour ses enseignements qui ont aidé à la rédaction de cette publication !
The Dopamine System, Your Horse and You - Webinaire de Emma Lethbridge, accessible via Patreon “The Thoughtful Equitation Club”
Dr Emma Lethbridge, the dopamine system in R+ and R- ;
Vidéo 1 : https://fb.watch/mfybGcQpri/ Vidéo 2 : https://fb.watch/mfycr3W09N/
Vidéo 3: https://fb.watch/mfyaY3Vy0m/
Sebastian D. McBride a, Matthew O. Parker b, Kirsty Roberts c, Andrew Hemmings “Applied neurophysiology of the horse; implications for training, husbandry and welfare” Applied Animal Behaviour Science 190, (2017): 90-101
https://www.sciencedirect.com/science/article/abs/pii/S0168159117300655
Wolfram Schutz “Predictive Reward Signal of Dopamine Neurons”, Journal of Neurophysiology 80 (1998) 1-27 https://doi.org/10.1152/jn.1998.80.1.1
Dana Mayer et al: “ Role of the mesolimbic dopamine system in relief learning.” Neuropsychopharmacology : official publication of the American College of Neuropsychopharmacology, 43(8), 1651–1659.https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6006155/