Don’t shoot the dog! – partie 1

Don't shoot the dog, Karen Pryor

Le renforcement positif est un outil formidable qui a sa part dans l’arsenal de l’homme de cheval. Ses applications sont nombreuses : vie quotidienne avec le cheval, infirmerie, équitation. De mon expérience, il agit comme un véritable facilitateur de communication qui enrichit la relation humain-cheval lorsqu’il est utilisé à bon escient, avec patience et persévérance.

« Don’t shoot the dog! » est le meilleur ouvrage que je connaisse et le plus complet sur le sujet du renforcement positif. L’auteur a travaillé avec des chevaux et présente occasionnellement au cours du livre des exemples d’applications avec des équidés, mais le sujet n’est pas exclusivement équin.

En plus d’être truffé d’informations utiles, ce livre est bigrement intéressant et drôle. J’ai le très grand plaisir de présenter dans cet article la première partie de son résumé.

1 – Le renforcement : mieux que la récompense

Définition du renforcement : un renforcement est n’importe quoi qui, se produisant en conjonction avec un comportement, rend à accroître ou à décroître la probabilité que le comportement se produise à nouveau.

Le renforcement positif, c’est quelque chose que le sujet veut : de la nourriture, des félicitations. Le renforcement négatif, c’est quelque chose que le sujet préfère éviter : un coup, un froncement de sourcil, un son désagréable. Le renforcement positif accroît la probabilité que l’évènement se produise, le renforcement négatif décroît cette probabilité.

Une petite carotte bien utilisée = un grand pas vers une meilleure compréhension mutuelle Crédit photo : fotoyu

Point important : on ne peut pas renforcer un comportement qui ne se produit pas. Ainsi, si vous souhaitez que votre amoureux vous téléphone régulièrement, mais qu’il ne vous téléphone jamais, vous ne pouvez pas y faire grand-chose. Si, en revanche, à chaque appel, même peu fréquent, vous êtes plaisant et agréable, vous renforcez la probabilité que l’appel se renouvelle. Si vous profitez de son appel pour être désagréable et le gronder d’appeler si peu, vous renforcez la probabilité que l’appelle ne se renouvelle pas.

Le renforcement est relatif au sujet auquel il est appliqué. La pluie sera un renforcement positif pour un canard, et négatif pour un chat.

Le bon moment pour renforcer un comportement

Le moment où la récompense est donnée est crucial. La récompense (ou le stimulus aversif) doit se produire au moment où le comportement se produit. Trop tôt, on renforce d’avoir seulement essayé. Trop tard, on récompense déjà un autre comportement.

La taille du renforcement

Quelle est la taille idéale d’une récompense alimentaire ? Réponse : aussi petit que possible, tout en étant assez gros pour préserver l’intérêt de l’animal.

D’abord, parce qu’une petite récompense permet d’éviter d’attendre trop longtemps que l’animal ait fini de mâcher. Ensuite, cela permet de donner davantage de récompenses avant que l’animal arrive au point de satiété.

Le « Jackpot »

Le jackpot est une récompense d’une taille inhabituelle, beaucoup plus importante que la normale. Sa taille doit surprendre et interpeller le sujet.

Le jackpot peut être utilisé dans le cas d’un gros effort de la part de l’animal, ou d’un progrès capital dans le procédé d’acquisition d’un comportement. Par exemple : le cheval tient la jambette beaucoup plus longtemps que d’habitude.

Le renforcement conditionné

Comme exposé précédemment, le renforcement positif doit se produire exactement au même moment que le comportement. Difficile de donner un poisson à un dauphin au moment où il est en train de réaliser un saut (ou de récompenser un cheval lors d’un travail à distance en liberté).

C’est pourquoi le démarrage d’un entraînement au renforcement positif commence toujours par l’établissement d’une association entre un signal et la récompense. On utilise alors le signal au moment où le comportement souhaité se produit et lorsque l’association entre le signal et la récompense, le signal prend la signification de « tu as gagné la récompense ». A tel point que l’on peut bientôt se permettre un délai entre signal et récompense : le renforcement est alors conditionné.

Le renforcement conditionné est fréquent dans notre quotidien : les émotions positives ou négatives qui nous envahissent lorsqu’on entend la musique de Noël, qu’on sent l’odeur du cabinet dentaire, qu’on voit les coupes et flots de nos victoires.

Le clicker, petite boîte plastique émettant un « clic » caractéristique, est un des outils les plus populaires pour créer un conditionnement renforcé chez les animaux domestiques : chien, chat, chevaux, oiseaux…

Voilà à quoi ressemble un clicker, l’outil du renforcement conditionné

Le signal « Continue ! »

Généralement, le signal associé à une récompense constitue un marqueur de fin de comportement. L’animal peut arrêter le comportement en cours et recevoir sa récompense.

Cependant, il peut être utile d’établir un signal différent pour indiquer à l’animal « tu es sur la bonne voie, continue ».

Signaux aversifs conditionnés

On peut également conditionner un sujet à associer un signal avec un événement aversif, dans le cadre d’un apprentissage. Cela sera bien plus efficace qu’une menace. Prenez un chat en train de faire ses griffes sur le canapé. Arrosez le chat d’eau en disant « non ». Le « non » sera irrémédiablement associé à la sensation désagréable de l’eau et par la suite, il vous suffira de lui dire « non » pour le faire fuir du canapé quand bon vous semblera.

Programme de renforcement

On croit souvent que le renforcement positif consiste à donner des carottes éternellement à son cheval. En fait, une fois que le marqueur est bien intégré (c’est-à-dire que le clic bien associé à la récompense) et qu’un comportement donné est bien acquis, il est essentiel d’inclure un certain degré de variabilité et d’imprédictibilité au schéma de renforcement : vous allez distribuer des récompenses aléatoirement. Cela tient en éveil l’intérêt de l’animal, et c’est bien plus efficace pour maintenir les acquis qu’une récompense systématique.

Une exception : les comportements impliquant la résolution d’un problème, comme par exemple le choix d’un objet spécifique parmi plusieurs objets. L’animal a besoin de savoir à chaque fois qu’il a choisi le bon objet, sans quoi, il y perdrait rapidement son latin.

Comportements de longue durée

Outre la récompense aléatoire, il est également possible de renforcer plusieurs fois un schéma identique afin qu’il soit reproduit en chaîne par l’animal. Par exemple, pour amener un dauphin à exécuter 6 sauts d’affilée, on récompensera tous les 6 sauts.

Comportement superstitieux et renforcement accidentel

Vous avez déjà entendu parler des rituels quasi maniaques que peuvent avoir certains sportifs de haut niveau ? (Si ce n’est pas le cas, lisez l’histoire des 19 tocs de Rafael Nadal). Nous en avons tous : un bijou porte-bonheur, une chemise favorite pour les entretiens importants, un rituel de relacer ses chaussures juste avant de s’élancer dans une course…

Ce genre d’association non prévue arrive fréquemment lors de l’entraînement d’un animal : l’animal repère un geste non intentionnel de notre part et le prend pour une part de la demande. Ou alors, il commence par proposer une mauvaise réponse, enchaîne sur la bonne réponse, reçoit une récompense et réexécute l’enchaînement de la mauvaise puis de la bonne réponse.

Ainsi, lorsqu’on entraîne un animal à l’aide du renforcement (positif ou négatif), il est important de rester attentif aux schémas qui se mettent en place.

Les possibilités fabuleuses du renforcement positif

Le renforcement positif ne s’utilise pas que pour entraîner un animal. On peut l’utiliser dans de nombreuses situations de la vie quotidienne. Pour nous inspirer, Karen Pryor a regroupé dans ce chapitre des anecdotes étonnantes. Voici celle qui m’a le plus marquée :

Une jeune femme épouse un homme qui se révèle autoritaire et exigeant. Pire encore, le père de son mari, d’un tempérament similaire, vit avec le couple. La mère de la jeune épouse (qui a raconté l’histoire à Karen Pryor) est terrifié en découvrant la façon dont sa fille est traitée. La fille lui répond : « ne t’inquiètes pas, attends et tu verras ». Et elle s’applique alors à répondre le minimum aux ordres et aux remarques désagréables, et à renforcer par des marques d’affection la moindre tendance des deux hommes à se montrer aimable et raisonnable. Un an plus tard, elle a changé père et fils en êtres humains décents. Ils l’accueillent avec des sourires quand elle revient à la maison et bondissent pour l’aider avec les courses.

Le renforcement appliqué à soi-même

Une application souvent négligée et sous-estimée : le renforcement appliqué à soi-même. Se complimenter soi-même, s’offrir une pause, s’offrir une cigarette, une cuillère de beurre de cacahuète sont des exemples de renforcement appliqué à soi-même.

2 – Le Shaping : développer de super performances sans effort ni douleur

Note : on pourrait traduire le mot « Shaping » par « façonnage de comportement ». J’ai fait le choix de garder le mot anglais « Shaping » pour cet article.

Qu’est-ce que le Shaping ?

Dans le premier chapitre, nous avons vu ce qu’est le conditionnement opérant et le renforcement positif, et comment l’utiliser pour capter un comporter et renforcer sa fréquence d’apparition. Maintenant, comment développer un comportement ou une séquence de gestes qui n’a aucune chance d’apparaître de lui-même ?

Pour cela, on va développer le comportement en récompensant une série d’étapes intermédiaires. Un dauphin sautant à travers un cerceau ou un chien mettant une balle dans un panier de basket sont des exemples de comportement développés grâce au shaping.

Le succès d’un travail de shaping dépend non de notre expertise, mais de notre persistance. Cela dit, une planification correcte du Shaping peut accélérer énormément le process. Voyons donc comment le développer dans ce chapitre.

Méthodes vs Principes

Il faut s’intéresser aux deux composants du Shaping :

  • La méthode, c’est-à-dire la séquence d’étapes qui va permettre de réaliser un geste/comportement donné,
  • Les principes régissant comment, quand et pourquoi les comportements sont renforcés.

Les 10 lois du Shaping

Ces 10 lois sont issus des théories du conditionnement opérant, que Karen Pryor complète par des éléments issus de son expérience :

  1. Augmenter chaque critère par incrémentation suffisamment petite, afin que le sujet ait toujours une chance réaliste de gagner une récompense (si vous en demandez trop d’un coup, et que le cheval ne comprend pas comment gagner une récompense, il se fâche, perd patience ou intérêt),
  2. Ne pas rajouter deux critères simultanément : se concentrer sur un seul à la fois,
  3. Au cours du Shaping, mettre la dernière étape réalisée sur un schéma de renforcement variable avant de rajouter un nouveau critère ou d’élever les exigences du critère en cours,
  4. Lors de l’introduction d’un nouveau critère, relâcher temporairement les exigences des autres critères,
  5. Imaginer d’abord le plan de shaping complet, de manière à ce que, si le sujet fait un progrès brutal, vous savez quoi renforcer ensuite,
  6. Ne pas changer d’entraîneur en cours de route pour un même comportement. Il est possible d’avoir plusieurs entraîneurs pour un même sujet, mais un seul entraîneur doit développer un comportement donné,
  7. Si une méthode ne donne pas de résultat, essayer autre chose,
  8. Eviter d’interrompre une session gratuitement. Cela constitue une punition,
  9. Si un comportement se détériore, revoir rapidement chacune des étapes faciles et les renforcer
  10. Terminer chaque session sur quelque chose de très bien, de préférence sur une avancée dans l’obtention du comportement.

Le Jeu de l’Entraînement

Le Shaping est une compétence : connaître les règles, c’est bien. Pratiquer, c’est mieux. Voici un jeu que pratiquent les clickers trainers entre eux pour développer leurs compétences :

Un participant joue le rôle du sujet, l’autre joue l’entraîneur. Le sujet est invité à bouger dans la pièce, à être actif. L’entraîneur, définit un comportement à développer sur son sujet (écrire un nom au tableau, sauter sur une chaise, tourner sur lui-même…) et s’arme d’un marqueur (sifflet, clicker, voix). L’entraîneur renforce à l’aide de son marqueur tout comportement susceptible d’aller dans la direction qu’il souhaite, et façonne ainsi de fil en aiguille le sujet.

L’exercice est très utile pour comprendre les embûches de l’entraîneur et les frustrations auxquelles peut-être confronté « l’animal ».

Raccourcis du shaping : ciblage, mimétisme, modélisation

Le Shaping peut prendre du temps lorsque l’on se contente de « capter » un comportement existant. Pour aller plus vite, les entraîneurs disposent d’une panoplie d’outils.

Le ciblage consiste à enseigner à un animal à toucher une cible avec le nez – ou la partie de son corps de votre choix. En bougeant la cible, on parvient à amener l’animal à effectuer un parcours ou à se rendre dans des endroits où il n’irait pas de lui-même.

De nombreuses espèces apprennent par imitation. Si vous avez appris à l’un de vos chats à utiliser une sonnette, exposer vos autres chats au comportement du chat « savant » et récompenser l’imitation peut suffire.

Dans la modélisation, on guide le sujet manuellement dans un mouvement donné. Par exemple, l’entraîneur prend la jambe du cheval et le guide pour lui poser le genou à terre.

3 – Contrôle du stimuli : coopération sans coercition

Les stimuli

Tout ce qui cause une réponse comportementale est appelé un « stimulus« . Il ne s’agit pas nécessairement d’une réponse découlant d’un apprentissage : un bruit fort déclenchant un sursaut est un exemple de stimulus qui déclenche une réponse comportementale.

Établir un signal

Dans le travail conventionnel d’un animal, on commence par établir un signal : on dit « assis », et on force le chien à s’asseoir. La répétition permet au chien d’associer l’ordre au comportement attendu.

Ceci est un non sens du point de vue du conditionnement opérant : pourquoi demander au chien un ordre qu’il ne comprend pas encore ? On préfère l’amener au comportement, et établir un signal pour ce comportement une fois qu’il est installé et compris.

Contrôler le stimulus

Désormais, votre chien s’assoit lorsque vous lui dites « assis ». Le travail n’est pas fini, il reste à contrôler que le stimulus est compris. L’entraînement est considéré comme terminé seulement si ces quatre conditions sont remplies :

  1. Le comportement se produit immédiatement en présence du stimulus (le chien s’assoit quand on lui demande)
  2. Le comportement ne se produit pas sans stimulus (au cours d’une séance de travail, le chien ne s’assoit pas de lui-même pour demander une récompense)
  3. Le comportement ne se produit jamais en réponse à d’autres stimulus (le chien ne s’assoit pas quand vous lui dites « couché »)
  4. Aucun autre comportement ne se produit en réponse à ce stimulus (le chien ne tourne pas sur lui-même quand vous lui dites « assis »)

Quel genre de signal ?

Le type de signal n’a pas d’importance. N’importe quel stimulus que le sujet est capable de percevoir peut devenir un signal acquis : drapeau, son, lumière, vibration…

Il est tout à fait possible d’utiliser plusieurs signaux différents pour demander le même comportement, et cela s’appelle un transfert de signal. La recette est simple : vous présentez la nouvelle commande à l’animal, puis un instant plus tard la commande déjà bien connue, de façon à ce que le comportement se produise. Vous répétez souvent, en rendant l’ancienne commande de moins en moins évidente et en mettant l’accent sur la nouvelle. L’animal apprendra bientôt à répondre à la nouvelle commande, et il répondra toujours à l’ancienne commande présentée seule.

Magnitude du signal et déclin

Les commandes apprises ou les signaux n’ont pas besoin d’être d’une taille ou d’un volume particulier. Vous voyez un feu rouge, vous vous arrêtez. Vous ne vous arrêtez pas plus vite ou plus lentement en fonction de la taille du feu.

Une fois qu’un stimulus est acquis, il est possible de le rendre de plus en plus petit, jusqu’à ce qu’il soit à peine perceptible, et d’obtenir tout de même le comportement appris. C’est ainsi que l’on parvient à obtenir de véritables « tours de magie » avec des animaux qui semblent d’eux-mêmes se mouvoir d’eux-mêmes, grâce aux signaux subtils donnés par l’entraîneur.

Ciblage

Entraîner son animal à toucher une cible avec son nez est un très bon exercice pour débuter le renforcement positif. Il permet aussi facilement de faire découvrir les principes à l’entraîneur qu’à l’animal. Il est aisé de renforcer exactement quand l’animal touche la cible, mais aussi d’incrémenter petit à petit les critères : toucher la cible à 2 cm du nez, puis à 4 cm, vers la gauche, vers la droite, vers la haut, vers le bas, puis en avant, puis faire suivre la cible à l’animal.

Stimuli aversifs conditionnés servant de signaux

Un stimulus aversif, lorsqu’il devient un signal pour éviter un événement désagréable, peut non seulement réduire le besoin d’une intervention physique, mais également supprimer le comportement en l’absence de l’entraîneur.

Karen Pryor prend l’exemple de son chien, qui avait pris la mauvaise habitude de jouer avec les corbeilles à papier et déverser leur contenu sur le sol. Karen ne voulait ni punir son chien, ni remettre constamment sa maison en ordre. Elle a rempli un vaporisateur d’eau qu’elle a parfumée à la vanille : odeur forte mais agréable pour elle-même, et contenu pas dangereux pour son chien. Et elle l’a vaporisé dans la figure du chien. Le chien s’est enfui, consterné. L’odeur de la vanille, d’abord neutre, est immédiatement devenu un stimuli repoussant. Vaporiser ses corbeilles à papier d’odeur de vanille tous les trois mois a suffi a éloignement durablement le chien. Mieux encore : Karen n’a jamais eu besoin de vaporiser une seconde fois la tête de son chien.

Offre à durée limitée

Vous avez réussi à apprendre un comportement à votre sujet, mais il se passe un grand laps de temps entre le moment où vous produisez le signal et le moment où le sujet daigne s’exécuter. Il existe une technique pour l’inciter à offrir une réponse plus rapidement : lui faire une offre à durée limitée. Il suffit de déterminer l’intervalle de temps que vous laissez à votre sujet pour répondre, et de ne pas offrir de renforcement lorsque l’intervalle est dépassé.

Anticipation

Un problème fréquemment rencontré avec le renforcement positif est celui du sujet qui anticipe. Pressé d’obtenir la récompense, il propose le comportement avant même que l’entraîneur ait eu le temps de donner le signal. Un peu comme un sprinter qui n’attendrait pas le tir du départ.

Un moyen de dissuader l’anticipation, lorsqu’elle survient, est de stopper toute activité : ne donnez aucun signal et ne bougez plus pendant une minute complète. L’excitation, devenant la cause du délai du début du travail, est ainsi pénalisée.

Les stimuli qui deviennent renforcement : chaînes de comportement

Une fois qu’un stimulus conditionné est établi, un phénomène intéressant survient : il devient aussi un renforcement. En effet, le stimulus, signalant l’opportunité d’un renforcement, devient désirable pour le sujet. On peut donc renforcer un comportement en présentant le stimulus pour un autre comportement.

Prenons l’exemple d’un chat qui reçoit une récompense s’il vient à moi lorsque je lui dis « viens ». Il connaît le mot et y répond bien. Maintenant, si je lui dis « viens » à chaque fois qu’il est assis sur la cheminée, je renforce la probabilité qu’il vienne s’asseoir sur la cheminée, dans l’attente de l’opportunité de se faire proposer de venir à moi et de recevoir une récompense.

C’est ainsi que l’on développe des comportements en chaîne. Nous pouvons créer des comportements en chaîne hétérogènes (une suite de comportements différents) ou homogènes (le même comportement répété un certain nombre de fois, comme les dauphins exécutant six sauts d’affilée).

Contrôle de stimulus généralisé

Avec la plupart des animaux, le premier apprentissage prend généralement du temps, mais après trois ou quatre comportements placés sous contrôle de stimuli, l’animal tend à généraliser, à conceptualiser, qu’en offrant un comportement donné pour un stimulus donné, il reçoit une récompense. L’apprentissage de nouveaux comportements et de nouveaux signaux devient alors plus rapide.

Fossés et grandes colères pré-apprentissage

En plaçant un comportement sous contrôle de stimuli, on peut généralement observer un phénomène que Karen a appelé le « fossé pré-apprentissage ».

Admettons que vous ayez enseigné à votre cheval la révérence. Le geste est parfait, il ne reste plus qu’à placer un signal qui va indiquer au cheval que vous lui demandez d’exécuter cette révérence. Et soudain, votre cheval ne répond plus, voire se comporte comme s’il n’avait jamais appris à faire la révérence.

Inutile de préciser que ce phénomène est frustrant pour l’entraîneur. Mais il l’est surtout pour le sujet, un peu comme lorsque l’on lutte avec un problème de maths que l’on comprend à moitié et dont on sait qu’on est presqu’arrivé au bout.

D’expérience, Karen a appris à voir ce « fossé » ou ces « colères » comme un signe que l’apprentissage est effectivement en cours. Mais un entraîneur compétent doit être capable d’enseigner en épargnant au sujet de telles frustrations.

Les usages du contrôle de stimulus

Pour conclure ce chapitre sur le contrôle de stimulus, Karen Pryor souligne qu’abuser de commandes conditionnées n’est pas souhaitable : humains et animaux ne sont pas des machines. Le sujet entraîné au renforcement positif peut ressembler à un élève discipliné. En réalité, Le seul qui a eu besoin de devenir discipliné est l’entraîneur : les individus qui comprennent les principes du contrôle de stimuli évitent de donner des instructions inutiles, des commandes déraisonnables ou incompréhensibles, ou des ordres qui ne peuvent être exécutés. Le bon contrôle de stimuli n’est rien d’autre qu’une communication honnête et juste.

Notes & réflexions

J’utilise le renforcement positif depuis environ 5 ans avec mon propre cheval. Prudente dans son utilisation, j’ai d’abord beaucoup lu sur le sujet et passé de longues soirées à éplucher Youtube à la recherche d’exemples, de modèles à reproduire, et de mauvaises utilisations à éviter.

L’étude de cet outil, que j’utilise principalement à pied, a été pour moi l’occasion d’une observation accrue des expressions et réactions de ma jument, d’un entraînement intensif pour apprendre à saisir le « bon moment », de longues réflexions en quête du meilleur moyen de faire passer une étape, de corriger un mauvais comportement « cliqué » par erreur de ma part. J’ai découvert de fil en aiguille, comme j’écrivais dans l’introduction, un facilitateur de communication extraordinaire qui participe aujourd’hui pleinement à la richesse de nos activités et de notre relation.

« Don’t shoot the dog » a été ma première lecture au sujet du renforcement positif et reste à ce jour la plus complète. Sa relecture, cinq ans plus tard, me fait prendre conscience de l’étendue de tout ce qu’il me reste à explorer dans son usage : je suis sur la partie émergée de l’iceberg !

Si le sujet vous intéresse, je vous encourage chaleureusement à vous procurer et à vous délecter de « Don’t shoot the dog! Le nouvel art de l’éducation » : le livre est rempli d’exemples et de détails qui font qu’on apprend de nouvelles choses à chaque relecture. 


3 réponses à “Don’t shoot the dog! – partie 1”

  1. Je me demande vraiment ce qu’attendent les éditeurs, ça fait des années que je veux le lire (en français !!!) ! Merci beaucoup pour ce résumé très complet et dense en informations ! 😀

    On manque encore d’ouvrages francophones sur le sujet. Néanmoins, celui d’Hélène Roche « Motiver son cheval » est une perle pour la mise en pratique du clicker training. Le livre de Christelle Perrin, « Nouveau secrets sur la relation Homme/cheval » vaut lui aussi le coup d’oeil (et je ne dis pas ça parce que j’y ai participé :p). Il est riche en témoignages variés sur le renforcement positif, utilisé à travers diverses méthodes et personnes.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *