Cadre théorique
Comment étudier la
prise de décision ? L’une des manières est de se concentrer
sur les valeurs impliquées dans la prise de décision. Par exemple,
lorsque nous consommons de la nourriture c’est que nous lui
attribuons une certaine valeur. De manière généralisée, faire un
choix plutôt qu’un autre dépendrait au moins en partie de
différentes valeurs subjectives. L’intérêt d’étudier ainsi la
prise de décision est que l’attribution de valeurs semble se
retrouver dans de nombreux animaux, y compris l’humain.
Il existerait plusieurs systèmes d’attributions de valeur. Nous pouvons trouver une
certaine tendance à organiser l’attribution de valeur autour d’au
moins trois systèmes.
- Le premier système est nommé pavlovien. Le système pavlovien assigne des valeurs à un petit ensemble de comportements qui sont des réponses adaptées sur un plan évolutionnaire à des stimuli environnementaux particuliers. Il peut s’agir par exemple d’indices qui prédisent la libération de nourriture. Beaucoup de comportements pavlovien sont des réponses innées à des stimuli spécifiques prédéterminés, mais avec un entraînement suffisant il est possible de faire en sorte qu’un animal exhibe ces réponses pour d’autres stimuli. Bien qu’il semble au premier abord que les comportements pavloviens ressemblent à des automatismes plus que choix fondés sur des valeurs, il semble possible que les réponses pavloviennes soient interrompues par d’autres systèmes cérébraux. En ce sens, les réponses pavloviennes possibles doivent probablement se voir assigner quelque chose de semblable à une valeur pour entrer en compétition avec les actions favorisées par d’autres systèmes de valuation.
- Le second système est celui des habitudes. Concernant l’attribution de valeur à un nombre plus élevé d’actions que le système pavlovien, le système d’habitude possède plusieurs caractéristiques. Premièrement, ils sont fondés sur l’apprentissage. Des valeurs sont attribuées à des associations stimulus-réponse sur la base d’expériences précédentes, à travers un processus d’essai-erreur. Deuxièmement, les systèmes d’habitude apprennent à assigner une valeur aux actions en fonction de la récompense attendue, tant qu’un entraînement assez long est fourni et que l’environnement est suffisamment stable. Enfin, puisque les valeurs sont apprises par essai-erreur, les systèmes d’habitudes apprennent de manière relativement lente. Un exemple de comportement fondé sur l’habitude peut être celui d’un fumeur qui désire avoir une cigarette après un repas.
- Le troisième système de valuation est celui qui nous intéresse le plus dans le cadre de l’article étudié sur ce blog. Il s’agit des systèmes dirigés (ou orientés) par un but. Contrairement aux systèmes d’habitudes, les systèmes dirigés par un but assignent des valeurs aux actions en computant les associations entre action et résultat et ensuite en évaluant les récompenses qui sont associées avec les différents résultats possibles. En prenant des conditions idéales, la valeur qui est assignée à une action est égale à la récompense moyenne à laquelle l’action peut mener. Les valeurs dans un tel système sont nommées « valeurs de but » et les actions comme « dirigées par un but ». Par exemple, choisir quoi manger dans un nouveau restaurant est un exemple de comportement orienté vers un but. La caractéristique principale de tels systèmes de valeurs repose sur la manière dont ils répondent à des changements dans l’environnement. Prenons par exemple un rat qui a appris à presser un levier pour obtenir de la nourriture. Le système orienté par un but a appris à associer l’action de presser le levier avec la conséquence qu’est la libération de nourriture. Mais l’assignation de la valeur pour l’action se fait en fonction de la valeur actuelle de la conséquence. Ainsi, une fois qu’il aura mangé jusqu’à satiété, la valeur pour l’action de presser le levier sera basse puisque l’animal a déjà mangé. Par contraste, le système d’habitude assigne une valeur haute à l’action de presser le levier parce que c’est la valeur qui a été apprise pendant la phase précédant la satiété. Par conséquent, le système de comportement orienté vers un but met à jour la valeur d’une action aussitôt que la valeur de la conséquence change.
Les comportements dirigés vers un but semblent dès lors être des bons candidats pour l’étude de la prise de décision dite adaptative ou la manière d’atteindre des buts spécifiques dans des environnements qui changent.
Concernant les aspects cérébraux des systèmes d’actions dirigées vers un but, plusieurs études de lésions sur des rats suggèrent que le striatum dorsomédial joue un rôle dans l’apprentissage et l’expression d’associations entre action et conséquence, tandis que le cortex orbitofrontal pourrait être responsable de l’encodage des associations entre conséquence et valeur. Plus spécifiquement, la prise de décision adaptative requiert une intégration d’états motivationnels internes avec une compréhension actualisée des relations causales entre des évènements externes. Dans cette optique, le cortex préfrontal dorso-médian semble jouer un rôle central dans la prise de décision adaptative.
Concernant les aspects cérébraux des systèmes d’actions dirigées vers un but, plusieurs études de lésions sur des rats suggèrent que le striatum dorsomédial joue un rôle dans l’apprentissage et l’expression d’associations entre action et conséquence, tandis que le cortex orbitofrontal pourrait être responsable de l’encodage des associations entre conséquence et valeur. Plus spécifiquement, la prise de décision adaptative requiert une intégration d’états motivationnels internes avec une compréhension actualisée des relations causales entre des évènements externes. Dans cette optique, le cortex préfrontal dorso-médian semble jouer un rôle central dans la prise de décision adaptative.
Parce qu’il existe
des projections réciproques étendues qui connectent le cortex
préfrontal dorso-médian et le thalamus médio-dorsal, cette
dernière zone a été considérée avec un intérêt croissant. Ces
considérations permettent d’avancer l’idée que le thalamus
serait plus qu’un simple relai dans le cerveau.
L'enjeu de l'article est alors d'étudier les voies thalamo-corticales et cortico-thalamiques afin de se demander si les deux voies font circuler la même information. En effet, pour être qualifié de dirigé vers un but, les actions doivent répondre classiquement à deux critères : la dépendance envers la valeur actuelle du but et le lien causal entre l'action et le résultat. Les chercheurs souhaitent alors évaluer si l'une ou l'autre voie gère l'un ou l'autre aspect, ou si les deux font voies effectuent le même travail.
Sources :
Alcaraz, Wolff, Fresno, Marchand, Kremer, Coutureau. 2018. Thalamocortical and corticothalamic pathways differentially contribute to goal-directed behaviors in the rat, eLife DOI: https://doi.org/10.7554/eLife.32517
Balleine BW, Dickinson A. 1998. Goal-directed instrumental action: contingency and incentive learning and their cortical substrates. Neuropharmacology 37:407–419. DOI: https://doi.org/10.1016/S0028-3908(98)00033-1, PMID: 9704982
Mitchell AS 2015. The mediodorsal thalamus as a higher order thalamic relay nucleus important for learning and
decision-making. Neuroscience & Biobehavioral Reviews 54:76–88. DOI: https://doi.org/10.1016/j.neubiorev.
2015.03.001, PMID: 25757689
Rangel A, Camerer C, Montague PR. 2008. A framework for studying the neurobiology of value-based decision making. Nature Reviews Neuroscience 9:545–556. DOI: https://doi.org/10.1038/nrn2357, PMID: 18545266
Commentaires
Enregistrer un commentaire