Модель навчання харчових винагород з динамічним виплатою винагороди

Росс А. Хаммонд

1 Центр соціальної динаміки та політики, Інститут Брукінгса, Вашингтон, округ Колумбія, США

Джозеф Т. Орнштейн

1 Центр соціальної динаміки та політики, Інститут Брукінгса, Вашингтон, округ Колумбія, США

Леслі К. Стипендіати

2 Монреальський неврологічний інститут та лікарня, Університет Макгілла, Монреаль, QC, Канада

Лоре Дубе

3 Факультет управління Desautels, Університет Макгілла, Монреаль, QC, Канада

Роберт Левітан

4 Кафедра психіатрії Університету Торонто, Торонто, Онтаріо, Канада

Ален Дагер

2 Монреальський неврологічний інститут та лікарня, Університет Макгілла, Монреаль, КК, Канада

Анотація

Процес підготовки через навчання за винагороду надзвичайно важливий для вивчення вибору їжі та ожиріння. Навчання саме по собі формується під впливом навколишнього середовища, причому потенціал такого опромінення може суттєво відрізнятися в залежності від окремих людей, місця та часу. У цій роботі ми використовуємо обчислювальні методи для розширення добре перевіреної стандартної моделі навчання винагородами, вводячи як істотну неоднорідність, так і динамічний вплив винагороди. Потім ми застосовуємо розширену модель до контексту вибору їжі. Модель створює різноманітні особливості поведінки та моделей на рівні населення, що не видно з традиційних формулювань, але які пропонують потенційні уявлення для розуміння навчання харчових винагород та ожиріння. Сюди входить ефект «блокування», завдяки якому ранній вплив може сильно сформувати пізнішу оцінку винагороди. Ми обговорюємо потенційні наслідки наших результатів для вивчення та профілактики ожиріння, для галузі навчання за винагороду, а також для подальшої експериментальної та обчислювальної роботи.

Вступ

Ожиріння має складну етіологію з багатьма відомими шляхами (Huang and Glass, 2008; Hammond, 2009; Dubé et al., 2010; IOM, 2010, 2012). Значні докази свідчать про те, що харчове середовище може бути важливим фактором ожиріння (Lakdawalla та Philipson, 2009), а також те, що люди можуть відрізнятися між собою схильністю до надмірного споживання у відповідь на харчові сигнали в навколишньому середовищі (Guerrieri et al., 2008). Деякі дослідники називають "гедонічний голод" - голод, обумовлений харчовими сигналами та очікуванням задоволення від їжі, а не суто гомеостатичними потребами в калоріях (Lowe and Butryn, 2007), підкреслюючи важливість систем винагороди мозку для управління харчовими рішеннями.

Ми зосереджуємось на припущенні, що перевага висококалорійній їжі та неможливість протистояти привабливості харчових сигналів частково розвивається через форму кондиціонування (Epstein et al., 2007). Кондиціонування відноситься до приписування стимулюючих властивостей раніше нейтральним сигналам, поєднаним з первинними винагородами, такими як їжа, шляхом навчання (Frank and Claus, 2006; Samson et al., 2010). Особи з посиленою здатністю вчитися на винагородах були б більш схильні до цієї форми обумовленості, а також до пов'язаного з цим явища сенсибілізації, яке стосується поступового збільшення нервової та поведінкової реакції на повторні нагороди (Robinson and Berridge, 1993) . Дослідження на тваринах настійно припускають, що невід’ємні відмінності в дофаміновій системі сприяють диференційному вивченню ознак прогнозування винагороди, що, у свою чергу, сприяє більшій мотивації споживати та шукати відповідну винагороду за наявності таких ознак (Dalley et al., 2005, 2007; Петрович and Gallagher, 2007; Flagel et al., 2008, 2009; Berridge et al., 2009; Yager and Robinson, 2010; Lovic et al., 2011).

Модель, яку ми представляємо в цій роботі, не має на меті бути всеосяжною моделлю харчової поведінки, а зосереджена конкретно на з’ясуванні ролі навчання за винагороду. Виключаючи інші фактори, що сприяють цьому, такі як гомеостаз, виконавчий контроль та норми харчування, ми виділяємо динамічний ефект навчання винагородами в контексті різноманітного та мінливого впливу винагороди навколишнього середовища. Наша модель прямо не посилається на дофамін, хоча його роль у навчанні та підвищенні сенсибілізації до наркотиків та продуктів харчування не викликає сумнівів (Sclafani et al., 2011). Швидше ми припускаємо, що успадкована вразливість (посилене навчання винагородам) разом із середовищем, багатим висококалорійною їжею, може призвести до довготривалих нервових адаптацій, що сприяють надмірному харчуванню протягом усього життя. Ми досліджуємо гіпотезу про те, що динамічне навчання з винагородою може допомогти пояснити як важливість раннього життя як ключового періоду у розвитку харчової поведінки, так і суперечливі докази впливу харчового середовища на харчову поведінку та ожиріння (Morland et al., 2006; Larson et al., 2009; Murakamia et al., 2010).