Складні екологічні фенотипи на філогенетичних деревах - прихована марковська модель для порівняльного аналізу
АНОТАЦІЯ
Більшість видів у природному світі використовують безліч категорично різних типів екологічних ресурсів. Багато видів метеликів використовують багато рослин-хазяїв, наприклад (Ehrlich & Raven 1964; Robinson 1999). Комахоїдні певчі в помірних районах Північної Америки використовують безліч різних мікроселищ та кормової поведінки (MacArthur 1958), як і медоїди в мезичній та посушливій Австралії (Miller et al. 2017). Еволюція нових моделей використання ресурсів може вплинути на фенотипову еволюцію (Martin & Wainwright 2011; Davis et al. 2016), диверсифікацію (Mitter et al. 1988; Givnish et al. 2014), збори громади (Losos et al. 2003; Gillespie 2004) та функція екосистеми (Harmon et al. 2009; Bassar et al. 2010). Отже, існує значний інтерес до розуміння того, як розвиваються екологічні ознаки, пов'язані з використанням ресурсів, та вивчення їх впливу на інші еволюційні та екологічні явища (Vrba 1987; Futuyma & Moreno 1988; Forister et al. 2012; Price et al. 2012; Burin та ін. 2016).

Однак, роблячи висновки про еволюційну динаміку використання ресурсів, спочатку потрібно узагальнити складні закономірності змін, що спостерігаються серед таксонів, до ознак, які можна моделювати на філогенетичних деревах. Широко визнано, що реальні складності використання ресурсів недостатньо описуються набором категоріальних змінних (Hardy & Linder 2005; Hardy 2006). Тим не менше, це також правда, що основні відмінності у використанні ресурсів іноді можна підсумувати в невеликому наборі екологічних станів, про що говорили Міттер та ін. (1988) у своєму дослідженні фітофагії та диверсифікації комах. З цієї причини моделі безперервного ланцюга Маркова (CTMC), які вимагають класифікації видів за набором станів характеру, стали звичним явищем у макроеволюційних дослідженнях еволюції екологічних ознак (Kelley & Farrell 1998; Nosil 2002; Price et al. 2012; Hardy & Otto 2014; Cantalapiedra et al. 2014; Burin et al. 2016). Моделі CTMC описують стохастичний процес для еволюційних переходів між набором станів характеру і використовуються для виведення станів предків та темпів еволюції, а також для проведення тестів на основі моделей (O’Meara 2012).
Корисність ланцюгів Маркова безперервного часу для вивчення еволюційної динаміки використання ресурсів обмежена припущенням моделювання, що таксони є мономорфними для екологічних станів (Hardy & Linder 2005; Hardy 2006). Як практичне рішення, більшість емпіричних досліджень визначають один або декілька узагальнених станів для розміщення видів, що використовують кілька типів ресурсів, і тому їх не можна охарактеризувати як спеціалістів для певного ресурсу (Alencar et al. 2013; Price et al. 2012; Burin et al. . 2016; Gajdzik et al. 2019). Інше рішення, замість того, щоб класифікувати кожен вид як спеціаліста або спеціаліста, представляє кожну категорію ресурсів із двійковим показником присутності або відсутності (Janz et al. 2001; Colston et al. 2010; Hardy 2017). У цьому випадку екологічний стан виду - це встановлені ресурси, оцінені як наявні. Кожен із цих підходів є одним із рішень проблеми моделювання, що виникає внаслідок внутрішньовидових змін у використанні ресурсів, але обидва рішення нехтують зміною відносної важливості різних ресурсів для різних таксонів. Отже, види, класифіковані в одній державі, тим не менше можуть демонструвати суттєві відмінності в моделях використання ресурсів, створюючи проблеми для інтерпретації еволюційних переходів між станами характеру, а також для розуміння зв'язків між еволюцією стану характеру та диверсифікацією.
Ще одне обмеження ланцюгів Маркова безперервного часу для моделювання еволюції використання ресурсів випливає з того, що види класифікуються до екологічних станів без урахування якості та кількості інформації, доступної для виконання класифікаційної роботи. Наприклад, види з невеликою кількістю екологічних спостережень можуть бути класифіковані як спеціалісти для певного ресурсу, коли їх очевидна спеціалізація суворо залежить від невеликої кількості екологічних спостережень, доступних для таксона. В цілому, не використовуючи статистичну модель для призначення станів ресурсів, ми нехтуємо основним джерелом невизначеності наших даних: нерівномірними та неповними знаннями про використання ресурсів у різних таксонів. У свою чергу, ця невизначеність має суттєві наслідки для того, як ми проектуємо схеми використання ресурсів на набір станів ресурсів. Не враховуючи нерівномірність та скінченність розмірів вибірки, характерні для емпіричних даних про використання ресурсів, ми не можемо бути впевнені, чи присвоєння стану відображає справжню схожість або різницю у використанні ресурсів або є лише очікуваним результатом варіації вибірки.
У цій роботі ми використовуємо формулювання прихованих станів як розподілу ймовірностей для розробки моделі CTMC для вивчення еволюційної динаміки використання екологічних ресурсів на філогенетичних деревах. Наш підхід чітко розроблений для моделювання властивостей ресурсів, які є внутрішньо специфічно змінними, та врахування невизначеності в присвоєнні екологічного стану термінальних таксонів, що виникає внаслідок наслідків варіації вибірки. Ми припускаємо, що кожен стан є неспостереженим (прихованим) мультиноміальним розподілом, і що спостережувані дані є вибіркою результатів цих прихованих розподілів (див. Панелі (i) - (iii) рис. 1). Кількість станів у моделі та самі стани безпосередньо не спостерігаються і оцінюються за даними. За допомогою моделювання та емпіричного набору дієт змій ми показуємо, як метод може використовувати підрахунки спостережень, щоб одночасно зробити висновок про кількість станів ресурсів, пропорційне використання ресурсів різними станами та філогенетичний розподіл екологічних станів серед живих видів та їхніх предків . Метод є загальним і застосовним до будь-яких даних, що виражаються як набір підрахунків спостережень з різних категорій ресурсів.
МАТЕРІАЛИ І МЕТОДИ
Опис моделі
Ця модель даних про підрахунок тісно пов'язана з тематичними моделями складу слів у колекції текстових документів (Blei et al. 2003; Yin and Wang 2014) та з популяційними генетичними моделями складу частоти алелів у сукупності популяцій (наприклад, програма СТРУКТУРА: Pritchard et al., 2000). Ключова відмінність тут полягає в тому, що стан, призначений таксону, є результатом еволюції і не є незалежним від станів інших родових ліній. Концептуально це схоже на філогенетичні порогові моделі, де повна вірогідність поєднує в собі модель ймовірності еволюції ненаблюдаемої змінної та модель ймовірності для вибірки спостережуваних даних, обумовлених набором ненаблюданих змінних (Felsenstein 2012; Revell 2014). Ми моделюємо еволюцію як процес Пуассона, де швидкість змін однакова між усіма державами (тобто в моделі відсутня еволюційна тенденція), але варіюється залежно від роду. Ми вводимо два механізми, що дозволяють пристосувати цю варіацію швидкості.