Блокувати виявлення біомаркерів без моделі HSIC Lasso для біоінформатики надвисоких розмірів

Гектор Кліменте-Гонсалес, Хлое-Агате Азенкотт, Самуель Каскі, Макото Ямада, Блок HSIC Lasso: безмодельне виявлення біомаркерів для даних надвисоких розмірів, Біоінформатика, том 35, випуск 14, липень 2019, сторінки i427 – i435, https: //doi.org/10.1093/bioinformatics/btz333

Анотація

Пошук нелінійних взаємозв’язків між біомолекулами та біологічним результатом є обчислювально дорогим та статистично складним. Існуючі методи мають важливі недоліки, включаючи, серед іншого, відсутність економності, непуклості та обчислювальних витрат. Тут ми пропонуємо блок HSIC Lasso, нелінійний селектор функцій, який не містить попередніх недоліків.

Ми порівнюємо блок HSIC Lasso з іншими найсучаснішими методами вибору ознак як у синтетичних, так і в реальних даних, включаючи експерименти над трьома типовими геномними даними: мікрочипи експресії генів, секвенування одноклітинної РНК та дослідження асоціацій у цілому по геному. . У всіх випадках ми спостерігаємо, що функції, обрані блоком HSIC Lasso, зберігають більше інформації про основну біологію, ніж ті, що відібрані іншими методами. Як доказ концепції ми застосували блок HSIC Lasso до експерименту з секвенування одноклітинної РНК на гіпокампі миші. Ми виявили, що багато генів, пов'язаних у минулому з розвитком та функцією мозку, беруть участь у біологічних відмінностях між типами нейронів.

Блок HSIC Lasso реалізований в пакеті Python 2/3 pyHSICLasso, доступному на PyPI. Вихідний код доступний на GitHub (https://github.com/riken-aip/pyHSICLasso).

Додаткові дані доступні на веб-сайті Bioinformatics.

1. Вступ

Відкриття біомаркерів, мета багатьох експериментів з біоінформатики, спрямоване на виявлення кількох ключових біомолекул, які пояснюють більшість спостережуваних фенотипів. Без сильної попередньої гіпотези ці молекулярні маркери повинні бути ідентифіковані на основі даних, отриманих за допомогою високопродуктивних технологій. На жаль, пошук відповідних молекул є комбінаторною проблемою: для d ознак необхідно враховувати 2 d бінарні варіанти. Оскільки кількість ознак значно перевищує кількість зразків, виявлення біомаркерів є проблемою великих розмірів. Статистичні проблеми, викликані такими просторовими просторами, були детально розглянуті в інших місцях (Clarke et al., 2008; Johnstone and Titterington, 2009). Загалом, через прокляття розмірності, розміщення моделей у багатьох розмірах та на невеликій кількості зразків надзвичайно важко. Більше того, оскільки біологія є складною, проста статистична модель, така як лінійна регресія, може бути не в змозі знайти важливі біомаркери. Ті, що виявляються в таких експериментах, часто важко відтворити, що передбачає переобладнання. Дослідження простору рішень та пошук справжніх біомаркерів є не тільки статистично складними, але й обчислювально дорогими.

З точки зору машинного навчання, виявлення біомаркерів може бути сформульоване як проблема вибору ознак: визначення найкращого підмножини ознак для розділення між категоріями або прогнозування безперервної реакції. За останні десятиліття було запропоновано багато алгоритмів вибору функцій, які мають справу з високомірними наборами даних. Через труднощі, пов’язані з високою розмірністю, лінійні методи, як правило, вибирають особливості в біоінформатиці. Широко використовуваний лінійний селектор функцій - оператор найменшої абсолютної усадки та вибору, або Лассо (Тібшірані, 1996). Лассо підходить до лінійної моделі між вхідними ознаками та фенотипом, мінімізуючи суму найменших квадратних втрат та штрафний термін ℓ 1. Баланс між найменшими квадратними втратами та штрафом гарантує, що модель пояснює лінійне поєднання ознак, при цьому кількість характеристик у моделі залишається невеликою. Однак у багатьох випадках біологічні явища не поводяться лінійно. У таких випадках немає жодних гарантій, що Лассо зможе зафіксувати ці нелінійні співвідношення або відповідний розмір ефекту для їх представлення.

За останнє десятиліття було запропоновано декілька нелінійних алгоритмів вибору об’єктів для багатовимірних наборів даних. Одна з найбільш широко використовуваних, називається Sparse Additive Model, або SpAM (Ravikumar et al., 2009), моделює результат як розріджену лінійну комбінацію нелінійних функцій на основі ядер. Однак, оскільки SpAM передбачає адитивну модель над вибраними ознаками, він не може вибрати важливі ознаки, якщо фенотип не може бути представлений адитивними функціями вхідних функцій - наприклад, якщо між ознаками існує мультиплікативний зв'язок (Yamada et al., 2014 ).