Передача стилів за допомогою варіаційних автокодерів є перспективним підходом до гармонізації даних RNA-Seq

Знайдіть цього автора на Google Scholar
Знайдіть цього автора на PubMed
Шукайте цього автора на цьому сайті
Запис ORCID для Д. Антонець
Для листування: [email protected]

Анотація

Мотивація Транскриптомічні дані часто використовуються для дослідження генів біомаркерів різних захворювань та біологічних станів. Найпоширенішими завданнями є гармонізація даних та прогнозування результатів лікування. До них обох можна звернутися за допомогою підходу передачі стилю. Як компоненти стилю можуть бути використані як технічні фактори, так і будь-які біологічні деталі проб, які ми хотіли б контролювати (стать, біологічний стан, обробка тощо).

Результати Запропоноване рішення передачі стилів базується на умовних варіаційних автокодерах, Y-автокодерах та розкладі змагальних ознак. Для кількісного вимірювання якості передачі стилю були використані класифікатори нейронних мереж, які передбачають стиль та семантику після тренувань на реальному вираженні. Порівняння з декількома існуючими підходами на основі передачі стилів показує, що запропонована модель має найвищу точність прогнозування стилів у всіх розглянутих наборах даних, маючи порівнянну або найкращу точність прогнозування семантики.

Зв'язок antonecnovel-soft.com

1. Вступ

Нова ера сучасних наук про життя розпочалася з розробки високопродуктивних методів секвенування нуклеїнових кислот - методів секвенування нового покоління (NGS). Сума поточних даних про геном і транскриптоми надзвичайна і зростає в геометричній прогресії. Методи секвенування окремих клітин дозволили ще більш детально описати транскриптомічний ландшафт, що дозволило розшифрувати дуже складну природу клітинних підтипів, проаналізувати їх закономірності розвитку та походження (Saliba et al., 2014; Stark et al., 2019).

В даний час загальновизнано, що профілі експресії генів живих клітин були результатом складної суміші різних біологічних процесів та технічних параметрів. На даний момент було кілька спроб змоделювати такий тип даних як комбінації певних низьковимірних уявлень, що відповідають різним біологічним шляхам та умовам (Xu et al., 2019). У цій роботі ми перевіряємо гіпотезу про те, чи можна ці атрибути розумно та керовано змінювати у silico за допомогою моделей глибокого навчання.

2 Передумови

3 методи

3.1 Набори даних

3.1.1 Атлас мишачих клітин (scMCA)

Цей набір даних, що включає численні профілі експресії генів одноклітинних мишей, був створений на економічно ефективній високопродуктивній платформі Microwell-seq (Han et al., 2018), що дозволило проаналізувати понад 400 000 одиничних клітин з 51 тканин мишей та органів, вилучених з декількох тварин у різні фізіологічні умови. Оригінальні дані scMCA містять профілі експресії генів для понад 800 основних типів клітин миші. Детальна анотація була надана авторами для понад 200 000 одиничних клітин. Детальний опис даних можна знайти в оригінальній роботі (Han et al., 2018) та в Інтернеті. Цей набір даних було обрано з наступних основних причин: (1) він містив величезну кількість даних, отриманих за послідовною методологією тією ж дослідницькою групою, таким чином, мабуть, робить технічну дисперсію менш глибокою; (2) оскільки зразки належать різним тваринам, різним органам/тканинам та фізіологічним умовам, можна побудувати модель для розкладання цих джерел варіацій.

3.1.2 Зіркова карта

Набір даних STARmap був використаний для налаштування гіперпараметрів та порівняльного тестування нашої моделі щодо кількох інших підходів (див. Нижче). Він містить значення експресії для 166 генів у 3700 клітинах з трьох окремих біологічних зразків миші медіальної префронтальної кори (Wang et al., 2018). Анотований набір даних взятий з https://github.com/YosefLab/scVI-data/raw/master/mpfc-starmap.loom у авторів фреймворка scVI (Lopez et al., 2018). Loom - це спеціалізований формат файлу на основі HDF5, придатний для великих наборів даних omics, що містить основну матрицю даних та додаткові шари анотацій. Loompy - бібліотеку Python для роботи з даними Loom можна знайти за адресою: http://loompy.org.

3.1.3 Сітківка ока

Оригінальний набір даних містить 27 499 клітин і 13 166 генів з двох партій (Shekhar et al., 2016). Цей набір даних також використовувався для порівняльного аналізу. Ми використовували кластерну анотацію з 15 типів клітин та попередньо оброблену та нормалізовану кількість експресії генів, надану авторами scVI (Lopez et al., 2018). Анотований набір даних можна завантажити з https://github.com/YosefLab/scVI-data/raw/master/retina.loom.

3.1.4 PBMC

Дані спочатку були вилучені із набору даних SRP073767 користувачем (Zheng et al. 2017). Це дані scRNA-seq з двох партій PBMC від здорового донора (4000 та 8000 PBMC, відповідно). Набір даних був підготовлений, як описано в роботі scVI (Lopez et al., 2018); анотований набір даних містив 12 039 клітин з 3346 генами. Набір даних був використаний для порівняльного аналізу. Дані про експресію генів можна завантажити з https://github.com/YosefLab/scVI-data/raw/master/gene_info.csv та відповідні метадані - з https://github.com/YosefLab/scVI-data/raw /master/pbmc_metadata.pickle.

3.1.5 PBMC, оброблений IFNβ

Для біологічної перевірки ми також використовували набір даних, що містить контрольні та інтерферон-бета-стимульовані РВМС (GSE96583) (Kang et al., 2018). Дані були взяті з прикладів scGen (https://github.com/theislab/scgen-reproducibility). Набір даних був наданий авторами (Lotfollahi et al., 2019a) як нормалізований та трансформований. Дані включали 18 868 клітин, що належать до 8 клітинних типів, і 6 998 генів за двох умов. Приклади можна знайти у їхньому сховищі проектів: https://nbviewer.jupyter.org/github/M0hammadL/scGen_notebooks/blob/master/notebooks/scgen_kang.ipynb.