Глибокі біомаркери старіння людини Застосування глибоких нейронних мереж для розвитку біомаркерів
Євген Путін
1 Pharma.AI Department, Insilico Medicine, Inc, Балтимор, MD 21218, США
2 Лабораторія комп’ютерних технологій, Університет ІТМО, Санкт-Петербург 197101, Росія
Поліна Мамошина
1 Pharma.AI Department, Insilico Medicine, Inc, Балтимор, MD 21218, США
3 Фонд досліджень біогеронтології, Оксфорд, Великобританія
Олександр Аліпер
1 Pharma.AI Department, Insilico Medicine, Inc, Балтимор, MD 21218, США
Михайло Корзінкін
1 Pharma.AI Department, Insilico Medicine, Inc, Балтимор, MD 21218, США
Олексій Москалєв
1 Pharma.AI Department, Insilico Medicine, Inc, Балтимор, MD 21218, США
4 Школа системної біології, Університет Джорджа Мейсона (GMU), Ферфакс, штат Вірджинія 22030, США
Олексій Колосов
5 Invitro Laboratory, Ltd, Москва 125047, Росія
Олександр Островський
5 Invitro Laboratory, Ltd, Москва 125047, Росія
Чарльз Кантор
6 Кафедра біомедичної інженерії, Бостонський університет, Бостон, Массачусетс 02215, США
Ян Війг
7 Відділ генетики Медичного коледжу імені Альберта Ейнштейна, Бронкс, Нью-Йорк 10461, США
Олексій Жаворонков
1 Pharma.AI Department, Insilico Medicine, Inc, Балтимор, MD 21218, США
3 Фонд досліджень біогеронтології, Оксфорд, Великобританія
Пов’язані дані
Анотація
ВСТУП
Однак більшість з цих біомаркерів не є репрезентативними для стану здоров’я всього організму або окремих систем, і їх не легко виміряти або націлити за допомогою відомих втручань. Загальний біохімічний тест крові - один з найпростіших тестів, що використовується лікарями для вивчення стану здоров’я пацієнтів. Хоча деякі маркери біохімії крові мають дуже різну природу, є чутливими показниками різних станів, таких як запалення та навіть алкоголізм, і схвалені для клінічного застосування [13, 14].
Методи машинного навчання (ML), такі як машини з підтримкою векторів (SVM), зазвичай використовуються при розробці біомаркерів [15], а швидке збільшення розмічених даних забезпечує глибокі нейронні мережі (DNN). Методи, засновані на глибоких архітектурах, перевершили класичні підходи не тільки в аналізі зображень, але й у вирішенні широкого кола проблем геноміки, транскриптоміки та протеоміки [16].
У цьому дослідженні ми застосовуємо методику глибокого навчання для прогнозування хронологічного віку людини, яка використовує безліч DNN, складених в ансамбль і підготовлених до десятків тисяч зразків біохімії крові пацієнтів, які проходять регулярні фізичні обстеження. Потім ми використовуємо спеціальну реалізацію техніки важливості перестановки (PFI) [17], щоб оцінити відносну важливість кожного маркера біохімії крові для точності ансамблю. Ми також проаналізували продуктивність та точність 40 архітектур DNN, оптимізованих за допомогою різноманітних оптимізаторів, визначили найкращі DNN та відібрали 21 DNN, які сукупно забезпечували вищу точність та R 2 як ансамбль, ніж найкращий DNN в ансамблі.
РЕЗУЛЬТАТИ
Для проведення цього дослідження ми отримали набір із 62 419 анонімних записів біохімії крові, де кожен запис складається з віку людини, статі та 46 стандартизованих маркерів крові завдяки співпраці з однією з найбільших лабораторних мереж Росії, Invitro Laboratory, Ltd. Ми прагнули отримати дані з достатньо здорового населення. Хоча ми не мали доступу до записів пацієнтів, ми відбирали лише аналізи крові з рутинних перевірок стану здоров'я, уникаючи очевидних джерел нездорових пацієнтів, таких як лікарні, а за допомогою статистичного аналізу пропускали аналізи крові з викидами.
Узагальнений конвеєр проекту зображений на рисунку Рисунок 1. 1. По-перше, ми попередньо обробили набір даних аналізу крові, виключивши високо упереджені маркери з контрольних діапазонів, нормалізуючи їх для тренування DNN та видаливши викиди (детальніше див. Методи). Отриманий набір даних був розділений на навчальний та тестовий набори, що складалися з 56 177 та 6242 зразків, відповідно. Тоді 40 різних DNN пройшли навчання на 56177 зразках крові.

Лабораторні набори біохімічних даних крові були нормалізовані та очищені від викидів та деяких аномальних маркерів. Для прогнозування біологічного віку в ансамблі на основі моделі ElasticNet було об’єднано 21 різні DNN з різними параметрами. Для біологічного прогнозування статі навчали одиноких DNN.
Оскільки ми розглядали вікове прогнозування людини як проблему регресії, ми використовували дві метрики для оцінки ефективності методу: стандартний коефіцієнт детермінації (R 2) та ε-прогнозування (епсилон-прогнозування) точності (детальніше див. Методи). При використанні точності прогнозування епсилон, зразок вважається правильно розпізнаним, якщо передбачуваний вік знаходиться в межах [справжній вік -ε; справжній вік + ε], де ε контролює рівень визначеності у передбаченні. Отже, якщо ε = 0, то це проста точність класифікації. У цьому дослідженні ми розглянули ε = 10. Ключовою перевагою використання точності прогнозування епсилону є те, що він дозволяє проводити когортний аналіз без фіксованого вікового діапазону (наприклад, 10-20, 20-30).