Усунення розриву між генетикою та нейронними мережами Мірі Троп до науки про дані

Побудова та аналіз нейронних мереж на генетичних даних

Мірі Тропе

28 квітня · 12 хв читання

Нещодавно я проводив дослідження над генетичними послідовностями. Основним питанням, яке займало мене в цьому, було: "яка найпростіша із запропонованих нейронних мереж є найбільш сумісною з генетичними даними?" Після багатого огляду літератури я виявив, що найбільш «приземлена», але захоплююча робота, пов’язана з цією темою, відбулася в лабораторії професора Йошуа Бенджо. Документ під назвою "Дієтична мережа: тонкі параметри для геноміки жиру", і його основною метою було класифікувати генетичні послідовності 3450 особин на 26 етнічних груп. Ця робота надихнула мене, і тут я хотів би пояснити основи побудови нейронних мереж для вирішення такого роду проблем. Для розуміння цього блогу не потрібні попередні знання з біології; Я спробую охопити більшість необхідних частин, щоб перейти прямо до обчислювальних розділів.

Нас чекають складні часи: вірус SARS-CoV-2 залишив нас безпорадними перед потужною силою природи. Вивчаючи нові інструменти: отримуючи інтуїцію щодо геномних даних, та вивчаючи, які методи машинного навчання можуть найкраще узагальнити ці дані; Я сподіваюся, що ми зможемо об’єднати зусилля та внести зміни до кращих днів або, принаймні, використати неймовірний інтелект нейронних мереж, щоб зробити щось, крім розробки розважальних програм, але рятуючи наше життя і навіть нашу планету.

Чому я вважаю генетику такою привабливою?

Ваша генетика розкриває не тільки вашу біологічну інформацію, але й генетичну історію ваших предків, представляючи, які домінуючі частини вижили протягом багатьох років (перегляньте “реконструкцію послідовності предків”).

Іншими словами, це кодування біологічної еволюції вашої родини, і навіть більше того, згідно з Дарвіновою теорією еволюції, вся колекція органічних істот (рослин, тварин тощо) має однакові генетичні принципи.

Дозвольте мені ознайомити вас з іншими типами даних, такими як зображення та речення, щоб зрозуміти унікальність генетичних даних. З одного боку, зображення - це двовимірні дані (або тривимірні для томів) із взаємозв’язками сусідів. Речення - це одновимірні вектори приблизно до тисячі значень з ієрархічним характером речень, підготовлених без нагляду.

З іншого боку, генетична послідовність - це одновимірний вектор (послідовність), що має щонайменше сотні тисяч значень без чітко визначених відносин між сусідами та далеко від того, щоб мати попередньо навчений набір моделей.

Таким чином, G-російський згладжувальний фільтр, який користується великою популярністю в обробці зображень, тут не актуальний, як і всі групи попередньо навчених моделей у зорі (I mageNet, V GG, R esNet ...) та обробці природних мов (W ord2Vec, G love, B ERT…) виведені з гри.

Чому це виклик?

Подумайте про базу даних, що складається з тисяч генетичних зразків. Вам потрібно знайти метод, який добре узагальнює (точність понад 90%) із вхідними даними в десятки мільйонів комбінацій. Нейронна мережа може підійти якнайкраще, оскільки вона використовує потужність повністю підключених блоків так, як це не вистачає в інших «класичних» алгоритмах, таких як PCA, SVM та дерева рішень, які не управляють даними окремо. Тим не менше, побудова найпростішої архітектури мережі вимагає більше десятків мільйонів вільних параметрів у вагах першого шару. Зменшення розмірності (щоб уникнути надлишку вільних параметрів) - один із способів вирішити цю проблему; ми обговоримо це пізніше у цьому блозі.

Щоб прояснити ситуацію та не створювати труднощів щодо головної мети цього форуму, я представляю тут лише погляд на високий рівень біологічних частин, необхідних у цьому блозі. Зайве говорити, що ви більш ніж раді вивчити будь-яку з цих біологічних тем далі.

Що таке генетична послідовність?

Молекула ДНК - це послідовність чотирьох типів основ, представлених буквами A, C, G, T. Конкретні частини послідовності (навіть якщо вони розташовані віддалено) співвідносяться з фенотипом. Наприклад, недавнє дослідження: «Спалах пневмонії, пов’язаний з новим коронавірусом із ймовірним походженням кажанів», вказує на те, що ген ACE2 може бути рецептором (фенотипом) господаря вірусу SARS-CoV-2. Цей приклад та багато інших чудово показують цінну інформацію (виявлення злочинців, відповідність штамів конопель, харчування та персоналізовані ліки), яку можна досягти виключно на основі вашої ДНК.

Що таке генотипи SNP?

У наш час ми як ніколи близькі до досягнення майже повних генетичних послідовностей людини. Однак ми ще далекі від того, щоб охопити його цілісність. Поліморфізми одиночних нуклеотидних поліморфізмів SNP - це специфічні місця генотипів у геномній послідовності, як правило, представлені у вигляді RS [число]. Різні популяції мають різні інваріанти послідовності, але, ймовірно, приблизно однакові в межах сімей (отже, азіати виглядають інакше, ніж європейці). Аналіз послідовностей SNP буде ключовим моментом у решті цього блогу.

У цьому розділі я описую дані та дві основні архітектури мережі (і іншу мережу з покращеними параметрами для подолання деяких основних проблем машинного навчання), а також деякі технічні поради ...

Порівняно з іншими типами даних набори медичних даних важко знайти, головним чином через обмеження конфіденційності. У світлі цього проект 1000 геномів досяг значного прориву, опублікувавши загальнодоступний набір даних з 3450 зразків ДНК людини, 315 тис. SNP кожного з 26 популяцій у всьому світі. На наступному малюнку показана гістограма, отримана з даних 1000 геномів, що відображає частоту особин на популяцію (етнічну приналежність); Середня кількість зразків кожної популяції становить близько 133 генетичних зразків.

Як зазначалося вище, переважно зменшення кількості вільних параметрів у моделі (у нашому випадку ми маємо справу з близько 30 мільйонами параметрів). Запропонований метод для досягнення цього використовує іншу допоміжну мережу поверх дискримінаційної мережі, яка вводить гістограму на клас (матриця вбудовування, розрахована без нагляду). Вихід цієї мережі ініціалізує ваги першого рівня дискримінаційної мережі. Матриця вбудовування - це гістограма нормалізованих генотипів на популяцію, а її розмір - SNPs X [4x26], де чотири означають чотири комбінації генотипів, а 26 - кількість класів (популяцій). Реалізація такої матриці вбудовування описана нижче.

У будь-якому разі, це їхнє рішення; моє рішення полягає в зменшенні кількості шару прихованих одиниць (див. розділ архітектури). Я назвав цю нову архітектуру вдосконаленою моделлю, і однією з її переваг є подолання переобладнання, як обговорюється далі в розділі результатів.

У цьому блозі порівнюються дві основні мережі. Обидві мережі складаються з двох повністю підключених прихованих шарів, за якими слідує шар softmax, але другий (див. Наступну рисунку) включає допоміжну мережу, яка передбачає вільні параметри d кримінальної мережі. Допоміжна мережа приймає в якості вхідних даних матрицю вкладених елементів і повертає ваги дискримінаційної мережі, яка з’явилася першою пізніше (рис. 1).