Анотація збережених та нових особливостей транскриптомів приматів за допомогою секвенування біології генома

Анотація

Недавні високопродуктивні послідовності транскриптомів головного мозку та печінки шимпанзе, опубліковані в Біологія геному розкриває численні стенограми, загублені в геномі людини, та підкреслює неповноту анотацій геному приматів.

збережених

Основна тематика дослідження

Завершення геному людини супроводжувалося секвенуванням геномів близьких видів приматів, таких як шимпанзе та резус-макака. Мотивація була простою: оскільки геном давав схему організму, порівняння між геномом людини та геномами приматів, що не є людьми, повинно виявити геномні особливості, що лежать в основі фенотипу людини.

Однак однією з проблем цього підходу є те, що геном насправді не є проектом фенотипу, а скоріше добре розшифрованим повідомленням, в якому функціонально відповідні послідовності втрачаються в морі фенотипово нейтральної інформації. Здається, прямий спосіб ідентифікації функціональних послідовностей - це визначення транскрибованих областей. Однак це непросте завдання, оскільки транскриптом сильно варіюється залежно від типу клітин і різко змінюється протягом тривалості життя організму. Таким чином, протягом останнього десятиліття було докладено великих зусиль для анотування транскриптома людини, головним чином шляхом секвенування транскриптів, перетворених у бібліотеки кДНК за допомогою звичайного секвенування Сангера. В результаті стало ясно, що за умови достатнього охоплення секвенуванням майже будь-яку геномну послідовність можна виявити на рівні транскриптома [1]. Це не зовсім дивно, оскільки гени людини часто містять довгі інтрони; більше того, РНК-полімераза може генерувати спонтанні транскрипти, які не мають функціонального значення. Тим не менше, цей результат вказував на те, що розподіл геному на транскрибовані та нетранскрибовані частини для визначення функціональності було здебільшого марним.

Ці проекти секвенування кДНК також показали, що межі більшості людських генів, включаючи місця початку та закінчення транскрипції та схеми сплайсингу внутрішніх екзонів, досить нечіткі [2–6]. Крім того, багато виявлених транскриптів та ізоформ генів виявились рідкісними. Однак це не означає, що вони функціонально недоречні, оскільки такі транскрипти можуть виконувати важливу роль в обмеженій кількості клітин тканини або на певній стадії розвитку. Крім того, багато важливих регуляторів, таких як фактори транскрипції, виражаються на низьких рівнях. Як результат, поточна анотація транскриптома людини представляє певний компроміс між впевненістю та всебічністю і містить стенограми, ідентифіковані з різним ступенем довіри. Складність складання такої анотації найкраще ілюструється різницею, яка існує між RefSeq, Ensembl, Каліфорнійським університетом Санта-Крус (UCSC), браузером генома, браузером Vega Genome та інтегрованою базою людських генів та транскриптів (H-Invitational Database ): виявляється середнє перекриття 60–70% порівняно з будь-якими двома з цих баз даних анотацій.

Інший спосіб визначити функціонально відповідні розшифровки - вимагати, щоб експресія даної розшифровки зберігалася у всіх видів. Як альтернатива, якщо когось цікавлять локуси, важливі для фенотипу людини, можна визначити регіони із специфічними для людини профілями транскрипції. Однак анотація транскриптомів приматів, що не є людиною, в основному відсутня, і те, що присутнє, повністю засноване на відображенні анотації людини до відповідних геномів приматів. Оскільки сама анотація транскриптома людини далеко не є повною, а якість геномів неприматів набагато гірша, ніж якість геному людини, така анотація на основі картографування не є безпроблемною. Але, що найважливіше, хоча цей метод може дозволяти ідентифікувати розшифровки, наявні у людей і відсутні у інших приматів, він не дозволяє ідентифікувати розшифровки, втрачені з людського роду.