Весь секвенування геному етнічного Патана (Пахтун) з північного заходу Пакистану BMC Genomics

Анотація

Передумови

Пакистан охоплює ключову географічну область в історії людства, будучи одночасно частиною району річки Інд, який виступав як одна з колисок цивілізації та як сполучна ланка між Західною Євразією та Східною Азією. Цей регіон населений низкою різних етнічних груп, найбільшими з яких є панджабі, патан (пахтуни), сіндхі та белудж.

Результати

Ми проаналізували перший етнічний чоловічий геном Патана шляхом секвенування його до 29,7-кратного охоплення за допомогою платформи Illumina HiSeq2000. Загалом було виявлено 3,8 мільйона однонуклеотидних варіацій (SNV) та 0,5 мільйона малих інделів шляхом порівняння з референтним геномом людини. Серед SNV 129 441 були новими, а 10 535 несинонімічних SNV було виявлено в 5344 генах. SNV були позначені щодо наслідків для здоров'я та захворювань високого ризику, а також можливого впливу на ефективність наркотиків. Ми підтвердили, що представлений тут геном Патана є представником цієї етнічної групи, порівнявши його з панеллю середньоазіатських країн із панелей HGDP-CEPH, набраних для

650 к ОНП. МтДНК (H2) та гаплогрупа Y (L1) цієї людини також були типовими для його географічного регіону походження. Нарешті, ми реконструюємо демографічну історію PSMC, яка підкреслює нещодавнє збільшення ефективного чисельності популяції, сумісне з домішкою між європейськими та азіатськими лініями, що очікується в цьому географічному регіоні.

Висновки

Ми представляємо послідовність цілого геному та аналізи етнічного патана з північно-західної провінції Пакистану. Це корисний ресурс для розуміння генетичних змін та міграції людей по всьому азіатському континенту.

Передумови

Технологія секвенування швидко вдосконалюється, різко зменшуючи її витрати [1]. Ці швидкі досягнення значно розширили наше розуміння генетичного різноманіття людини та історії популяції [2], дозволивши нам дослідити варіанти із наслідками для здоров’я та проклавши шлях до персоналізованої медицини [3]. Дослідження асоціацій із широким асоціацією геномів (GWAS) характеризують функцію тисяч загальних SNV, але все ще залишаються незвіданими мільйони варіантів [4]. Отже, для детального вивчення рідкісних геномних варіантів необхідне секвенування цілого генома. Ряд міжнародних консорціумів розпочали послідовність послідовностей цілих геномів великих панелей, включаючи Проект 1000 геномів (www.1000genomes.org), Проект особистого геному (www.personalgenomes.org) та 100 малайських геномів [5]. Ці консорціуми, а також кілька географічно більш обмежених проектів мають на меті зрозуміти функціональні аспекти як загальних, так і унікальних варіантів у людей. У майбутньому можна очікувати, що всі окремі етнічні групи будуть секвенувати свої геноми.

Пакистан лежить на стику індійського субконтиненту на Сході, держав Центральної Азії на Заході та Китаю на його півночі. Він має унікальну соціально-релігійно-культурну історію, крім ряду етнічних та мовних груп, таких як панджабі, Патан (Пахтуни), Сіндхі та Белух (Додатковий файл 1: Рисунок S1) [6]. Хоча низка цих груп була включена до генетичних панелей, що друкують мікросателіти та SNP [7], до цього часу було проведено секвенування лише однієї особини пакистанського чоловіка невідомого етнічного походження (додатковий файл 1: Рисунок S2) [8]. Тут ми повідомляємо про першу послідовність цілого геному та аналіз самця Патана (громадянин Пакистану). Геномні варіації, включаючи однонуклеотидні варіації (SNV), невеликі вставки та делеції (indels) та області варіації кількості копій (CNVR) були виявлені шляхом вирівнювання послідовності генома Pathan до людського референтного геному (hg19). Потім варіанти коментували і сканували на відповідні функції, а також SNV, які могли модулювати реакцію на препарат. Можливі шкідливі несинонімічні SNV (nsSNV) досліджували на предмет потенційного впливу на фармакокінетику та фармакодинаміку лікарських засобів. Крім того, для оцінки впливу внесків предків у геном Патана (PTN) використовувались численні аналітичні підходи.

Результати і обговорення

Послідовність геномів та ідентифікація варіантів

ДНК, витягнуту з крові, секвенували з парним зчитуванням 90 п.н., використовуючи секвенсор Illumina HiSeq2000, даючи 1 069 127 677 зчитувань. Загалом було створено 83,3 Гб послідовностей та вирівняно до еталонного геному людини (без Ns, 2 861 343 702 п.н.), що охоплює 98,2% еталонного геному на середній глибині 28,5 × (Додатковий файл 2: Таблиця S1).

Ми виявили загалом 3 813 440 SNV, з яких 3 683 999 (96,6%) було зареєстровано в базі даних dbSNP [9], а 129 441 було новим (Таблиця 1), які далі порівнювали з кількістю нових варіантів інших окремих геномів з літератури 1: Рисунок S3) [10-19]. Існувало 1 272 912 гомозиготних та 2 540 528 гетерозиготних SNV. Всього було виявлено 18 547 SNV в кодуючих областях послідовності ДНК (CDS), 25 481 в 3 'неперекладених областях (UTR) та 4969 в 5' UTR. Всього 10315 SNV у 5344 генах були несинонімами (nsSNV).

Всього було спостерігано 504 276 коротких інделів (до ± 20 основ), з них 306 128 виявлено в міжгенних регіонах, 237 в регіонах CDS та 193 308 в інтронах. Крім того, було виявлено 1503 CNVR, 713 з яких класифіковано як дубльовані, а 790 як видалені, що впливає на 2364 гени, що перекриваються (додатковий файл 3: Таблиця S2). Загалом 65 CNVR раніше не описувались у базі даних геномних варіантів (DGV; http://projects.tcag.ca/variation/). На малюнку 1 показано кількість отриманих і втрачених CNVR в кожній хромосомі. ANNOVAR був використаний для детального анотаційного аналізу CNVR для ідентифікації генів, асоційованих з цими регіонами (додатковий файл 4: Таблиця S3).

весь

Скопіюйте області варіації чисел у геномі Патана. Кількість варіацій кількості копій, розподілена в кожній хромосомі.

Функціональна класифікація та клінічна значимість варіантів

Всі 10315 nsSNV, знайдені в геномі Патана, були додатково перевірені на предмет можливих функціональних ефектів за допомогою обчислювальних методів прогнозування (SIFT та Polyphen2), в результаті чого 43 nsSNV у 43 генах були класифіковані як функціонально пошкоджуючі (Додатковий файл 5: Таблиця S4). Крім того, nsSNV були анотовані за допомогою ClinVar для їх клінічної значущості, і ми виявили, що 31 кодує SNVs асоційовано з декількома захворюваннями (Додатковий файл 6: Таблиця S5). Особливої ​​уваги заслуговує SNV (rs1049296, Pro570Ser) у TF ген [20], який впливає на сприйнятливість до Альцгеймера; Ser217Leu в ELAC2 ген (rs4792311), який причетний до генетичної сприйнятливості до спадкового раку простати [21]. Рівень простати низький у Пакистані (3,8%) [22], порівняно з американцями та кавказцями [23]. Три кодування SNV GHRLOS (rs696217, Leu72Met), СЕРПІН1 (rs6092, Ala15Thr) та PPARG (rs1801282, Pro12Ala), які всі пов’язані з ожирінням [24-26]. Повідомляється, що близько 22,2% пакистанців страждають ожирінням, що є близьким до європейського (

24%) та населення США (

Ми також виявили три патогенні SNV в генах, пов'язаних з волоссям, шкірою та пігментацією: ЕДАР (rs3827760, Val370Ala), SLC45A2 (rs16891982, Phe374Leu) та TYR (rs1042602, Ser192Tyr) [30-32]. Крім того, ми виявили SNV (rs17822931, Gly180Arg) у ABCC11, який відповідає за вологу вушну сірку, яка також була знайдена в пакистанському геномі PK1 [33].

Один із варіантів (rs1065852, Pro34Ser) у CYP2D6 ген відповідає за поганий метаболізм дебризохіну, адреноблокуючого препарату, що використовується для лікування гіпертонії [34]. Крім того, два SNV в TPMT (rs1142345, Tyr240Cys та rs1800460, Ala154Thr), як відомо, мають патогенну дію та призводять до дефіциту тіопурину метилтрансферази (TPMT) [35,36]. Крім того, два nsSNV (RS2056899 та RS140980900) CYP4A22 і GGT5 були знайдені гени на шляху метаболізму арахідонової кислоти (Додатковий файл 7: Таблиця S6). Арахідонова кислота в організмі людини зазвичай надходить з дієтичних тваринних джерел, таких як м’ясо, яйця та молочні продукти. М’ясо є важливою складовою дієти Патана, яке зазвичай вживають принаймні раз на день, часто у формі кабабу (смаженого в олії фаршу) або каррі [37].