Складання генома De novo сорту рису Indica IR64 з використанням послідовної зв’язаної послідовності та нанопор

Анотація

IR64 - це сорт рису з високою врожайністю, який широко культивується у всьому світі. IR64 замінено на сучасні сорти в більшості районів вирощування. Враховуючи, що сучасні сорти є переважно потомками або родичами IR64, генетичний аналіз IR64 є цінним для функціональної геноміки рису. Однак послідовності геному на рівні хромосом IR64 раніше не були доступними. Тут ми секвенували геном IR64, використовуючи синтетичні довгі зчитування, отримані шляхом секвенування з зв’язаним зчитуванням, і наддовгі зчитування, отримані шляхом секвенування нанопор. Ми інтегрували ці дані та створили нову збірку генома IR64 на 367 Мб, що еквівалентно 99% від передбачуваного розміру. Безперервність збірки генома IR64 була покращена порівняно із загальнодоступною збіркою генома IR64, генерованою лише короткими зчитуваннями. Ми зазначили 41 458 кодуючих білок генів, у тому числі 657 IR64-специфічних генів, яких немає в інших високоякісних збірках генома рису IRGSP-1.0 сорту японіка Ніппонбаре або R498 сорту індіки Shuhui498. Агрегат IR64 буде служити ресурсом геному для функціональної геноміки рису, а також для геномної та/або молекулярної селекції.

IR64 - це знаковий сорт рису індика (Oryza sativa L.), який був розроблений Міжнародним інститутом досліджень рису на Філіппінах у 1985 р. (Mackill and Khush 2018). IR64 - нащадок «чудо-рису» IR8, початкового сорту Зеленої революції. IR8 різко збільшив урожай зерна завдяки гену напівкарликів sd1. Окрім високої врожайності, IR64 має високу якість їжі та стійкість до хвороб, тому IR64 був одним із найпопулярніших сортів рису, що вирощувався в Південно-Східній та Південній Азії з кінця 1980-х до початку 2000-х років. Сучасні сорти з більш високою врожайністю та покращеною стійкістю до хвороб замінили IR64 у багатьох країнах за останні два десятиліття. Важливо, що ці сучасні сорти є переважно потомками або родичами IR64 (Mackill and Khush 2018). Крім того, на генетичному тлі IR64 були розроблені майже ізогенні лінії, що надають нові та вдосконалені риси, такі як толерантність до посухи та стійкість до занурення. Отже, генетичний аналіз IR64 залишається надзвичайно важливим для подальшого вдосконалення IR64 або його потомків.

Еталонна послідовність геномів сорту рисової японки Ніппонбаре аналізували за допомогою BAC-by-BAC секвенування з використанням технології секвенування Sanger (Goff et al. 2002, IRGSP 2005). Досягнення високопродуктивних технологій секвенування дозволило провести повторне секвенування цілого генома тисяч сортів рисової японки, індіки та ауса, а також більш віддалених видів Oryza. Послідовність на основі посилань є потужним методом виявлення малих поліморфізмів, що використовуються для кількісного аналізу локусів ознак та вивчення асоціацій у цілому геному (Huang et al. 2010, Wang et al. 2018). Однак повторне розподіл не застосовується для великих структурних змін або сильно диверсифікованих регіонів. Повідомляється про проект збірки геномів de novo IR64, що генерується короткими зчитуваннями, однак збірка дуже фрагментована і складається з тисяч риштувань (Schatz et al. 2014). У 2014 році були опубліковані послідовності геному на рівні хромосом сорту indica Shuhui498 (R498) (Du et al. 2017). Цей геном був визначений шляхом гібридної збірки з використанням платформ PacBio та Illumina. Якість збірки була порівнянна з послідовностями BAC-by-BAC геному Ніппонбаре.

Синтетичні технології тривалого зчитування дозволяють отримувати віртуальні наддовгі зчитування з коротких зчитувань, генерованих високопродуктивними секвенсорами, а одномолекулярні секвенсори генерують наддовгі читання. Збірки, засновані на цих тривалих зчитуваннях, мають вищу суміжність, ніж на основі лише коротких зчитувань. У цьому дослідженні ми секвенували геном IR64, використовуючи дві платформи: 10x Genomics Chromium зчитуване зчитування та одномолекулярний секвенсор Oxford Nanopore MinION. Ми інтегрували дані послідовності зв’язаного зчитування та дані послідовності нанопор для побудови збірки генома IR64 (рис. 1). Ми використовували загальнодоступну карту генетичних зв'язків, побудовану з рекомбінантних інбредних ліній (RIL), отриманих з IR64 та Azucena, для побудови суперскладок на рівні хромосом. Якість збірки генома IR64 порівнянна з якістю поточних еталонних геномів рису japonica Nipponbare та indica Shuhui498, базуючись на повноті та точності послідовностей геномів та порівняльному аналізі генів. У сукупності ми пропонуємо новий ресурс геному для рисової спільноти та додатковий варіант для економічно ефективного підходу збору геному de novo.

Схематична ілюстрація складання de novo генома IR64. Програмне забезпечення, що використовується для аналізу, позначається курсивом.

Матеріали і методи

Екстракція рослинного матеріалу та ДНК

Насіння IR64 (Міжнародна колекція рисових генних банків № 66970, щонайменше 10 разів проводилося самоконтролем у Національному інституті агробіологічних наук, Японія) стерилізували та інкубували на середовищі Murashige та Skoog з додаванням 3% сахарози та 1% агару при рН 5,8 у ящик для рослин при температурі 28 ° протягом 8 днів. Листя 8-денної розсади заморожували в рідкому азоті і подрібнювали до дрібного порошку за допомогою ступки. Високомолекулярну ДНК екстрагували буфером G2 (Qiagen), доповненим протеїназою K і РНКазою A, при температурі 60 ° протягом ночі з легким перемішуванням. Після центрифугування при 2000 × g протягом 30 хв супернатант завантажували в геномний наконечник 100 (Qiagen), попередньо збалансований буфером QBT (Qiagen), і двічі промивали буфером QC (Qiagen). ДНК елюювали буфером QF (Qiagen), осаджували ізопропіловим спиртом, промивали 70% етанолом і розчиняли в буфері EB (Qiagen). Концентрацію ДНК вимірювали за допомогою набору високої чутливості Qubit dsDNA (Invitrogen).

Публічні послідовності геному рису та дані анотацій

Послідовності геномів та дані анотацій для O. sativa subsp. japonica Nipponbare (IRGSP-1.0) та O. sativa subsp. indica Shuhui498 (R498) були завантажені з RAP-DB (https://rapdb.dna.affrc.go.jp/) (Kawahara et al. 2013; Sakai et al. 2013) та MBKBASE (http: // www. mbkbase.org/R498/) (Du et al. 2017) бази даних відповідно. Ми також завантажили загальнодоступні послідовності геному IR64 з лабораторії Шатца (http://schatzlab.cshl.edu/data/rice/) (Schatz et al. 2014). Враховуючи те, що на веб-сайті не було доступно кодуючих послідовностей (CDS) та білкових послідовностей, ми витягли послідовності CDS із послідовності генома за допомогою файлу GFF і перевели у білкові послідовності. Для виявлення повторюваних елементів ми використовували mipsREdat_9.3p_Poaceae_TEs.fasta, завантажену з бази даних PGSB (http://pgsb.helmholtz-muenchen.de/plant/) (Spannagl et al. 2017).