Складання транскриптомів із давно прочитаних вирівнювань РНК-послідовностей із повним текстом біології геному StringTie2

Анотація

РНК-секвенування за допомогою новітніх одномолекулярних інструментів секвенування виробляє читання довжиною в тисячі нуклеотидів. Можливість збирати ці довгі читання може значно покращити чутливість довго читаних аналізів. Тут ми представляємо StringTie2, асемблер транскриптомів з керованими посиланнями, який працює як з короткими, так і з довгими читаннями. StringTie2 включає нові методи для обробки високого рівня помилок довгих читань і пропонує можливість роботи з повнорозмірними супер-читаннями, зібраними з коротких читань, що додатково покращує якість короткочасних читань. StringTie2 є більш точним і швидким і використовує менше пам'яті, ніж усі аналогічні засоби короткого читання та тривалого читання.

складання

Передумови

Вимірювання кількості транскриптів у наборі даних РНК-секвенування (RNA-seq) є потужним способом зрозуміти роботу клітини. Просте вирівнювання зчитування з еталонним геномом може дати приблизні оцінки середньої експресії генів і натякнути на різне використання сайтів сплайсингу [1], але для створення точної картини генної активності необхідно зібрати колекції зчитувань у транскрипти. Альтернативне сплайсинг дуже поширене у еукаріотів, оскільки, за оцінками, 90% генів, що кодують мульти-екзонний білок людини, і 30% генів, що не кодують РНК (ncRNA), мають множинні ізоформи [2, 3]. Хоча кількість анотованих генів, що кодують білок людини, залишається більш-менш постійною протягом останнього десятиліття, кількість генів ncRNA та кодуючих білок ізоформ продовжує зростати [4].