Висока інформаційна здатність зберігання даних на основі ДНК з використанням розширених символів кодування
Предмети
Анотація
Зберігання даних на основі ДНК стало перспективним методом задоволення експоненціально зростаючого попиту на зберігання інформації. Однак практична реалізація зберігання даних на основі ДНК залишається проблемою через високу вартість запису даних за допомогою синтезу ДНК. Тут ми пропонуємо використовувати вироджені бази як кодуючі символи на додаток до A, C, G та T, що збільшує обсяг даних, які можна зберігати на довжину розробленої послідовності ДНК (інформаційна ємність), і зменшуючи кількість ДНК синтез на зберігання одиниці даних. Використовуючи запропонований метод, ми експериментально досягли інформаційної ємності 3,37 біт/символ. Продемонстрована інформаційна спроможність більше ніж удвічі порівняно з найвищою інформаційною спроможністю, яку досягли раніше. Запропонований метод може бути інтегрований із синтетичними технологіями в майбутньому для зниження вартості зберігання даних на основі ДНК на 50%.
Вступ
Тут ми пропонуємо та демонструємо використання вироджених основ (поєднання чотирьох основ ДНК, які можна вставити в будь-які базові ділянки в послідовності) 11 як додаткових символів кодування для перевищення теоретичної межі інформаційної ємності 2,0 біта/символ. Вироджені основи розташовані в послідовності ДНК, коли нуклеотиди змішуються в певному положенні в послідовності ДНК. Наприклад, у послідовності «AWC», «W» позначає комбінацію A і T; таким чином, у пулі молекул існують два типи варіантів нуклеотидів: «AAC» та «ATC». У цій статті, використовуючи одинадцять вироджених основ на додаток до чотирьох символів ДНК, ми експериментально досягаємо інформаційної ємності 3,37 біт/символ у бібліотеці олігонуклеотидів, що складається з сотень копій кожної послідовності. Іншими словами, ми зберігаємо більше даних, використовуючи менше копій кожної послідовності, порівняно з числом молекули, використаною в попередніх дослідженнях. Як результат, ми демонструємо, що довжина ДНК, необхідна для зберігання однакового обсягу даних, зменшилась більш ніж наполовину порівняно з попередніми звітами 3,4,5,6,9,10. Запропонована технологія може бути інтегрована із синтетичними технологіями в майбутньому, щоб зменшити вартість зберігання даних на основі ДНК на 50%.
Результати
Додавання вироджених основ до зберігання даних на основі ДНК

Зберігання даних на основі ДНК з додаванням вироджених основ забезпечує збільшення інформаційної ємності. (A) Двійкові дані кодуються в послідовності ДНК, що містять не тільки 4 традиційні кодуючі символи A, C, G та T, але також 11 додаткових вироджених основ. Довжина закодованої ДНК менше довжини чотирисимвольного методу кодування. () Тому обмеження теоретичної інформаційної ємності збільшено з 2 біт/символ до 3,9 біт/символ. Точки на графіку описують значення інформаційної ємності в попередніх дослідженнях, а цифри вказують відповідне посилання. (C.) Вироджена основа, представлена кодуючим символом, описує змішаний пул з більш ніж двох типів нуклеотидів. (D) Вироджені основи можуть утворюватися змішуванням фосфорамідитів ДНК під час синтезу.
Структура та результат декодування платформи зберігання даних на основі ДНК
Структура та результат декодування платформи зберігання даних на основі ДНК. Ми досягли найвищої інформаційної ємності та фізичної щільності зберігання даних на основі ДНК. (A) Проектна структура фрагментів ДНК. () Фрагменти ДНК можна аналізувати за допомогою NGS. Після класифікації за адресою вироджені бази можна розшифрувати, вивчивши розподіл символів у тому самому положенні (жовта смужка). (В) Вироджені основи можна визначити за графіком розсіювання співвідношення основ в одному і тому ж положенні. (D) Частота помилок визначених основ ДНК у конкретному середньому охопленні загальних фрагментів. Стандартні відхилення (s.d.) були отримані повторенням випадкової вибірки 10 разів. Смужки помилок представляють s.d. (Е) Підсумок експериментальних результатів. Інформаційна ємність обчислюється на основі вхідної інформації в бітах, поділеної на кількість символів кодування (за винятком кількості сайтів адаптерів). Ми порівняли результати нашої роботи з результатами Ерліха та Зелінських 10, які раніше повідомляли про найвищу інформаційну ємність та фізичну щільність за допомогою об'єднаного синтезу оліго та даних про послідовність з високою пропускною здатністю. Фізична щільність - це відношення кількості байтів, закодованих до ваги бібліотеки ДНК, яка використовується для декодування інформації.
Перевірка та прогнозування вартості запропонованої платформи за допомогою моделювання
0,05 $/100 нт, додаткова примітка) 22 з використанням синтезатора пулу олігонуклеотидів на основі струменевого струменя. Більше того, оскільки вартість секвенування ДНК зменшується швидше, ніж закон Мура, і швидше, ніж синтез ДНК, розрив у цінах між секвенуванням та синтезом збільшиться на замовлення, якщо поточна тенденція збережеться 1,23. Коли застосовується ця вартість, навіть якщо запропонована платформа має надзвичайний випадок покриття NGS у 2000 разів, вартість зчитування даних становитиме менше 5% від вартості запису та менше 0,5%, що буде незначним, через п’ять років (рис. . 3B). Якщо припустити, що синтезатор олігонуклеотидів на основі струменевого принтера встановлений для синтезу виродженої основи, запропонована платформа оцінила зниження вартості зберігання даних на основі ДНК до $ 2052/1 МБ при використанні 15 символів кодування та $ 1795/1 МБ при використанні 21 символу кодування, що є приблизно 50% від попереднього мінімуму $ 3555/1 Мб 10 (Рис. 3B, Додаткова примітка).
Обговорення
У цій демонстрації завдяки використанню вироджених баз інформаційна ємність та фізична щільність були більш ніж подвоєні порівняно з попередньо повідомленими платформами зберігання даних на основі ДНК. Зокрема, із збільшенням інформаційної ємності платформа скорочує довжину ДНК, необхідної для зберігання еквівалентного обсягу даних, і зменшує загальні витрати на зберігання даних наполовину. У наступних дослідженнях фізична щільність буде збільшуватися емпіричним шляхом, а також будуть виконуватися дослідження, що пересувають верхню межу фізичної щільності. Крім того, введений спосіб скорочує час синтезу, якщо є відповідна система синтезу. Наприклад, техніка синтезу олігонуклеотидів на основі колон, яка використовує етапи промивання та зняття захисту, яка збільшується пропорційно довжині синтезованих олігонуклеотидів. Оскільки ми можемо скоротити тривалість синтезу для зберігання однакової кількості даних, час синтезу зменшиться.