LAceModule Ідентифікація конкуруючих ендогенних РНК-модулів шляхом інтеграції динамічної кореляції

Пов’язані дані

Дані про РНК-послідовності, дані про мікроРНК-послідовності, дані CNV та дані про метилювання генів наведені в Атласі генома раку (TCGA). Вихідні коди LAceModule доступні на https://github.com/GaoLabXDU/LAceModule.

Анотація

Вступ

На відміну від звичайних кореляцій (наприклад, PCC), динамічна кореляція фокусується на зміні кореляції двох змінних після змін у третій змінній (Gunderson and Ho, 2014; Yu, 2018). Наприклад, LA визначається як середнє значення похідної кореляції між двома об'єктами щодо третьої умови (Li, 2002). LA був використаний для ідентифікації генів-кандидатів на захворювання (Li et al., 2007) та генів, пов’язаних із віком людини (Yang et al., 2018), а також для виявлення ключових мікробних видів та факторів середовища мікробної спільноти (Ai et al. ., 2019).

LA є відповідним показником для оцінки кореляційної чутливості цеРНК до мікроРНК. У цьому дослідженні ми спочатку проаналізували ефективність LA у виявленні пар цеРНК. Згодом ми запропонували основу для дослідження модулів ceRNA на основі LA (LAceModule) шляхом інтеграції звичайного PCC та динамічної кореляції LA з множинною невід'ємною факторизацією матриці (NMF). Проводячи подальший аналіз на рак молочної залози, ми виявили, що цеРНК відіграють роль у адгезії клітин, міграції клітин та комунікації між клітинами. Наші результати також показали, що цеРНК можуть представляти перспективні лікарські мішені та маркери для лікування та прогнозу раку.

Результати

LA для прогнозування пар цеРНК

Сучасні дослідження часто використовують PCC або SI для виявлення пар цеРНК. Цей підхід ігнорує чутливість кореляції між РНК до рівнів експресії спільних мікроРНК. Щоб подолати це обмеження, ми використовували LA (Li, 2002) для вимірювання динамічних змін кореляції пари цеРНК залежно від рівнів експресії спільних мікроРНК. Припустимо, що EXPR1 та EXPR2 представляють рівні експресії двох кандидатів на ceRNA R1 та R2, відповідно, тоді як EXPMIC позначає суму рівнів експресії всіх їх загальних мікроРНК, MIC. Ми нормалізували EXPR1 та EXPR2, використовуючи метод оцінювання z, таким чином, що E (EXPR1) = E (EXPR2) = 0, Var (EXPR1) = Var (EXPR2) = 1, де E (·) та Var (·) представляють очікування і дисперсія випадкової величини відповідно.

Припустимо вищесказане, PCC між R1 і R2 є:

LA R1 ​​та R2 щодо їх спільних мікроРНК визначається як LA (R 1, R 2 | MIC) = E (g ′ (EXPMIC)), де g (EXPMIC) = E (EXPR1 × EXPR2 | EXPMIC = expMIC ). Відповідно до леми Штейна (Stein, 1981), якщо сума рівнів експресії всіх спільних мікроРНК MIC відповідає стандартному нормальному розподілу, LA (R1, R2 | MIC) = E (EXPR1 × EXPR2 × EXPMIC), обчислення LA можна спростити, як показано нижче:

де N - кількість вибірки. Ми виконали перетворення даних на EXPMIC, використовуючи метод Ван дер Вардена, щоб переконатися, що EXPMIC відповідає стандартному нормальному розподілу. Для EXPMIC1, EXPMIC2, ⋯, EXPMICN ми спочатку отримали їх ранги r1, r2, ⋯, rN, а згодом обчислили перетворене значення наступним чином:

де Φ (·) - кумулятивна функція розподілу стандартного нормального розподілу.

конкуруючих

(A) Підготовка даних. Ми отримали дані РНК-послідовності мРНК та lncRNAs, а також дані microRNA-seq мікроРНК. Згодом ми видалили неекспресовану та слабо експресовану РНК. Нарешті, ми зберегли РНК, які були представлені в наборах даних взаємодії РНК-мікроРНК (тут Mirwalk2.0) як кандидати-цеРНК. (B) Огляд LAceModule. Вхідні дані LAceModule - це кандидатні профілі експресії ceRNA, профілі експресії microRNA та взаємодії RNA-microRNA. Для кожної пари цеРНК-кандидатів можна отримати значення PCC, значення LA та ступінь значущості значення спільних мікроРНК (MS-P). Для пар з вищими значеннями MS-P (поріг 0,05) негативні значення PCC або значення LA повинні бути видалені (тобто значення PCC та значення LA цих пар встановлюються на нуль). Мультипрозорий NMF виконується з використанням матриці PCC, матриці LA та різних K як входів. Кращий К вибирається шляхом порівняння чотирьох метрик оцінки кластеризації. Згодом процедури NMF із декількома переглядами повторюються 10 разів із найкращими K та різними початковими значеннями. Остаточні модулі отримані шляхом консенсус-кластеризації результатів повторення.

Таблиця 1

Значення LA, PCC та SI валідованих пар цеРНК.

ceRNA1цеРНК2PCCLASIMS-P *Захворювання
ENSG00000234741ENSG00000171862−0,0580,040−0,0080,005BRCA
ENSG00000251562ENSG000000708310,043−0,0090,0020,001BRCA
ENSG00000251562ENSG00000135446−0,3770,000−0,0030,022BRCA
ENSG00000115414ENSG000000265080,082−0,003−0,0010,001BRCA
ENSG00000108821ENSG00000026508−0,0140,0820,0010,029BRCA
ENSG00000171862ENSG000000384270,3790,075−0,0040,002BRCA
ENSG00000038427ENSG000001396870,3680,0580,0000,003BRCA
ENSG00000226950ENSG000001680360,1310,103−0,0030,012LIHC
ENSG00000234741ENSG000001505930,205−0.205−0,0140,003LIHC
ENSG00000234741ENSG00000171862−0,003−0.107−0,0020,013LIHC
ENSG00000241388ENSG000000576630,035−0,068−0,0050,033LIHC
ENSG00000251164ENSG00000148516−0,0930,097−0,0010,004LIHC
ENSG00000251164ENSG00000168615−0,3920,4110,0030,034LIHC