Оптимальний класифікатор незбалансованих даних із використанням метрики коефіцієнта кореляції Метьюса

Відділ біології систем приналежності, Медичний та дослідницький центр Sidra, Доха, Катар

Партнерська лабораторія Седрік, CNAM, Париж, Франція

Клінічний дослідницький центр філії, Медичний та дослідницький центр Sidra, Доха, Катар

Сабрі Богорбель,
Фетхі Джаррей,
Мухаммед Ель-Анбарі

Цифри

Анотація

Цитування: Boughorbel S, Jarray F, El-Anbari M (2017) Оптимальний класифікатор для незбалансованих даних за допомогою метрики коефіцієнта кореляції Метьюса. PLOS ONE 12 (6): e0177678. https://doi.org/10.1371/journal.pone.0177678

Редактор: Цюань Цзоу, Університет Тяньцзіня, КИТАЙ

Отримано: 3 січня 2017 р .; Прийнято: 30 квітня 2017 р .; Опубліковано: 2 червня 2017 р

Наявність даних: Дані, використані в цій роботі, є загальнодоступними та зібрані в наступному сховищі: https://github.com/bsabri/mcc_classifier/.

Фінансування: Цю роботу підтримав Катарський фонд.

Конкуруючі інтереси: Автори заявили, що не існує конкуруючих інтересів.

1 Передумови

За винятком точності, інші показники підходять для незбалансованих даних.

1.1 SVM для незбалансованого навчання

Для еталону ми вибрали підтримку Vector Machine (SVM) для незбалансованих даних як хороший метод з літератури. SVM виконує класифікацію, знаходячи гіперплощину (wx + b), яка максимізує поле між двома класами. Однак бувають ситуації, коли нелінійна межа може ефективніше розділити групи. SVM обробляє це за допомогою функції ядра (нелінійної) для відображення даних у просторому просторі. Ефективність класифікатора SVM в основному залежить від вибору функції ядра та налаштування різних параметрів у функції ядра. Гауссова радіальна базова функція є одним з популярних ядер. Для незбалансованих наборів даних ми зазвичай використовуємо покарання за неправильну класифікацію за клас. Це називається SVM, зваженим за класом, який мінімізує наступну програму: де ξi - позитивна вільна змінна, така що якщо 0 1, то екземпляр i неправильно класифікується. Параметри C + і C - це слабкі покарання для позитивних і негативних класів сприйнятливо.

У цій роботі ми використовували дисбаланс SVM з ядром Гауса таким чином, що для двох випадків x і x ′ ми маємо K (x, x ′) = exp (−γ || x - x ′ || 2). Глобальна модель має три параметри C +, C - і γ. На рис. 1 наведено приклад ефекту введення двох ваг регуляризації на результати класифікації. Межа прийняття рішень зміщується у бік мажоритарного класу і, отже, ефективність роботи покращується в цьому прикладі.

Ми провели експериментальний аналіз, щоб встановити значення цих параметрів на основі навчальних даних. Ми використовували емпіричне правило, запропоноване Akbani et al. що співвідношення дорівнює відношенню класу меншість до більшості [11].

Решта цієї статті організована таким чином. У розділі 2 ми описуємо версію Support Vector Machines, яка обробляє незбалансовані дані. У розділі 3 ми пропонуємо оптимальний класифікатор на основі метрики MCC. Ми показуємо, що він узгоджується, тобто асимптотично збігається з теоретичним оптимальним класифікатором. В останньому розділі ми представляємо та обговорюємо результати експериментів.

2 Метрика MCC для незбалансованих даних

2.1 Визначення MCC

Метрику MCC вперше представив B.W. Метьюз для оцінки ефективності прогнозування вторинної структури білка [12]. Потім він стає широко використовуваним показником ефективності в біомедичних дослідженнях [13–17]. MCC та зона під кривою ROC (AUC) були обрані як вибірковий показник в ініціативі MAQC-II, очолюваній FDA, яка спрямована на досягнення консенсусу щодо найкращих практик з розробки та перевірки прогнозних моделей для персоналізованої медицини [16].