Вимоги про компенсацію працівників, що отримують допомогу з використанням аналітики - Випробування компенсації працівників, які отримують допомогу в рамках аналітики

Опубліковано 16 вересня 2016 р

Аналіз даних, схеми травматизму, сортування, компенсація працівникам

Директор з науки про дані Інна Колишкіна та Актуар схеми в ReturnToWorkSA Іван Лебедєв об'єднують зусилля, щоб пояснити проект, який було здійснено для вивчення корисності розширених можливостей аналізу даних для ReturnToWorkSA.

У 2014 році ReturnToWorkSA розпочав проект з вивчення потенційної корисності розширених можливостей аналізу даних для свого бізнесу.

Метою було спрогнозувати ймовірність того, що вимоги залишатимуться на підтримку доходу протягом одного року або більше з дати подання заявки (надалі ця подія буде називатися «довгостроковою»), використовуючи інформацію, доступну через тринадцять тижнів після подачі заявки.

Подальшою вимогою було те, що модель прогнозування повинна легко інтерпретуватися бізнесом.

В середньому до 13 тижнів після подання претензії більше 80% заявників повернуться на роботу. Решта, мабуть, мали певні бар’єри, що заважали їм відновитись. Ці бар'єри зазвичай пов'язані з важкістю основного медичного стану, психосоціальними факторами, такими як відносини з роботодавцем/роботою, загальна стійкість працівника тощо.

Через 13 тижнів після подання заявки на проживання встановлюється історія, яка включає медичну діагностику та лікування, взаємодію з лікарем загальної практики/спеціалістами, виплати прав тощо. Хоча кожен елемент цих даних може бути не особливо передбачувальним, бізнес-кейс мав на меті перевірити, чи розширені дані аналітика дозволить виявити закономірності та комбінації, які надійно передбачають високу або низьку ймовірність того, що претензія стане довгостроковою.

Виклики

На випадок позову, який стає довгостроковим, впливає багато факторів. Сильна мінливість тривалості позову для даного виду травми та віку проілюстрована на малюнку 1.

працівників

Рисунок 1: Двосторонній аналіз тривалості позову в залежності від віку та характеру травми. Синя крива показує узагальнену адитивну модель (GAM), вписану в дані, а темно-сіра область навколо неї показує відповідну смугу довірчих інтервалів. Чітко видно високий ступінь мінливості для постраждалих працівників одного віку та типу травми.

Особливостями, що суттєво ускладнюють моделювання результатів позову, є розрідженість даних, мультиколінеарність та той факт, що більшість потенційно важливих предикторів (таких як коди TOOCS для характеру травми, розташування тіла тощо) мають велику кількість категорій.

Перед викликами

Система TOOCS має великий розрив між найвищим рівнем (характер групи травм) та найнижчим рівнем (індивідуальний характер травми). Як результат, деякі категорії високого рівня занадто широкі, щоб бути корисними, тоді як деякі категорії низького рівня мають занадто мало підтримки (кількість заявок у наборі даних). Для вирішення цієї ситуації в ієрархії були підняті категорії низького рівня з великою підтримкою, категорії нижчого рівня з малою підтримкою знижені, а категорії низького рівня з малою підтримкою об'єднані з подібними.

Оскільки характер пошкодження та розташування тіла, як очікувалося, були одними з найважливіших предикторів тривалості позову, важливим кроком було їх об'єднання в єдину змінну, щоб зосередитись лише на комбінаціях, які мали місце на практиці.

Нарешті, ми застосували кореляційний аналіз, щоб виявити кластери змінних, які сильно корелювали між собою; змінні, які, як було встановлено, містять надлишкову інформацію, можуть бути вилучені з аналізу без шкоди для точності або достовірності передбачення.