Milloin ja miten moninkertaista imputointia tulisi käyttää puuttuvien tietojen käsittelyyn satunnaistetuissa kliinisissä tutkimuksissa – käytännön opas vuokaavioineen
Kun aineisto on valmis analysoitavaksi, olisi aineiston tarkastelun perusteella arvioitava perusteellisesti, olisiko tilastollisia menetelmiä käytettävä puuttuvien tietojen käsittelyyn. Bell ym. pyrkivät arvioimaan puuttuvien tietojen laajuutta ja käsittelyä satunnaistetuissa kliinisissä tutkimuksissa, jotka julkaistiin heinäkuun ja joulukuun 2013 välisenä aikana BMJ-, JAMA-, Lancet- ja New England Journal of Medicine -lehdissä . Tunnistetuista 77:stä tutkimuksesta 95 prosenttia ilmoitti jonkin verran puuttuvia tulostietoja. Yleisimmin käytetty menetelmä puuttuvien tietojen käsittelyyn ensisijaisessa analyysissä oli täydellinen tapausanalyysi (45 %), yksittäinen imputaatio (27 %), mallipohjaiset menetelmät (esimerkiksi sekamallit tai yleistetyt estimointiyhtälöt) (19 %) ja moninkertainen imputaatio (8 %) .
Täydellinen tapausanalyysi
Täydellinen tapausanalyysi on tilastollinen analyysi, joka perustuu osallistujiin, joilla on täydelliset lopputulostiedot. Osallistujat, joilta puuttuu tietoja, jätetään analyysin ulkopuolelle. Kuten johdannossa kuvattiin, jos puuttuvat tiedot ovat MCAR, täydellisen tapausanalyysin tilastollinen teho pienenee pienemmän otoskoon vuoksi, mutta havaitut tiedot eivät ole vääristyneitä . Jos puuttuvat tiedot eivät ole MCAR-tietoja, täydellisen tapausanalyysin estimaatti intervention vaikutuksesta saattaa perustua, eli usein on olemassa riski hyötyjen yliarvioimisesta ja haittojen aliarvioimisesta . Katso kohta ”Pitäisikö puuttuvien tietojen käsittelyyn käyttää moninkertaista imputointia?”, jossa käsitellään yksityiskohtaisemmin mahdollista validiteettia, jos käytetään täydellistä tapausanalyysiä.
Yksittäinen imputointi
Käytettäessä yksittäistä imputointia puuttuvat arvot korvataan tietyllä säännöllä määritellyllä arvolla . On olemassa monia yksittäisen imputoinnin muotoja, esimerkiksi viimeinen havainto siirretään eteenpäin (osallistujan puuttuvat arvot korvataan osallistujan viimeisellä havaitulla arvolla), huonoin havainto siirretään eteenpäin (osallistujan puuttuvat arvot korvataan osallistujan huonoimmalla havaitulla arvolla) ja pelkkä keskiarvon imputointi . Yksinkertaisessa keskiarvon imputoinnissa puuttuvat arvot korvataan kyseisen muuttujan keskiarvolla . Yksinkertaisen imputoinnin käyttö johtaa usein vaihtelun aliarviointiin, koska jokaisella havaitsematta jääneellä arvolla on analyysissä sama painoarvo kuin tunnetuilla, havaituilla arvoilla . Yksittäisen imputoinnin pätevyys ei riipu siitä, ovatko tiedot MCAR; yksittäinen imputointi riippuu pikemminkin tietyistä oletuksista, joiden mukaan puuttuvat arvot ovat esimerkiksi identtisiä viimeisen havaitun arvon kanssa . Nämä oletukset ovat usein epärealistisia, ja siksi yksittäinen imputointi on usein potentiaalisesti vääristynyt menetelmä, ja sitä tulisi käyttää suurella varovaisuudella .
Moninkertainen imputointi
Moninkertainen imputointi on osoittautunut päteväksi yleiseksi menetelmäksi puuttuvien tietojen käsittelyyn satunnaistetuissa kliinisissä tutkimuksissa, ja tämä menetelmä on käytettävissä useimmille tietotyypeille . Seuraavissa kappaleissa kuvataan, milloin ja miten moninkertaista imputointia tulisi käyttää.
Pitäisikö moninkertaista imputointia käyttää puuttuvien tietojen käsittelyyn?
syitä, miksi moninkertaista imputointia ei tulisi käyttää puuttuvien tietojen käsittelyyn
Onko pätevää jättää puuttuvat tiedot huomioimatta?
Havainnoitujen tietojen analyysi (täydellinen tapauskohtainen analyysi), jossa puuttuvat tiedot jätetään huomioimatta, soveltuu kolmessa tilanteessa.
a)
Täydellisen tapauksen analyysia voidaan käyttää ensisijaisena analyysinä, jos puuttuvien tietojen osuudet ovat alle noin 5 % (nyrkkisääntönä) ja on epätodennäköistä, että tietyt potilasryhmät (esimerkiksi erittäin sairaat tai erittäin ”terveet” osallistujat) nimenomaan häviävät seurannasta jossakin vertailtavista ryhmistä . Toisin sanoen, jos puuttuvien tietojen mahdollinen vaikutus on vähäinen, puuttuvat tiedot voidaan jättää huomiotta analyysissä. Epäselvissä tapauksissa voidaan käyttää best-worst- ja worst-best-case-herkkyysanalyysejä: ensin luodaan ”best-worst-case”-skenaariotietokokonaisuus, jossa oletetaan, että kaikilla seurantatulokset menettäneillä osallistujilla yhdessä ryhmässä (ryhmä 1) on ollut hyödyllinen lopputulos (esimerkiksi ei vakavia haittatapahtumia) ja että kaikilla niistä osallistujista, joilta puuttuvat tulokset puuttuvat, on ollut haitallista lopputulosta (esimerkiksi vakavia haittatapahtumia) . Tämän jälkeen luodaan ”pahimman mahdollisen” skenaarion mukainen tietokokonaisuus, jossa oletetaan, että kaikilla seurantaan menettäneillä osallistujilla ryhmässä 1 on ollut haitallinen lopputulos ja että kaikilla seurantaan menettäneillä osallistujilla ryhmässä 2 on ollut hyödyllinen lopputulos. Jos käytetään jatkuvia tuloksia, ”hyödyllinen tulos” voi olla ryhmän keskiarvo lisättynä kahdella keskihajonnalla (tai yhdellä keskihajonnalla) ryhmän keskiarvosta ja ”haitallinen tulos” voi olla ryhmän keskiarvo vähennettynä kahdella keskihajonnalla (tai yhdellä keskihajonnalla) ryhmän keskiarvosta . Dikotomisoitujen tietojen osalta nämä herkkyysanalyysit parhaasta ja huonoimmasta tapauksesta osoittavat puuttuvista tiedoista johtuvan epävarmuuden vaihteluvälin, ja jos tämä vaihteluväli ei anna laadullisesti ristiriitaisia tuloksia, puuttuvat tiedot voidaan jättää huomiotta. Jatkuvien tietojen osalta imputointi 2 SD:llä edustaa mahdollista epävarmuuden vaihteluväliä, kun otetaan huomioon 95 % havaituista tiedoista (jos ne ovat normaalisti jakautuneita).
b)
Jos vain riippuvalla muuttujalla on puuttuvia arvoja ja apumuuttujia (muuttujia, joita ei ole sisällytetty regressioanalyysiin, mutta jotka ovat korreloituneina muuttujan kanssa, jolla on puuttuvia arvoja, ja/tai jotka ovat yhteydessä puuttuviin arvoihin) ei ole yksilöity, täydellistä tapauskohtaista analyysiä voidaan käyttää ensisijaisena analyysinä, ja silloin ei ole käytettävä mitään erityismenetelmiä puuttuvien tietojen käsittelemiseksi. Lisätietoa ei saada esimerkiksi käyttämällä moninkertaista imputointia, mutta keskivirheet voivat kasvaa moninkertaisen imputoinnin tuoman epävarmuuden vuoksi .
c)
Kuten edellä mainittiin (ks. Menetelmät puuttuvien tietojen käsittelemiseksi), olisi myös perusteltua vain suorittaa täydellinen tapausanalyysi, jos on suhteellisen varmaa, että tiedot ovat MCAR (ks. Johdanto). On suhteellisen harvinaista, että on varmaa, että tiedot ovat MCAR. On mahdollista testata hypoteesi, että aineisto on MCAR, Littlen testillä , mutta voi olla epäviisasta rakentaa testien varaan, jotka osoittautuivat merkityksettömiksi. Jos siis on perusteltua epäillä, ovatko tiedot MCAR, vaikka Littlen testi olisi merkityksetön (ei onnistu hylkäämään nollahypoteesia siitä, että tiedot ovat MCAR), MCAR:ta ei pitäisi olettaa.
Onko puuttuvien tietojen osuus liian suuri?
Jos tietoja puuttuu suuria määriä, olisi harkittava, että ilmoitetaan vain täydellisen tapauskohtaisen analyysin tulokset ja keskustellaan sitten selkeästi tutkimustulosten tulkintarajoituksista. Jos puuttuvien tietojen käsittelyyn käytetään useita imputaatioita tai muita menetelmiä, se saattaa osoittaa, että tutkimuksen tulokset ovat vahvistavia, mitä ne eivät ole, jos puuttuvien tietojen määrä on huomattava. Jos puuttuvien tietojen osuus on hyvin suuri (esimerkiksi yli 40 %) tärkeiden muuttujien osalta, tutkimustuloksia voidaan pitää vain hypoteeseja tuottavina tuloksina. Harvinainen poikkeus on, jos puuttuvien tietojen taustalla olevaa mekanismia voidaan kuvata MCAR:ksi (ks. edellä oleva kappale).
Vaikuttavatko MCAR- ja MAR-oletukset molemmat epätodennäköisiltä?
Jos MAR-oletukset vaikuttavat epätodennäköisiltä puuttuvien tietojen ominaisuuksien perusteella, tutkimustulokset ovat vaarassa vääristyä ”epätäydellisten lopputulosdatatietojen vääristymisen” vuoksi, eikä mikään tilastollinen menetelmä voi varmuudella ottaa huomioon tätä potentiaalista vääristymistä . MNAR-tietojen käsittelyyn käytettävien menetelmien pätevyys edellyttää tiettyjä oletuksia, joita ei voida testata havaittujen tietojen perusteella. Parhaimman ja huonoimman tapauksen herkkyysanalyysit voivat osoittaa koko teoreettisen epävarmuusalueen, ja johtopäätökset olisi suhteutettava tähän epävarmuusalueeseen. Analyysien rajoituksista olisi keskusteltava perusteellisesti ja ne olisi otettava huomioon.
Onko lopputulosmuuttuja, jolla on puuttuvia arvoja, jatkuva ja onko analyyttinen malli monimutkainen (esim. vuorovaikutukset)?
Tässä tilanteessa voidaan harkita suoran maksimilikelihood-menetelmän käyttämistä, jotta vältetään mallin yhteensopivuusongelmat analyyttisen mallin ja moninkertaisen imputointimallin välillä, kun edellinen on yleisempi kuin jälkimmäinen. Yleisesti ottaen voidaan käyttää suoria maksimilikelihood-menetelmiä, mutta tietojemme mukaan kaupallisesti saatavilla olevia menetelmiä on tällä hetkellä saatavilla vain jatkuville muuttujille.
Milloin ja miten käyttää moninkertaista imputaatiota
Jos mikään edellä mainituista ”Syistä, miksi moninkertaista imputaatiota ei pitäisi käyttää puuttuvien tietojen käsittelyyn” ei täyty, voidaan käyttää moninkertaista imputaatiota. Kirjallisuudessa on viime vuosikymmeninä ehdotettu erilaisia menettelyjä puuttuvien tietojen käsittelemiseksi. Olemme hahmotelleet edellä mainittuja näkökohtia puuttuvien tietojen käsittelyyn käytettävistä tilastollisista menetelmistä kuviossa 1.