Studiedesign och genomförande

Publicerad: 1 mars 2024
Senast uppdaterad: 1 mars 2024
Kategori: Generellt kapitel
Status: Gällande
Författare: Filip Josephson

Studier kan jämföra en testbehandling mot ingen aktiv behandling, eller som tillägg till en etablerad behandling i förhållande till den etablerade behandlingen. Sådana studier kallas ”add‍-‍on-studier”. Alternativt undersöks testbehandlingen som ersättning för och i jämförelse med en etablerad behandling. Sådana experiment kallas ”substitutionsstudier”.

I add-on studier söker man i de flesta fall visa att testbehandlingen är effektivare än referensbehandlingen (undantag inkluderar tilläggsbehandling för att minska biverkningar eller uppnå farmakokinetiska fördelar).

Substitutionsstudier kan vara designade för att visa effekt genom överlägsenhet över referensbehandlingen (superiority-studier), eller för att indirekt visa effekt genom likhet med referensbehandlingen (non‍-‍inferiority-studier).

En annan central aspekt av studiedesign gäller huruvida utfallsmåttet är tid till en händelse, eller om utfallet är skillnad i mätvärde vid en given tidpunkt eller över en given tidsperiod.

Vem studeras?

Den studerade populationens sammansättning är av avgörande betydelse såväl för huruvida meningsfulla slutsatser kan dras av en studie, som för vilka patienter studieresultatet är av relevans, det vill säga studiens externa validitet.

Formellt bestäms den studerade populationen av inklusions- och exklusions-kriterier. Det bör dock noteras att inklusions-kriterier som sådana ingalunda garanterar att alla potentiellt relevanta subgrupper som innefattas av dessa kriterier, är representerade i studien på ett sådant sätt att oberoende slutsatser kan dras.

Antagandet om homogen respons

Det är ett principiellt metodologiskt antagande, att de mätvärden som erhålls vid analysen av den primära mätvariabeln i någon bemärkelse är relevanta för hela den primära analyspopulationen. Detta implicerar ett underförstått antagande om homogenitet i respons inom den studerade populationen.

Avsaknad av sådan homogenitet ställer den externa validiteten av resultaten i fråga, eftersom den uppmätta effektstorleken i så fall inte bara bestäms av läkemedlets effekt utan även av studiepopulationens komposition.

Homogenitet i respons är dock ett idealt tillstånd, såtillvida att fullständigt homogen respons sällan torde förekomma. Detta gäller även då den studerade populationen definierats på ett rimligt sätt, i den bemärkelse att effekt av läkemedlet kan antas oavsett särskiljande karaktäristika hos de inkluderade patienterna.

Effektmodifierare

I de flesta fall kommer det att finnas faktorer som påverkar storleken av läkemedelseffekten eller risken/toleransen för biverkningar mellan patienter inom den population som inkluderats i en studie. Dessa faktorer kallas för effektmodifierare, och diskuteras vidare i avsnittet effektmodifierare på sidan Subgruppsanalyser och sekundära effektvariabler.

Vilken behandling studeras?

Det räcker inte som beskrivning av vad som studerats, att det är läkemedel X jämfört med läkemedel Y eller jämfört med ingen aktiv behandling. Studieläkemedel ges i en viss dosregim, enligt ett visst protokoll. Detta inkluderar:

administreringsväg(ar)
dos(er)
dosintervall
tidsbegränsad behandling eller tills vidarebehandling
dosjusteringsalgoritmer (exempelvis vid biverkningar eller för speciella patientgrupper)
eventuella stoppregler.

Det kan även röra sig om en dosregim i kombination med andra läkemedel (add-on studie), som i sin tur har en definierad doseringsregim som behöver bedömas.

Jämförelsebehandling

Om det finns en aktiv jämförelsebehandling (substitutionsstudie), så är det av betydelse vilken dosregim som används för denna. Är det en etablerad standarddos? Om inte, så kan jämförelsearmens användning som linjal för att mäta effektstorlek ifrågasättas.

Därutöver, om studien syftar till att visa non-inferiority snarare än överlägsenhet, så krävs att relevanta, historiska effektdata finns för den dos-regim som används i kontrollarmen (se avsnittet om non-inferiority-marginalen på sidan Non-inferiority-studier).

Valet av primär utfallsvariabel

I läkemedelsprövningar som syftar till att ligga till grund för ett marknadsgodkännande, förväntas att primära utfallsvariabler antingen skattar något som allmänt anses utgöra klinisk nytta, eller ett surrogatmått för detta. Surrogatbegreppet såväl som den kvalitativa värderingen av det som mäts i prövningar, diskuteras i slutet av denna sammanställning. Se avsnittet om surrogatmått på sidan Nytta-/risk-balansen.

Undantag till regeln ovan, att den primära mätvariabeln i första hand måste utgöra nytta, är studier utan randomiserad kontrollarm. Som noterades ovan (se sidan Studier utan kontrollarm), måste den primära utfallsvariabeln i sådana fall i första hand vara så definierad att den inte förväntas inträffa utan aktiv behandling. Om denna mätvariabel inte själv motsvarar nytta, vilar sådana antaganden på att variabeln antas förutsäga eller samvariera med mått på nytta (se avsnittet om surrogatmått på sidan Nytta-/risk-balansen).

I studier utan kontrollarm, såväl som i tidiga studier under utvecklingen av ett läkemedel, är primära utfallsmått ofta ”farmakodynamiska” snarare än ”kliniska”. Med detta avses att mätvariabeln representerar en farmakologisk effekt av läkemedlet på en biomarkör, oavsett om denna effekt anses förutsäga eller motsvara nytta. Det behövs vanligen färre patienter för att konklusivt visa att ett läkemedel utövar en given biologisk effekt, än för att visa att det utövar en klinisk meningsfull effekt.

Säkerhet som primär utfallsvariabel

Det vanligaste är att den primära utfallsvariabeln mäter en önskad effekt av läkemedlet, men den kan även gälla ett mått på ett säkerhetsutfall. Ett exempel är så kallade ”Major Adverse Cardiovascular Events” eller MACE‍-‍studier. Dessa syftar till att etablera att nya läkemedel med visade, presumtivt välgörande effekter på biomarkörer såsom hemoglobinvärde, blodsocker eller kroppsvikt inte är förenade med en oacceptabelt sämre kardiovaskulär säkerhetsprofil än etablerade behandlingar.

Hypotestestning

I kliniska studier undersöker man ett begränsat antal personer. Det vi är intresserade av att dra slutsatser om är dock egentligen inte personerna i studien, utan om alla patienter som skulle kunna ta läkemedlet. Man antar därför att om det finns en effekt för studiepatienterna så finns den även för andra patienter. Statistiskt kan man betrakta studien som ett experiment som drivs av randomiseringen.

Således uppstår ett behov av att avgöra, om uppmätta skillnader i mätvärden mellan test- och kontrollarm rimligen kan tillskrivas en läkemedelseffekt, eller om det beror på hur patienterna råkade bli randomiserade; det vill säga om det finns kvar prognostiska skillnader mellan grupperna, randomiseringen till trots.

Hypotestest

En prövning som syftar till att etablera effekten av ett läkemedel som ett vetenskapligt faktum, planeras som ett hypotestest. Den hypotetiskt deduktiva strukturen för studier beskrivs ofta i termer av en ”nollhypotes” (Ho) och en alternativ hypotes (Ha).

I studier som syftar till att visa effekt genom överlägsenhet för testbehandlingen mot referensbehandlingen, är nollhypotesen vanligen att det inte finns någon skillnad mellan test- och referensbehandlingen, avseende storheten på den/de primära mätvariablerna. Den alternativa hypotesen är att det finns en skillnad.

P-värdets innebörd

Vid beräkningen av en primär mätvariabel bestäms skillnaden i mätvärde mellan armarna. Utifrån detta, samt spridningen och studiestorleken (eller antalet händelser) beräknas ett ”p‍-‍värde”.

P-värdet uppskattar sannolikheten att erhålla den uppmätta skillnaden eller en mer extrem skillnad mellan studiearmarna, under förutsättning att ingen verklig skillnad finns (det vill säga om nollhypotesen gäller).

En vedertagen konvention är att det anses finnas en ”statistiskt signifikant” skillnad, om p‍-‍värdet är mindre än 0.05. Detta kallas även för att ”alfa” bestäms vid 0.05‍-‍nivån. Denna regel avser ett ”tvåsidigt p‍-‍värde”; det gäller således sannolikheten för en skillnad av en viss storlek i endera riktningen (till förmån för test- eller referensbehandlingen). Om p‍-‍värdet är ensidigt är den traditionella signifikansnivån 0.025.

Med utgångspunkt i om p‍-‍värdet för mätvariabeln är lägre än den relevanta tröskeln, avgör man om man om nollhypotesen skall ”förkastas”, det vill säga om man skall dra slutsatsen att den alternativa hypotesen gäller och att det således finns en skillnad i effekt mellan behandling och ingen behandling.

P-värdet är alltså inte ett mått på sannolikheten att det finns en effekt (något som inte endast beror på utfallet av det enskilda hypotestestet). Snarare beskriver det sannolikheten att få det uppmätta värdet eller ett mer extremt värde om de bägge jämförelsegrupperna faktiskt är stickprov dragna ur samma pool.

Typ 1- och typ 2‍-‍fel

Typ 1-fel

Att felaktigt dra slutsatsen att det finns en skillnad mellan behandlingsarmarna, kallas för att begå typ 1‍-‍fel. Således motsvarar det minsta p‍-‍värdet som anses statistisk signifikant, en viss sannolikhet att felaktigt förkasta nollhypotesen. Den rådande regeln inom kliniska prövningar är att den övergripande typ 1‍-‍felkontrollen bör ligga på tvåsidigt 0.05 för hela prövningen.

Om mer än en endpoint förspecificerats som primär, kan ”alfa” (det totala typ 1‍-‍felet som accepteras i studien) delas mellan olika utfallsmått. Detta kallas för att allokera alfa till olika analyser. I så fall kan gränsen för ett statistiskt signifikant resultat på ett visst utfallsmått vara lägre än 0.05.

Alternativt kan en hierarkisk testning av utfallsmått förspecificeras, det vill säga att signifikanstestning av ett andra utfallsmått kräver att det första är statistiskt signifikant.

Typ 2-fel

Typ 2-fel avser risken att felaktigt vidhålla nollhypotesen när det faktiskt finns en skillnad mellan behandlingsarmarna. Begreppet ”power” eller statistisk styrka avser sannolikheten att visa en skillnad av en viss storlek, givet en viss storlek på studien/ett visst antal observationer, och ett variansantagande.

Förspecificering

För att ha kontroll över typ 1‍-‍fel krävs förspecificering av de mätningar på lka slutsatser skall vila, inklusive den/de primära mätvariablerna. Anledningen är att om man har möjlighet att anpassa analyserna efter att man har sett data så kan man välja den analys som råkat få bäst resultat.

Det är inte bara den/de primära utfallsvariablerna som bör förspecificeras. Detta gäller även i vilken del av studiepopulationen analysen skall ske, vid vilken tidpunkt eller efter vilket antal händelser analysen ska ske, samt hur man skall hantera ”interkurrenta händelser” och saknade mätdata. Interkurrenta händelser diskuteras vidare på sidan Estimander.

Förspecificeringen görs i studieprotokollet, och ibland med mer detaljer i en statistisk analysplan. Studieprotokollet finaliseras innan studien startar, och ändringar av protokollet efter att studien startat kan minska studieresultatens trovärdighet.

Intention to treat principen

En grundprincip för ett bias-fritt estimat är att alla patienter som randomiserats bör analyseras som del i den grupp de allokerats till, och oavsett vad som hänt efter randomiseringen. Detta kallas för Intention to Treat (ITT).

Detta begrepp implicerar att i en helt och hållet randomiserad analys jämförs patienter som randomiserats till en intention att behandla, och inte patienter som faktiskt behandlats. ITT‍-‍principens styrka är att den fullständigt respekterar randomiseringen. När man exkluderar patienter som randomiserats måste risken för bias beaktas.

ITT-principen implicerar att alla patienter bör fortsätta att följas enligt protokoll avseende utfallsvariaber efter i förtid avslutad behandling eller tillägg av ny aktiv behandling. Om detta inte görs, kan det vara omöjligt att generera effektestimat som är skyddade mot bias.

Begreppet modified intention to treat

Begreppet modified ITT (mITT) kan representera en analys som fullt ut respekterar randomiseringen.

Om man exempelvis vill studera effekten av ett läkemedel mot en akut infektionssjukdom, och vill påbörja behandlingen innan konklusiv mikrobiologisk diagnos föreligger, kan man ta prov vid randomiseringen, och sedan endast inkludera de patienter som har positivt test för den relevanta patogenen vid baslinjen i den primära analysen.

Detta arbetssätt respekterar randomiseringen då provet tas före randomiseringen.

Begreppet mITT kan dock vara mindre acceptabelt, exempelvis när det definieras såsom alla patienter som fått minst en dos av den behandling de allokerats till.

I en icke-blindad studie introducerar detta bias, eftersom beslutet att administrera studiebehandlingen görs med kunskap om allokeringen. Man kan argumentera att denna typ av mITT är problematisk även i blindade studier.

I vissa fall väljer man att definiera den primära analyspopulationen som en subgrupp av hela studiepopulationen. Detta bryter inte mot ITT‍-‍principen om subgruppen definieras före randomiseringen, men är inte acceptabelt om subgruppen definieras av händelser efter randomisering (se sidan Subgruppsanalyser och sekundära effektvariabler).

”Per protokoll”

Ibland definieras förutom ITT‍-‍populationen en alternativ analyspopulation som kallas för per protokoll (PP). En sådan population specificerar en subgrupp av patienter som uppfyllt vissa kriterier, exempelvis avseende följsamhet till behandling, studiebesök och/eller provtagning. Genom att utesluta patienter ur analyspopulationen på grund av händelser efter randomisering, kan bias introduceras vid PP‍-‍analyser.

PP-begreppet bör generellt undvikas, då det inte har någon generell definition och saknar innebörd i frånvaro av en protokollspecifik sådan. En analysplan i termer av estimander är att föredra, såsom beskrivs på sidan Estimander.

Stratifiering och "capping"

Eftersom alla studier har begränsad storlek finns en risk att man inte uppnår randomiseringens mål, att så långt provstorleken tillåter utjämna skillnader i prognos mellan de grupper som jämförs. Risken att skillnad i utfall beror på skillnader i prognos ökar ju mindre studien är, och ju mer heterogen prognosen i den studerade populationen är.

Stratifierad randomisering är en metod för att åstadkomma att patienter med vissa definierade prognostiska egenskaper blir balanserat representerade i de respektive studiearmarna.

En vanlig missuppfattning är att analyser i stratifierade subgrupper därigenom skulle vara typ 1‍-‍felskyddade. Detta är inte fallet; fördelning av alfa respektive stratifiering är helt oberoende procedurer.

Med capping avses att andelen patienter med en viss egenskap som får gå med i studien begränsas. Samma mål kan nås genom att förspecificera att en viss andel av patienterna skall ha en viss egenskap. Skälet till detta kan vara att försäkra sig om oberoende statistisk styrka i relevanta subgrupper.

Blindning och dess syfte

Med blindning menas att undersökare och/eller patient är ovetande om vilken behandling patienten allokerats till. Dubbelblind innebär att både undersökare och patient är ovetande om allokering.

Vid blindning används vanligen en placebo. Ifall en studie har två aktiva behandlingar kan det behövas placebobehandling för båda för att blindningen ska fungera (”double dummy").

Blindning syftar till att patientens såväl som undersökarens beteende, inklusive den övergripande vård, monitorering och utfallsmätning som ges/görs, skall vara samma oavsett vilken studiearm patienten allokerats till. Blindingen avser således att undvika bias i genomförandet av studien.

När studien inte kan blindas

Det är önskvärt att randomiserade kontrollerade studier är dubbelblindade. Under vanligen förekommande omständigheter kan detta dock vara praktiskt svårt.

Exempel inkluderar när det finns en aktiv jämförelsebehandling med en tydligt annorlunda beredning än testbehandlingen, inklusive då komparatorn och testbehandlingen har olika administrationsvägar. Detta kräver ”double dummies” vilket tillför ansenlig komplexitet och extra besvär för studie-patienterna.

Andra scenarion som är svårt att blinda, är då testbehandlingen jämförs med ett flertal alternativa kontrollbehandlingar (”investigator’s choice”) eller då testbehandlingen kräver en avancerad procedur som är orimlig att genomföra utan aktiv behandling.

I fall där det går att blinda en studie, kan det likväl vara omöjligt att upprätthålla okunskap hos undersökare och patient om vilken behandling patienten får. Detta om test- eller kontrollbehandlingen uppvisar vanliga och karaktäristiska biverkningar eller påverkan på laboratorieprover. Detta resulterar i ”funktionell avblindning”; ett vanligt fenomen i kliniska studier.

Risker i oblindade studier

Potentiella konsekvenser när studien inte är blindad inkluderar:

Om kontrollarmen är oattraktiv för patienterna på grund av begränsad nytta eller ofördelaktig biverkningsprofil tenderar en betydande andel av de som randomiserats till kontrollarmen att lämna studien. Därigenom uppkommer selektiv avsaknad av utfallsdata hos randomiserade patienter. Sådant bortfall är inte självklart oberoende av prognos.
Möjligen olika följsamhet till ordination i test- och kontrollarmen.
Principiellt olika understödjande omhändertagande i respektive studiearm.
Bias hos undersökare och/eller patient vid utvärdering av behandlingseffekter.

Vissa sorters utfallsmått är olämpliga i ickeblindade studier, då resultaten tenderar att påverkas av patientens och undersökarens förväntningar. Sådana inkluderar:

Symptomskattnings-skalor (”Patient Reported Outcomes”).
Funktionstester som är beroende av undersökarens och patientens motivation.
Utfallshändelser definierade av sjukvårdsinsatser som kräver ett beslut från undersökaren (exempelvis hospitalisering eller tillägg av ny aktiv behandling).

Utfallsmått såsom överlevnad, eller sådana som grundas i biologiska eller radiologiska tester, är att föredra då studier inte är blindade eller då funktionell avblindning är sannolik.

I en oblindad studie är det ofta lämpligt att bestämning av utfall delegeras till oberoende och blindade utvärderare (”Independent Review Committee”).

Förändringar av studieprotokoll eller statistisk analysplan under pågående studie

Som framgår under rubriken Förspecificering (högre upp på denna sida), är förspecificering av vad som skall mätas, när detta skall mätas och i vilken population detta skall mätas, avgörande för att kontrollera risken att felaktigt dra slutsatser om skillnader i behandlingseffekt utifrån skilda mätvärden för utfallsvariabeln.

Likväl är det dessvärre inte ovanligt med avgörande förändringar i studieprotokoll och/eller statistisk analysplan under pågående studie. Sådana förändringar kan gälla:

Definitionen av primär analyspopulation.
Primär utfallsvariabel.
Alfa-allokering (fördelning av acceptabelt typ 1‍-‍fel) mellan primära analyser.
Tidpunkt för eller antal händelser som krävs för den primära analysen.

Sådana förändringar är inte principiellt felaktiga förutsatt att man kan försäkra sig om att de inte är informerade av framväxande data från studien de tillhör. Detta kräver en dubbelblindad studie där det är trovärdigt att undersökarna inte har tillgång till studiedata.

I en studie som inte är blindad är fundamentala förändringar av studieprotokoll eller analysplan under pågående studie sällan acceptabla.

Patientflödet genom studien

När man analyserar en klinisk prövning, är det värdefullt att söka begripa denna som en entitet med en tidsdimension; med ett startdatum och ett datum för låsning av databasen, och med rekrytering och uppföljning av patienter över tid. Exempel från covid‍-‍pandemin visar att de yttre förutsättningarna för en prövning kan förändras drastiskt under pågående studie.

Ovan diskuterades protokollförändringar under studiens förlopp. En annan betydelsefull aspekt av en studie är patientflödet (”Study Subject Disposition”).

En särskild aspekt att ha i åtanke här, och som ibland sammanblandas, är den kvalitativa skillnaden i implikationer mellan att avbryta studiebehandlingen och att avbryta studiedeltagande (såsom påtalats ovan är det sällan rätt att avbryta uppföljning i studien därför att patienten avbrutit studiebehandlingen).

Att avbryta studiebehandlingen i förtid kan påverka storheten på den uppmätta behandlingseffekten. Hur detta bör uppfattas beror på vilken estimand (se sidan Estimander) som förspecificerats.
Patientens avbrutna deltagande i studien innan uppföljningstidens slut resulterar i saknade utfallsdata och följande behov av imputation, det vill säga att ersätta saknade värden mätvärden med antaganden om vad de hade varit. Detta kan således ge upphov till bias.

Föregående sida
Kontrollgrupper, bias och confounding

Nästa sida
Estimander

Har du synpunkter på Läkemedelsbokens nya webbplats?

Läkemedelsboken vänder sig framför allt till specialister i allmänmedicin, läkare under specialiserings- eller allmäntjänstgöring, studerande inom medicin och farmaci, men också till läkare som behöver råd vid medicinska problem utanför den egna specialiteten. Vi vill gärna att du som använder Läkemedelsboken skriver hur webbplatsen skulle kunna bli bättre, utifrån de behov som du har. Dina svar blir anonyma. Undvik därför att skriva namn, kontaktuppgifter eller något annat om dig själv eller någon annan.

Lämna synpunkter

Tänk på att det du skickar in till Läkemedelsverket blir en så kallad allmän handling. Om någon vill läsa våra allmänna handlingar så måste vi lämna ut dem. Undvik att skriva in känsliga personuppgifter.

Läs om hur Läkemedelsverket behandlar personuppgifter.