Nyheter, Prylar, Android, Mobiler, Appnedladdningar, Android

BLUPs och krympning i blandade modeller — SAS – Mot AI

Följande artikel hjälper dig: BLUPs och krympning i blandade modeller — SAS – Mot AI

Ursprungligen publicerad på Towards AI the World’s Leading AI and Technology News and Media Company. Om du bygger en AI-relaterad produkt eller tjänst inbjuder vi dig att överväga att bli AI-sponsor. På Towards AI hjälper vi att skala AI och nystartade teknologier. Låt oss hjälpa dig att släppa loss din teknik till massorna.

Datavisualisering

BLUP och krympning i blandade modeller

Använder SAS

Blandade modeller är ett utmärkt verktyg för att uppskatta varianskomponenter och använda dessa uppskattningar för att ge förutsägelser. Förutsägelserna som kommer från blandade modeller kallas Best Linear Unbiased Prediction (BLUP), och de kallas så eftersom de inkluderar de fasta och slumpmässiga effekterna av modellen för att ge en förutsägelse.

Genom att inkludera både fasta och slumpmässiga effekter tillåter blandade modeller en teknik som kallas “krympning”, eller partiell pooling, vilket begränsar risken för överanpassning. Kort sagt, när en blandad modell görs uppskattas den fasta effekten över alla observationer, men den slumpmässiga delen görs per nivå.

Så om du har observationer över tid för 100 personer, kan du be modellen att uppskatta olika skärningar och olika sluttningar (banor) för var och en av dessa 100 personer. Nu har du flera modelleringsalternativ:

  1. Du passar in en linjär regressionsmodell på alla observationer. Detta kallas en poolad modell eftersom inga banor på folknivå uppskattas. Bara en enda avlyssning och en enda sluttning.
  2. Du passar en linjär regressionsmodell på varje observation, separat. Nu har du uppskattat 100 avlyssningar och 100 backar, separat, per person. Detta motsvarar att dela upp datasetet i 100 delar. Ingen av personerna vet att de andra 99 finns.
  3. Du passar en blandad modell. Den fasta intercept- och lutningseffekten är global, men man uppskattar också en personberoende intercept och lutning. För att realisera sådana fötter måste det finnas tillräckligt med varians i både start och bana av kurvan. Sättet som de slumpmässiga delarna uppskattas kallas partiell pooling eftersom formen följer en normalfördelning[0, variance]. Här bestäms varje specifik slumpeffekt av populationseffekten och personspecifik avvikelse. För att motverka överanpassning har skattningarna längst bort från befolkningsgenomsnittet krympts tillbaka mest till noll, eftersom vi tror att de är mer som anomalier. Om vi ​​inte skulle göra det skulle variansuppskattningen av den slumpmässiga effekten explodera.

Nu, i det här exemplet, med hjälp av SAS, kommer jag att visa dig hur jag jämförde poolade, icke-poolade och olika delvis poolade modeller på en datauppsättning som innehåller spermavolymen från 129 galtar mätt vid 4 tidpunkter.

Jag letar efter tillräcklig variation för att motivera att uppskatta slumpmässiga effekter.
Plotterna visar tydligt hur observationerna till vänster följs tätt av förutsägelserna. En sådan modell är farligt nära att överanpassa, även om standardstatistik som R-kvadrat inte kommer att hålla med. Till denna statistik kommer en icke-poolad modell ivrigt att följa observationer och därmed passa väldigt nära.
Den poolade modellen gör en poolad uppskattning. För denna modell är variationen bara oförklarad variation. Du kan förvänta dig att standardfelen för skärning, lutning och kvadratisk lutning har exploderat.
Snappningen och lutningen tyder säkert på avvikelser från befolkningens medelvärde. Den kvadratiska lutningen verkar inte skifta så mycket på galtnivån. Därför antyder denna graf en slumpmässig-intercept-slumpmässig-lutningsmodell.
Interceptmodellen tycks visa en hög fluktuation över populationsmedelvärdet i både den icke-poolade och den blandade modellen. Den blandade modellen känner inte riktigt igen varians i lutningen, vilket i motsats till den icke-poolade modellen. I allmänhet är en blandad modell ett mycket mer sofistikerat verktyg för att fånga upp alla nödvändigheter för en slumpmässig komponent.
Globala fasta och slumpmässiga effekter för var och en av de fem typerna av modeller. Som du kan se, skulle den sista modellen inte konvergera. Inga statistiska test för slumpmässiga effekter bör användas. Använd istället grafer, som nedan.
Grafen till vänster visar vad varje modell tillför tabellen. Även om de tenderar att förutsäga bra, totalt sett skiljer sig deras gränser avsevärt beroende på vad som inkluderades. De låga konfidens- och förutsägelsegränserna för den poolade modellen är paradoxala om du inte inser att läget ombads att uppskatta befolkningsmedelvärden. Den poolade modellen är gjord för det. Till höger ser du tydligt hur varje modell “tänker”. Den icke-poolade modellen gav galtspecifika fasta uppskattningar, medan den poolade modellen endast ger en global uppskattning. Den slumpmässiga intercept-månaden och den slumpmässiga-intercept-månaden ger båda krympta förutsägelser. Det kan tydligt ses att de inte faller för de extrema observationerna. Därför begränsar övermontering genom krympning.
Galtspecifika uppskattningar kommer från de icke-poolade och blandade modellerna. Graferna är lite svåra att jämföra på grund av ändrade axlar, men de visar samma data som visar en betydande variation vid skärningen, men mindre vid lutningen. De visar också krympningen som tillämpas vid de galtspecifika avlyssningarna – konfidensgränserna är mycket mindre i den blandade modellen än i den icke-poolade modellen.

Nedan kan du se några ytterligare kodbitar som lagts till för att se djupare in i specifika skapade blandade modeller. De är inte lätta att använda och leder ofta till icke-konvergens eller matriser som inte är positiva definitiva. Om en sådan varning skulle uppstå måste du förenkla modellen.

Dessa diagram visar om normalitetsantagandet för de slumpmässiga effekterna är uppfyllda, var det är vettigt att inkludera en slumpmässig effekt, och hur ofta uppskattningar inom en slumpeffekt varierar. Den senare delen kommer att ge dig en bra hint om nivån på den applicerade krympningen.
Jag gillar alltid att titta på förutsägelserna som tillhandahålls av en blandad modell för var och en av nivåerna som ingår i datasetet – här skulle detta vara: totalt, månad, djur. Som du kan se i förutsägelserna på djurnivå är marginalförutsägelsen (grön linje) inte bra.

Jag hoppas att det här inlägget gav dig lite mer känsla för vad BLUP är och krympning gör. Kontakta mig gärna om du har frågor, idéer eller bara vill sparra!


BLUPs och krympning i blandade modeller — SAS publicerades ursprungligen i Towards AI on Medium, där människor fortsätter samtalet genom att lyfta fram och svara på den här historien.

Publicerad via Mot AI