Följande artikel hjälper dig: BLUPs och krympning i blandade modeller — SAS – Mot AI
Ursprungligen publicerad på Towards AI the World’s Leading AI and Technology News and Media Company. Om du bygger en AI-relaterad produkt eller tjänst inbjuder vi dig att överväga att bli AI-sponsor. På Towards AI hjälper vi att skala AI och nystartade teknologier. Låt oss hjälpa dig att släppa loss din teknik till massorna.
Datavisualisering
BLUP och krympning i blandade modeller
Använder SAS
Blandade modeller är ett utmärkt verktyg för att uppskatta varianskomponenter och använda dessa uppskattningar för att ge förutsägelser. Förutsägelserna som kommer från blandade modeller kallas Best Linear Unbiased Prediction (BLUP), och de kallas så eftersom de inkluderar de fasta och slumpmässiga effekterna av modellen för att ge en förutsägelse.
Genom att inkludera både fasta och slumpmässiga effekter tillåter blandade modeller en teknik som kallas “krympning”, eller partiell pooling, vilket begränsar risken för överanpassning. Kort sagt, när en blandad modell görs uppskattas den fasta effekten över alla observationer, men den slumpmässiga delen görs per nivå.
Så om du har observationer över tid för 100 personer, kan du be modellen att uppskatta olika skärningar och olika sluttningar (banor) för var och en av dessa 100 personer. Nu har du flera modelleringsalternativ:
- Du passar in en linjär regressionsmodell på alla observationer. Detta kallas en poolad modell eftersom inga banor på folknivå uppskattas. Bara en enda avlyssning och en enda sluttning.
- Du passar en linjär regressionsmodell på varje observation, separat. Nu har du uppskattat 100 avlyssningar och 100 backar, separat, per person. Detta motsvarar att dela upp datasetet i 100 delar. Ingen av personerna vet att de andra 99 finns.
- Du passar en blandad modell. Den fasta intercept- och lutningseffekten är global, men man uppskattar också en personberoende intercept och lutning. För att realisera sådana fötter måste det finnas tillräckligt med varians i både start och bana av kurvan. Sättet som de slumpmässiga delarna uppskattas kallas partiell pooling eftersom formen följer en normalfördelning[0, variance]. Här bestäms varje specifik slumpeffekt av populationseffekten och personspecifik avvikelse. För att motverka överanpassning har skattningarna längst bort från befolkningsgenomsnittet krympts tillbaka mest till noll, eftersom vi tror att de är mer som anomalier. Om vi inte skulle göra det skulle variansuppskattningen av den slumpmässiga effekten explodera.
Nu, i det här exemplet, med hjälp av SAS, kommer jag att visa dig hur jag jämförde poolade, icke-poolade och olika delvis poolade modeller på en datauppsättning som innehåller spermavolymen från 129 galtar mätt vid 4 tidpunkter.
Nedan kan du se några ytterligare kodbitar som lagts till för att se djupare in i specifika skapade blandade modeller. De är inte lätta att använda och leder ofta till icke-konvergens eller matriser som inte är positiva definitiva. Om en sådan varning skulle uppstå måste du förenkla modellen.
Jag hoppas att det här inlägget gav dig lite mer känsla för vad BLUP är och krympning gör. Kontakta mig gärna om du har frågor, idéer eller bara vill sparra!
BLUPs och krympning i blandade modeller — SAS publicerades ursprungligen i Towards AI on Medium, där människor fortsätter samtalet genom att lyfta fram och svara på den här historien.
Publicerad via Mot AI