Nyheter, Prylar, Android, Mobiler, Appnedladdningar, Android

Möt Paella: En ny AI-modell som liknar diffusion som kan generera högkvalitativa bilder mycket snabbare än genom att använda stabil diffusion

Följande artikel hjälper dig: Möt Paella: En ny AI-modell som liknar diffusion som kan generera högkvalitativa bilder mycket snabbare än genom att använda stabil diffusion

Under de senaste 2-3 åren har det skett en fenomenal ökning av kvaliteten och kvantiteten av forskning som gjorts för att generera bilder från text med hjälp av artificiell intelligens (AI). Ett av de mest banbrytande och revolutionerande verken inom denna domän hänvisar till toppmoderna generativa modeller som kallas diffusionsmodeller. Dessa modeller har helt förändrat hur textbeskrivningar kan användas för att generera bilder av hög kvalitet genom att utnyttja kraften i algoritmer för djupinlärning. Dessutom, förutom diffusion, finns en rad andra kraftfulla tekniker, som ger en spännande väg för att generera nästan fotorealistiskt visuellt innehåll från textinmatningar. De exceptionella resultaten som uppnås med dessa banbrytande teknologier har dock vissa begränsningar. Ett antal nya generativa AI-tekniker är beroende av diffusionsmodeller, som kräver invecklade arkitekturer och betydande beräkningsresurser för utbildning och bildgenerering. Dessa avancerade metoder minskar också inferenshastigheten, vilket gör dem opraktiska för realtidsimplementering. Dessutom är komplexiteten hos dessa tekniker direkt kopplad till de framsteg de möjliggör, vilket innebär en utmaning för allmänheten att förstå de inre funktionerna i dessa modeller och resulterar i en situation där de uppfattas som black-box-modeller.

I syfte att ta itu med de problem som nämnts tidigare har ett team av forskare vid Technische Hochschule Ingolstadt och Wand Technologies, Tyskland, föreslagit en ny teknik för generering av textvillkorad bild. Denna innovativa teknik liknar diffusion men producerar bilder av hög kvalitet mycket snabbare. Bildsamplingsfasen för denna faltningsbaserade modell kan utföras med så få som 12 steg samtidigt som den ger exceptionell bildkvalitet. Detta tillvägagångssätt utmärker sig för sin anmärkningsvärda enkelhet och minskade bildgenereringshastighet, vilket gör det möjligt för användare att konditionera modellen och njuta av de fördelar som saknas i befintliga toppmoderna tekniker. Den föreslagna teknikens inneboende enkelhet har avsevärt förbättrat dess tillgänglighet, vilket gör det möjligt för individer från olika bakgrunder att förstå och implementera denna text-till-bild-teknik. För att validera sin metodik genom experimentella utvärderingar tränade forskarna dessutom en textvillkorsmodell med namnet “Paella” med en svindlande miljard parametrar. Teamet har också öppnat sin kod och modellvikter under MIT-licensen för att uppmuntra forskning kring deras arbete.

En diffusionsmodell genomgår en inlärningsprocess där den successivt eliminerar varierande ljudnivåer från varje träningstillfälle. Under slutledning, när den presenteras med rent brus, genererar modellen en bild genom att iterativt subtrahera brus över flera hundra steg. Tekniken som utarbetats av de tyska forskarna bygger mycket på dessa principer för diffusionsmodeller. Precis som diffusionsmodeller tar Paella bort olika grader av brus från tokens som representerar en bild och använder dem för att generera en ny bild. Modellen tränades på 900 miljoner bild-text-par från LAION-5B estetisk datauppsättning. Paella använder en förtränad kodar-avkodararkitektur baserad på ett faltningsneuralt nätverk, med kapacitet att representera en 256×256 bild med 256 tokens valda från en uppsättning av 8 192 tokens som lärts in under förträning. För att lägga till brus till deras exempel under träningsfasen inkluderade forskarna även några slumpmässigt utvalda tokens i denna lista.

För att skapa textinbäddningar baserade på bildens textbeskrivning använde forskarna modellen CLIP (Contrastive Language-Image Pretraining), som etablerar kopplingar mellan bilder och textbeskrivningar. U-Net CNN-arkitekturen användes sedan för att träna modellen i att generera den kompletta uppsättningen av original-tokens, med användning av textinbäddningar och tokens som genererats i tidigare iterationer. Denna iterativa process upprepades 12 gånger och ersatte gradvis en mindre del av de tidigare genererade tokens med varje upprepning. Med vägledning av de återstående genererade tokens minskade U-Net gradvis bruset vid varje steg. Under slutledning producerade CLIP en inbäddning baserad på en given textprompt, och U-Net rekonstruerade alla tokens över 12 steg för en slumpmässigt vald uppsättning av 256 tokens. Slutligen använde avkodaren de genererade tokens för att generera en bild.

För att bedöma effektiviteten av deras metod använde forskarna Fréchet inception distance (FID)-mått för att jämföra resultaten från Paella-modellen och Stable Diffusion-modellen. Även om resultaten något gynnade stabil diffusion, uppvisade Paella en betydande fördel när det gäller hastighet. Denna studie skiljer sig från tidigare ansträngningar, eftersom den fokuserade på att helt omkonfigurera arkitekturen, vilket inte övervägdes tidigare. Sammanfattningsvis kan Paella generera högkvalitativa bilder med en mindre modellstorlek och färre provtagningssteg jämfört med befintliga modeller och ändå uppnå märkbara resultat. Forskargruppen betonar tillgängligheten av deras tillvägagångssätt, som erbjuder en enkel installation som lätt kan antas av individer från olika bakgrunder, inklusive icke-tekniska domäner, eftersom området för generativ AI fortsätter att få mer intresse med tiden.