Nyheter, Prylar, Android, Mobiler, Appnedladdningar, Android

Revolutionerande AI-effektivitet: UC Berkeleys SqueezeLLM debuterar tät-och-gles kvantisering, förenar kvalitet och hastighet i stora språkmodeller

Följande artikel hjälper dig: Revolutionerande AI-effektivitet: UC Berkeleys SqueezeLLM debuterar tät-och-gles kvantisering, förenar kvalitet och hastighet i stora språkmodeller

Den senaste utvecklingen inom stora språkmodeller (LLM) har visat sin imponerande problemlösningsförmåga inom flera områden. LLM kan inkludera hundratals miljarder parametrar och tränas på enorma textkorpus.

Studier visar att i LLM-inferens är minnesbandbredd, inte CPU, nyckelprestandabegränsningen för generativa uppgifter. Detta indikerar att hastigheten med vilken parametrar kan laddas och lagras för minnesbundna situationer, snarare än aritmetiska operationer, blir nyckellatensbarriären. Men framsteg inom minnesbandbreddsteknik har släpat långt efter beräkningen, vilket ger upphov till ett fenomen som kallas Memory Wall.

Kvantisering är en lovande metod som innebär att modellparametrar lagras med mindre noggrannhet än de vanliga 16 eller 32 bitarna som används under träning. Trots senaste framsteg som LLaMA och dess instruktionsföljande variationer är det fortfarande svårt att uppnå bra kvantiseringsprestanda, speciellt med lägre bitprecision och relativt blygsamma modeller (t.ex. 50B parametrar).

En ny studie från UC Berkeley undersöker låg-bit precisionskvantisering på djupet för att avslöja bristerna med nuvarande metoder. Baserat på dessa fynd introducerar forskarna SqueezeLLM, ett kvantiseringsramverk efter träning som kombinerar en tät-och-gles nedbrytningsteknik med en unik känslighetsbaserad icke-enhetlig kvantiseringsstrategi. Dessa metoder tillåter kvantisering med ultralåg-bit-precision samtidigt som konkurrenskraftiga modellprestanda bevaras, vilket drastiskt minskar modellstorlekar och sluttidskostnader. Deras metod minskar LLaMA-7B-modellens förvirring vid 3-bitars precision från 28.26 med enhetlig kvantisering till 7.75 på C4-datauppsättningen, vilket är en avsevärd förbättring.

Genom omfattande tester på C4- och WikiText2-riktmärkena upptäckte forskarna att SqueezeLLM konsekvent överträffar befintliga kvantiseringsmetoder med stor marginal över olika bitprecisions när de tillämpas på LLaMA-7B, 13B och 30B för språkmodelleringsuppgifter.

Enligt teamet är lågbitprecisionskvantiseringen av många LLM särskilt svår på grund av betydande extremvärden i viktmatriserna. Dessa extremvärden påverkar likaså deras olikformiga kvantiseringsmetod eftersom de snedvrider allokeringen av bitar mot extremt höga eller låga värden. För att eliminera extremvärdena tillhandahåller de en enkel metod som delar upp modellvikterna i täta och glesa komponenter. Genom att isolera extremvärdena visar den centrala regionen ett smalare intervall på upp till 10, vilket resulterar i bättre kvantiseringsprecision. Med effektiva sparse lagringsmetoder som Compressed Sparse Rows (CSR) kan den sparsamma data hållas i full precision. Denna metod ådrar sig låg overhead genom att använda effektiva glesa kärnor för den glesa halvan och parallellisera beräkningen längs den täta delen.

Teamet demonstrerar deras ramverks potentiella kvantifierande IF-modeller genom att tillämpa SqueezeLLM på Vicuna-7B- och 13B-modellerna. De jämför två system i sina tester. Till att börja med använder de MMLU-datauppsättningen, ett multi-task benchmark som mäter en modells kunskap och problemlösningsförmåga, för att mäta kvaliteten på den genererade utdata. De använder också GPT-4 för att rangordna genereringskvaliteten för de kvantiserade modellerna i förhållande till FP16-baslinjen, med hjälp av utvärderingsmetoden som presenteras i Vicuna. I båda benchmarks överträffar SqueezeLLM regelbundet GPTQ och AWQ, två aktuella toppmoderna metoder. Noterbart är att i båda bedömningarna presterar den 4-bitars kvantiserade modellen lika bra som baslinjen.

Arbetet visar avsevärda latensminskningar och framsteg i kvantiseringsprestanda med deras modeller som körs på A6000 GPU:er. Forskarna visar hastigheter på upp till 2,3 jämfört med baslinjens FP16 slutledning för LLaMA-7B och 13B. Dessutom uppnår den föreslagna metoden upp till 4 gånger snabbare latens än GPTQ, vilket visar dess effektivitet i kvantiseringsprestanda och slutledningseffektivitet.