Följande artikel hjälper dig: Allt om logistisk regression – mot AI
Ursprungligen publicerad på Towards AI the World’s Leading AI and Technology News and Media Company. Om du bygger en AI-relaterad produkt eller tjänst inbjuder vi dig att överväga att bli AI-sponsor. På Towards AI hjälper vi att skala AI och nystartade teknologier. Låt oss hjälpa dig att släppa loss din teknik till massorna.
I den här artikeln kommer vi att förstå logistisk regression och försöka svara på följande frågor:
- Vad är logistisk regression?
- Varför inte linjär regression?
- Varför logistisk regression?
- När logistisk regression?
- Hur logistisk regression?
Vad är logistisk regression?
Logistic Regression är en övervakad maskininlärningsalgoritm som används i klassificeringsproblem där vi måste skilja den beroende variabeln mellan två eller flera kategorier eller klasser genom att använda de oberoende variablerna.
Till exempel:
Betrakta tabellen ovan där den beroende variabeln är ‘Art’ och den oberoende variabeln är ‘kronbladsbredd’. Arter visar två kategorier som är ‘0’ betecknar Setosa irisblomma och ‘1’ betecknar Versicolor irisblomma.
Logistisk regression ger sannolikheten för respektive kategori med hjälp av blommans bredd.
Varför inte linjär regression?
Det finns främst två anledningar:
- Linjär regression handlar om kontinuerliga eller kvantitativa värden medan vi i klassificeringsproblem behandlar diskreta eller sannolikhetsvärden.
- Om vi på något sätt passar in den linjära regressionslinjen i datamängden enligt följande:
Om vi tar tröskeln 0,5, i det här fallet, verkar den linjära linjen göra ett bra jobb, men om vi introducerar några extremvärden i datamängden.
Du kan se hur mycket linjelutningen fluktuerar från dess ursprungliga position. Så vi har inte råd med en sådan modell som ger olika svar när den introduceras med nya datapunkter. En annan liten punkt att lägga märke till är att intervallet för resultatet inte är inom det intervall som vi vill ha, vilket är att förutsäga sannolikhet utanför intervallet 0 till 1.
För att veta mer om linjär regression klicka på länken nedan:
Allt om linjär regression
Varför logistisk regression?
- Som vi diskuterar i ovanstående fråga, fluktuerar linjär regression när nya datapunkter introduceras. Logistisk regression löser detta problem genom att introducera en extra funktion för att böja den bästa räta linjen i en kurva som visas nedan.
- Logistisk regression är lätt att förstå, implementera och mycket effektivt att träna.
- Logistisk regression fungerar bra på små datamängder och är mycket snabb på att klassificera okända poster.
- Kärnkonceptet logistisk regression används vidare i artificiella neurala nätverk.
När logistisk regression?
När följande krav är uppfyllda för logistisk regression:
- Den beroende variabeln måste vara kategorisk data, antingen den binära dataklassen eller den ordinära dataklassen.
- Observation av de oberoende variablerna får inte vara repetitiv eller matchad, eftersom logistisk regression är känslig för överanpassning.
- Multikollinearitet bör inte finnas bland de oberoende variablerna
- Logistisk regression krävde vanligtvis stor urvalsstorlek.
NOTERA: Ovanstående punkter kallas också för “Antaganden för logistisk regression”.
Hur logistisk regression?
Det finns två sätt att förstå logistisk regression.
- Probabilistisk intuition
- Geometrisk intuition
I den här artikeln kommer vi att gå för Probabilistic Intuition eftersom Geometric Intuition återigen kommer att täcka i SVM (Support Vector Machine).
Som vi diskuterar ovan är logistisk regression att använda en funktion för att klämma ihop eller böja den linjära linjen som funktion kan vara vilken matematisk funktion som helst som tan, Sigmoid, ReLu, etc.
Sigmoidal funktion
Logistic Regression använder oftast sigmoidfunktionen eftersom-
- sigmoidfunktion returnerar utfall i intervallet 0 till 1 vilket är väl lämpat för logistisk regression eftersom vi förutsäger sannolikheten för utfallet.
- Sigmoid Funktionsderivata är lätt att beräkna jämfört med andra funktioner som används under gradientnedstigning.
Låt oss se något samband mellan sannolikheten för utfall och den linjära linjeekvationen för att bättre förstå sambandet mellan linjär regression och logistisk regression:
Nu, som de flesta övervakade maskininlärningsalgoritmer, har logistisk regression också tre huvudsteg: Hypotes, kostnadsfunktion, en optimeringsteknik.
Hypotes: I detta antar vi något slags matematiskt samband mellan beroende och oberoende variabler. I logistisk regression använder vi Sigmoid-funktionen för att etablera relationen.
Kostnadsfunktion: den här funktionen används för att ta reda på felet för vårt förutsagda värde. I logistisk regression använder vi loggförlustfunktionen.
Optimeringsteknik: I det här steget försöker vi minska felet med hjälp av några matematiska tekniker. I logistisk regression kommer vi att använda Gradient Descent för att göra det.
där derivatan av loggförlustfunktionen är:
Kodningsexempel på logistisk regression med Python från början:
Steg 1: Förbered datauppsättningen
Steg 2: Skapa en funktion som utför Gradient Descent och returnerar värdet av vikter som är associerade med varje oberoende variabel.
Steg 4: Skapa en funktion som förutsäger resultatet med hjälp av vikterna.
Steg 5: Ring upp funktionerna och förutsäg resultaten.
Hur vet vi poängen eller träffsäkerheten i förutsägelsen?
I klassificeringsproblem använder vi förvirringsmatrisen, noggrannhetspoäng, precision, återkallelse eller F1-poäng för att mäta modellens noggrannhet.
Förvirringsmatris:
var,Sant positiv (TP): Ett resultat som förutspåddes som positivt av klassificeringsmodellen och som också är positivtTrue Negative (TN): Ett resultat som förutspåddes som negativt av klassificeringsmodellen och som också är negativtFalskt positivt (FP): Ett resultat som förutspåddes som positivt av klassificeringsmodellen men som faktiskt är negativtFalskt negativt (FN): Ett resultat som förutspåddes som negativt av klassificeringsmodellen men som faktiskt är positivt.Modellens trovärdighet baseras på hur många korrekta förutsägelser modellen gjorde.
Noggrannhetspoäng: Tdet totala antalet korrekta klassificeringar dividerat med det totala antalet klassificeringar.
Precision: Det är ett mått på bland alla positiva förutsägelser, hur många av dem som faktiskt var positiva
Återkallelse: Det är ett mått på: från det totala antalet positiva resultat hur många positiva som korrekt förutspåddes av modellen.
F1 poäng: Det definieras som det harmoniska medelvärdet av Precision och Recall.
länk till anteckningsboken som används i den här artikeln:
Articles_Blogs_Content/All_About_Logistic_Regression.ipynb at main · Akashdawari/Articles_Blogs_Content
Gilla och dela om du tycker att den här artikeln är till hjälp. Följ mig också på medium för mer innehåll relaterat till Machine Learning och Deep Learning.
Allt om logistisk regression publicerades ursprungligen i Towards AI på Medium, där människor fortsätter samtalet genom att lyfta fram och svara på den här historien.
Publicerad via Mot AI