Lineær vs logistisk regression
I statistisk analyse er det vigtigt at identificere forholdet mellem de pågældende variabler til undersøgelsen. Nogle gange kan det være det eneste formål med selve analysen. Et stærkt værktøj, der bruges til at fastslå eksistensen af forhold og identificere forholdet, er regressionsanalyse.
Den enkleste form for regressionsanalyse er den lineære regression, hvor forholdet mellem variablerne er et lineært forhold. Statistisk frembringer det forholdet mellem den forklarende variabel og responsvariablen. For eksempel kan vi ved hjælp af regression fastslå forholdet mellem råvareprisen og forbruget baseret på data indsamlet fra en tilfældig stikprøve. Regressionsanalyse vil producere en regressionsfunktion af datasættet, som er en matematisk model, der bedst passer til de tilgængelige data. Dette kan let repræsenteres af et spredningsdiagram. Grafisk regression svarer til at finde den bedst passende kurve for det givne datasæt. Kurvens funktion er regressionsfunktionen. Ved hjælp af den matematiske model kan brugen af en vare forudsiges til en given pris.
Derfor bruges regressionsanalysen i vid udstrækning til at forudsige og forudsige. Det bruges også til at etablere relationerne i eksperimentelle data, inden for fysik, kemi og i mange naturvidenskab og ingeniørdiscipliner. Hvis forholdet eller regressionsfunktionen er en lineær funktion, er processen kendt som en lineær regression. I spredningsdiagrammet kan det repræsenteres som en lige linje. Hvis funktionen ikke er en lineær kombination af parametrene, er regressionen ikke-lineær.
Logistisk regression kan sammenlignes med multivariat regression, og det skaber en model til at forklare virkningen af flere forudsigere på en responsvariabel. I logistisk regression bør variablen i slutresultatet imidlertid være kategorisk (normalt opdelt; dvs. et par opnåelige resultater, som død eller overlevelse, selvom særlige teknikker gør det muligt at modellere mere kategoriseret information). En kontinuerlig resultatvariabel kan omdannes til en kategorisk variabel, der skal bruges til logistisk regression; kollaps af kontinuerlige variabler på denne måde frarådes imidlertid for det meste, fordi det reducerer nøjagtigheden.
I modsætning til i den lineære regression, mod middelværdien, behøver forudsigelsesvariablerne i logistisk regression ikke at være tvunget til at være lineært forbundet, almindeligt fordelt eller have samme varians inde i hver klynge. Som følge heraf er forholdet mellem forudsigelses- og udfaldsvariabler sandsynligvis ikke en lineær funktion.
Hvad er forskellen mellem logistisk og lineær regression?
• Ved lineær regression antages en lineær relation mellem den forklarende variabel og responsvariablen, og parametre, der tilfredsstiller modellen, findes ved analyse for at give det nøjagtige forhold.
• Lineær regression udføres for kvantitative variabler, og den resulterende funktion er en kvantitativ.
• I den logistiske regression kan anvendte data enten være kategoriske eller kvantitative, men resultatet er altid kategorisk.