Information

Wie führt man eine multiple hierarchische Regression mit kategorialen und skalierten Prädiktoren in SPSS aus?

Wie führt man eine multiple hierarchische Regression mit kategorialen und skalierten Prädiktoren in SPSS aus?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich recherchiere derzeit für meine Masterarbeit und bin bei der Analyse meiner Daten auf ein kritisches Problem gestoßen. Ich studiere Psychologie und suche nach Prädiktoren für die Akzeptanz von männlichen Vergewaltigungsmythen. Meine Prädiktoren sind Geschlecht, Alter, Ethnizität, geschätztes monatliches Einkommen und Homophobie. Meine Kriteriumsvariable und der Prädiktor für Homophobie sind beides Skalendaten, während Geschlecht, Alter, Ethnizität und das geschätzte monatliche Einkommen allesamt kategoriale Daten sind.

Ich habe Sex erfolgreich in eine 0= weibliche und 1= männliche binäre Variable umcodiert und auch alle meine anderen kategorialen Variablen dummycodiert. Ich bin jetzt gekommen, um die Analyse durchzuführen, und ich bin völlig ahnungslos, wie ich die Variablen in das hierarchische Modell eingeben und dann die Ergebnisse interpretieren soll. Ich habe bisher nur eine multiple Regression mit Skalenprädiktoren durchgeführt. Ich kenne auch Dummy-Variablen nur dann, wenn sie allein in ein Modell ohne andere Variablen eingegeben werden, da unsere Lehre diesbezüglich so weit gegangen ist. Wenn mir jemand helfen kann, wäre ich dankbar!


Grundsätzlich gibt es drei Arten von Prädiktoren:

  • Binär (z. B. geschlechtskodiert weiblich = 0, männlich = 1): Der Koeffizient ist der Grad, in dem Männer in der Ergebnisvariablen höher sind als Frauen, wobei alle anderen Variablen konstant gehalten werden.
  • Numerisch (z. B. Alter in Jahren): Der Koeffizient ist der Effekt, den das Alter um ein Jahr auf die Ergebnisvariable hat, wenn alle anderen Variablen gleich sind
  • Nominal (3 oder mehr Kategorien, z. B. Ethnizität). Hier erstellen Sie k - 1 Dummy-Variablen (wobei k die Anzahl der Kategorien ist). Jede Dummy-Kategorie ist der Effekt der Zugehörigkeit zu dieser Kategorie relativ zur Referenzkategorie, die alle anderen Variablen konstant hält.

Wenn Sie einmal verstanden haben, wie die Koeffizienten zu interpretieren sind, ändert die hierarchische Regression wirklich nichts. Die hierarchische Regression ist wirklich dasselbe wie das Ausführen einer Reihe von Regressionsmodellen mit verschiedenen Prädiktoren (sie beinhalten nur zufällig das inkrementelle Hinzufügen von Prädiktoren).


Wie führt man eine multiple hierarchische Regression mit kategorialen und skalierten Prädiktoren in SPSS aus? - Psychologie

In diesem Leitfaden erfahren Sie, wie Sie ein multiples Regressionsmodell mit Interaktionen in SPSS anhand eines praktischen Beispiels schätzen, um den Prozess zu veranschaulichen. Den Lesern werden Links zum Beispieldatensatz bereitgestellt und sie werden ermutigt, dieses Beispiel zu replizieren. Ein zusätzliches Praxisbeispiel wird am Ende dieses Leitfadens vorgeschlagen. Im Beispiel wird davon ausgegangen, dass Sie die Datendatei bereits in SPSS geöffnet haben.

Interaktion beschreibt eine bestimmte Art von nichtlinearer Beziehung, bei der sich der “Effekt” einer unabhängigen Variablen auf die abhängige Variable bei unterschiedlichen Werten einer anderen unabhängigen Variablen im Modell unterscheidet. In einem multiplen Regressionsmodell mit “Haupteffekten” wird eine abhängige Variable (oder Antwortvariable) als lineare Funktion von zwei oder mehr unabhängigen (oder erklärenden) Variablen ausgedrückt. Dies erfordert die Schätzung eines Achsenabschnitts (oft als Konstante bezeichnet) und einer Steigung für jede unabhängige Variable, die die Änderung der abhängigen Variablen für einen Anstieg der unabhängigen Variablen um eine Einheit beschreibt. Die größte Aufmerksamkeit gilt den Steigungsschätzungen, da sie die Beziehung zwischen den abhängigen und den unabhängigen Variablen erfassen. In einem Modell, das einen Interaktionsterm enthält, können die Steigungsschätzungen nicht auf die gleiche Weise interpretiert werden, da sie nun von anderen Werten abhängig sind. Der Fokus liegt stattdessen auf der Differenz der Steigungen, die durch den Wechselwirkungskoeffizienten beschrieben wird. In einem linearen Regressionsmodell sollten die abhängigen Variablen stetig sein. Eine Interaktion kann zwischen kategorialen oder stetigen unabhängigen Variablen und über mehrere unabhängige Variablen hinweg auftreten. Dieses Beispiel konzentriert sich auf Interaktionen zwischen einem Variablenpaar, die kategorialer und kontinuierlicher Natur sind. Dies wird als Zwei-Wege-Interaktion bezeichnet. Es ist möglich, Drei-Wege-Interaktionen oder mehr zu haben, aber wir konzentrieren uns auf den Zwei-Wege-Fall, um die Erklärung zu vereinfachen.

In diesem Beispiel werden drei Variablen aus einer Teilmenge des European Social Survey (2016) verwendet:

  • Punktzahl auf einer Skala, die misst, wie vorteilhaft britische Befragte die Einwanderung nach Großbritannien empfinden (Einwanderung)
  • Punktzahl auf einer Skala zur Messung der Wichtigkeit von Werten der Befragten im Verhältnis zu neun anderen menschlichen Grundwerten (Konformität)
  • Ob Befragter bei der letzten nationalen Wahl gewählt hat oder nicht (Wähler)

Die Bewertungsvariable für Zuwanderung wurde anhand einer summativen Skala ausgewählter Erhebungselemente konstruiert, die auf interne Konsistenz getestet wurde. Die Variable Konformität wurde anhand von Items erstellt, die von der European Social Survey als auf diesen Wert bezogen identifiziert wurden. Die mittlere Punktzahl einer Person über alle menschlichen Werte-Items wurde von ihrer durchschnittlichen Punktzahl für die Items, die sich auf das fragliche Konzept bezogen, subtrahiert, wodurch die Priorität identifiziert wurde, die diesem bestimmten Wert im Verhältnis zu anderen beigemessen wird. Beide Variablen sind um den Mittelwert zentriert. Sie können alle als kontinuierlich angesehen werden, mit einem Mittelwert von ungefähr Null und einer ungefähren Spanne von ungefähr 𕒶.0 bis +2,0 für Einwanderung und 𕒷 bis +3 für Konformität. Eine hohe Punktzahl bedeutet eine positive Einstellung zur Einwanderung und eine hohe relative Bedeutung von Konformitätswerten. Wähler ist eine binäre kategoriale Variable, die mit 1 codiert ist, wenn der Befragte bei der letzten Wahl gewählt hat, und mit 0, wenn er dies nicht getan hat.

Bei der Durchführung einer multiplen Regression mit Interaktionen ist es oft ratsam, zuerst jede Variable einzeln zu untersuchen. Dies kann in SPSS durch Auswahl aus dem Menü erfolgen:

Analysieren Sie → Deskriptive Statistiken → Explore

Verschieben Sie im sich öffnenden Dialogfeld “Explore” die Einwanderungs- und Konformitätsvariablen in das Feld “Dependent List:”. Klicken Sie mit der rechten Maustaste auf die Schaltfläche “Plots”. Dadurch wird ein weiteres Dialogfeld geöffnet, in dem Sie die zu erstellenden Plots auswählen können. Überprüfen Sie in diesem Beispiel einfach “Histogramm” unter der Überschrift Beschreibend. Klicken Sie auf Weiter, um zum vorherigen Dialogfeld zurückzukehren, und klicken Sie dann auf OK, um die Analyse durchzuführen.

Wir sollten auch eine Häufigkeitsverteilung der Wählervariablen erstellen. Dies erfolgt in SPSS durch Auswahl der folgenden Menüoptionen:

Analysieren Sie → Deskriptive Statistiken → Häufigkeiten

Verschieben Sie im daraufhin geöffneten Dialogfeld die Voter-Variable in das Feld “Variable(n)” und klicken Sie auf OK .

Screenshots für das Verfahren zum Erstellen von Histogrammen in SPSS finden Sie im Thema “How to Guides for the Dispersion of a Continuous Variables”, das Teil von SAGE Research Methods Datasets ist. Bei der Schätzung eines Regressionsmodells einschließlich Wechselwirkungen schätzen wir zunächst ein multiples Regressionsmodell mit Haupteffekten. Um sicherzustellen, dass wir die beiden Modelle vergleichen können, listen wir die unabhängigen Variablen beider Modelle in zwei separaten Blöcken auf, bevor wir die Analyse ausführen. Dies liefert Schätzungen für beide Modelle und einen Signifikanztest der Differenz zwischen den R-Quadrat-Werten.

Sie schätzen ein multiples Regressionsmodell in SPSS, indem Sie aus dem Menü Folgendes auswählen:

Analysieren Sie → Regression → Linear

Verschieben Sie im sich öffnenden Dialogfeld “Linear Regression” die abhängige Variable Einwanderung in das Fenster “Dependent:” und verschieben Sie die beiden unabhängigen Variablen Konformität und Voter in das “Independent(s):” Fenster. Abbildung 1 zeigt, wie das in SPSS aussieht.

Um ein Regressionsmodell mit Wechselwirkungen zu schätzen, müssen wir eine neue Variable erstellen, die das Produkt der beiden unabhängigen Variablen ist. Wählen Sie dazu die folgenden Menüpunkte:

Transformieren → Variable berechnen

Wählen Sie im sich öffnenden Dialogfeld “Variable berechnen” einen Namen für die neue Variable aus. In diesem Fall rufen wir die Variable confvote auf. Wählen Sie im Feld “Numeric Expression” die Konformität aus und multiplizieren Sie sie mit dem Wähler, wie in Abbildung 2 gezeigt.

Wenn Sie zum Dialogfeld Lineare Regression zurückkehren, wählen Sie “Next” über dem Variablenfeld “Independent(s)” aus. Die abhängige Variable Einwanderung wird weiterhin im Feld der abhängigen Variablen angezeigt. Fügen Sie für das Modell, das einen Interaktionsterm enthält, die neue Variable confvote wie in Abbildung 3 gezeigt hinzu.

Wählen Sie aus den Optionen rechts neben dem Textfeld “Statistik” aus. Dadurch wird das Feld “Linear Regression:Statistics” geöffnet, wie in Abbildung 4 gezeigt. Aktivieren Sie das Kontrollkästchen neben”R quadriert ändern” und drücken Sie Weiter, um zum vorherigen Dialogfeld zurückzukehren.

Wählen Sie als Nächstes “Speichern” aus den Optionen auf der rechten Seite. Aktivieren Sie im sich öffnenden Dialogfeld “Linear Regression:Save” das “Unstandardized” im Abschnitt “Predicted Values” (siehe Abbildung 5). Neben dem Interaktionsmodell müssen Sie diese Option auswählen und die Analyse für das erste Modell ausführen, bevor Sie die Variablen für das zweite Modell auswählen. Andernfalls erzeugt SPSS nur vorhergesagte Werte für das Modell einschließlich eines Interaktionsterms.)

Drücken Sie OK, um die Analyse auszuführen.

Die Abbildungen 6 und 7 zeigen Histogramme für die beiden kontinuierlichen Variablen.

Abbildung 6 zeigt eine grobe Normalverteilung mit einem Peak bei den niedrigsten Werten. Insgesamt gibt es wenig Anlass zur Besorgnis hinsichtlich der Eignung der Variablen für die Aufnahme.

Abbildung 7 zeigt eine sehr leicht negativ verzerrte Verteilung mit einem Spitzenwert der Werte knapp über dem Mittelwert, der jedoch nahe genug am Normalwert liegt, um keine Bedenken zu rechtfertigen.

Die Häufigkeitsverteilung der Wählervariablen in Abbildung 8 zeigt, dass 71,5 % der Befragten bei der letzten Wahl ihre Stimme abgegeben haben, verglichen mit 28,5 % der Befragten, die dies nicht getan haben.

Es ist auch nützlich, die mögliche Korrelation zwischen Ihren unabhängigen Variablen zu untersuchen. In diesem Fall beträgt der Korrelationskoeffizient nach Pearson zwischen Wähler und Konformität 0,07, was schwach ist. Wir haben daher wenig Bedenken, dass Multikollinearität diese Regressionsanalyse beeinflusst.

Die Abbildungen 9 und 10 zeigen eine Reihe von Ergebnistabellen für beide Modelle, die durch das multiple Regressionsverfahren in SPSS erstellt wurden.

Die ersten drei Tabellen in Abbildung 9 zeigen die unabhängigen Variablen, die in Modell 1 (das Haupteffektmodell) und Modell 2 (das Modell mit einem Interaktionsterm) eingegeben wurden, einige zusammenfassende Anpassungsstatistiken für die Regressionsmodelle und eine Varianzanalyse für beide Modelle als Ganzes. Obwohl eine detaillierte Untersuchung dieser Tabellen den Rahmen dieses Beispiels sprengen würde, stellen wir fest, dass der R-Quadrat-Wert in der zweiten Tabelle den Anteil der Varianz in der abhängigen Variablen misst, der durch das Modell erklärt wird. Ein Wert von 0,037 für das Haupteffektmodell bedeutet, dass nur etwa 3,7 % der Varianz der Einstellungen zur Einwanderung auf die beiden unabhängigen Variablen zurückzuführen sind. Ein angewandter Forscher möchte vielleicht ein Modell mit mehr erklärenden Variablen entwickeln, um die Grundlagen der Einstellungen gegenüber den Vorteilen der Einwanderung in das Land besser zu verstehen. Wir stellen fest, dass für das zweite Modell, das einen Interaktionsterm enthält, 0,04 nur sehr geringfügig höher ist als beim ersten Modell. Die Änderungsstatistiken in den Modellzusammenfassungstabellen geben die Ergebnisse eines F-Tests an, der prüft, ob die Differenz zwischen dem Haupteffektmodell und dem des Interaktionsmodells gleich Null ist. Die Ergebnisse zeigen einen Wert von 5,824 und einen zugehörigen p-Wert von 0,016. Wir können daher die Nullhypothese verwerfen und schlussfolgern, dass es Hinweise auf einen Interaktionseffekt zwischen Konformitätswerten und Abstimmungen gibt. In diesem Fall erklärt die Interaktion jedoch nicht viel mehr über die Varianz, und ein Forscher könnte aus Gründen der Sparsamkeit entscheiden, sie auszuschließen.

Die obere Tabelle in Abbildung 10 zeigt die Schätzungen des Achsenabschnitts oder der Konstanten (_cons) und die Steigungskoeffizienten für beide Modelle. Betrachtet man zunächst Modell 1, geben die Ergebnisse einen Schätzwert für den Achsenabschnitt oder die Konstante von ungefähr −.19 an. Die Konstante eines multiplen Regressionsmodells kann als durchschnittlicher Erwartungswert der abhängigen Variablen interpretiert werden, wenn alle unabhängigen Variablen gleich Null sind. Da in diesem Fall die kontinuierliche unabhängige Variable einen Mittelwert von ungefähr null und die binäre Variable einen Wert von null hat, gibt uns die Konstante den erwarteten Zuwanderungswert für die Befragten an, die Konformitätswerten durchschnittlich hohe Priorität einräumen und nicht gewählt haben. Forscher haben nicht oft Vorhersagen, die auf dem Schnittpunkt basieren, daher wird ihm oft wenig Aufmerksamkeit geschenkt, obwohl Null ein sinnvoller “in-Sample”-Wert ist, kann es nützlich sein.

Der geschätzte Wert für den Partial-Steigung-Koeffizienten, der die Einstellungen zur Einwanderung mit den Konformitätswerten verknüpft, beträgt ungefähr −,15. Dies stellt den durchschnittlichen marginalen Effekt von Konformitätswerten auf die Einwanderungseinstellungen dar und kann als erwartete Veränderung der abhängigen Variablen im Durchschnitt bei einer Erhöhung der unabhängigen Variablen um eine Einheit interpretiert werden, die steuert, ob jemand gewählt hat oder nicht. In diesem Modell drückt der Koeffizient die eindeutige Assoziation dieser Variablen mit der abhängigen Variablen aus, sodass jede Erhöhung des Konformitätswerts um einen Punkt mit einem Anstieg der Einstellung zur Einwanderung um etwa −.15 verbunden ist, wobei kontrolliert wird, ob jemand gestimmt. Der Koeffizient ist statistisch signifikant, basierend auf einem p-Wert von weniger als 0,001.

Diese Tabelle zeigt auch, dass der Partial-Steigung-Koeffizient, der das Wahlverhalten mit einer positiven Einstellung zur Einwanderung verknüpft, auf ungefähr 0,24 geschätzt wird. Dies stellt den durchschnittlichen marginalen Effekt der Abstimmung auf die Einstellung zur Einwanderung dar, wobei die Konformitätswerte kontrolliert werden. Da die Wahlvariable Werte von 0 und 1 aufweist, können wir feststellen, dass über alle Bedeutungsebenen hinweg, die den Konformitätswerten beigemessen werden, diejenigen, die bei den letzten nationalen Wahlen ihre Stimme abgegeben haben, im Durchschnitt eine um 0,24 Punkte höhere positive Einstellung zur Zuwanderung hatten als diejenigen, die hat nicht gestimmt. Der Koeffizient ist statistisch signifikant, basierend auf einem p-Wert von weniger als 0,001.

Die Interpretation der Ergebnisse für das zweite Modell einschließlich eines Interaktionsterms ist nicht so einfach wie beim ersten Modell.

Wie zuvor kann der Achsenabschnitt (−.19) als durchschnittliches Niveau der abhängigen Variablen interpretiert werden, wenn die Werte der unabhängigen Variablen Null sind.

Bei der Interpretation der Koeffizienten (oder Steigungsschätzungen) für die unabhängigen Variablen unseres Modells muss mehr Aufmerksamkeit geschenkt werden. Abbildung 10 zeigt einen Koeffizienten von −.069 für die variable Übereinstimmung und 0,236 für den Wähler. Diese Werte können nicht mehr als Beziehung zwischen jeder unabhängigen Variablen und der abhängigen Variablen interpretiert werden, sondern sind nun von den Werten des Interaktionsterms abhängig. Folglich zeigen sie nur dann den einzigartigen Effekt einer interagierenden Variablen, wenn der Wert der anderen Null ist. Der Wert für Wähler ist auf dem Niveau von 0,001 statistisch signifikant, der Wert für Konformität ist jedoch mit einem p-Wert von 0,065 nicht mehr statistisch signifikant. Es ist wichtig zu beachten, dass die p -Werte für die Haupteffekte nur dann relevant sind, wenn der Wert der anderen Variablen Null ist. Da die Standardfehler zwischen den Werten der anderen Variablen variieren können, gibt es nur begrenzte Informationen im p-Wert für diese Koeffizienten. Die Bedeutung des Wechselwirkungskoeffizienten und nicht der konstituierenden Variablen ist hier von größter Bedeutung. Wir interessieren uns hauptsächlich für den Koeffizienten für den Produktterm, der auf ungefähr −,11 geschätzt wird und basierend auf einem p-Wert von weniger als 0,05 statistisch signifikant ist. Dieser Wert beschreibt die Änderung der Steigung, so dass sich die Steigung einer unabhängigen Variablen der abhängigen Variablen um −.11 für jede Einheitsänderung der anderen unabhängigen Variablen ändert.

Der einfachste Weg, die Ergebnisse zu interpretieren, besteht darin, sie in einem Diagramm darzustellen. Wählen Sie dazu die folgenden Menüpunkte:

Diagramme → Legacy-Dialoge → Scatter/Dot

Markieren Sie das in Abbildung 11 gezeigte Symbol “Simple Scatter” und klicken Sie auf Definieren . Markieren Sie im sich öffnenden Dialogfeld “Simple Scatterplot” (siehe Abbildung 12) die neue Variable Unstandardized Predicted Values ​​[PRE_1] und klicken Sie auf den Pfeil, um sie in das Textfeld Y-Achse zu verschieben. Wählen Sie für die X-Achse Konformität aus. Wählen Sie im Feld “Marker setzen nach:” die Option voter aus.

(Zu Vergleichszwecken haben wir die vorhergesagten Werte für beide Modelle gespeichert. Wenn Sie dasselbe gemacht haben, bezieht sich der erste Satz vorhergesagter Werte auf das Haupteffektmodell. Wiederholen Sie den gleichen Vorgang, um einen zweiten Graphen des Interaktionsmodells zu erstellen. diesmal mit nicht standardisierten vorhergesagten Werten [PRE_2] auf der Y-Achse.) Drücken Sie OK, um das ausgewählte Diagramm zu erstellen.

Abbildung 13 zeigt die grafische Darstellung der Ergebnisse unseres Haupteffekt-Regressionsmodells. Wir sehen, dass der Anteil derer, die zur Wahl gegangen sind, höher ist als der derjenigen, die nicht gewählt haben, und daher sind diejenigen, die bei den letzten nationalen Wahlen ihre Stimme abgegeben haben, im Durchschnitt positiver über die Vorteile der Einwanderung als diejenigen, die nicht gewählt haben. Die Werte auf der Skala der Einwanderungseinstellungen nehmen ab, wenn die Werte für die Priorität der Konformitätswerte steigen. Die Steigungen sind parallel, was zeigt, dass der Trend zur positiven Einschätzung der Vorteile der Einwanderung über die Präferenzstufen für Konformitätswerte hinweg für diejenigen, die gewählt haben, und für diejenigen, die nicht gewählt haben, gleich ist.

Abbildung 14 zeigt einen Unterschied in den beiden Steigungen für diejenigen, die gewählt haben und diejenigen, die nicht gewählt haben, im Gegensatz zu den parallelen Steigungen für beide Gruppen in Abbildung 13. Wie zuvor sehen wir, dass diejenigen, die Konformitätswerte weniger wichtig sind, positiver sind über die Vorteile der Einwanderung in das Land. Allerdings sehen wir jetzt einen Unterschied in den Steigungen bei denjenigen, die gewählt haben und denen, die nicht gewählt haben, wobei die Steigung bei den Wählern (Wähler=1) stärker abfällt als bei den Nichtwählern (Wähler=0). Der negative Effekt von Konformitätswerten auf die Einstellung zur Einwanderung ist bei den Wählern stärker als bei denjenigen, die nicht gewählt haben.

Es gibt mehrere diagnostische Tests, die Forscher nach der Schätzung eines Regressionsmodells durchführen könnten, um zu bewerten, ob das Modell eine der OLS-Annahmen zu verletzen scheint oder ob es andere Arten von Problemen gibt, wie beispielsweise besonders einflussreiche Fälle. Die Beschreibung all dieser diagnostischen Tests würde den Rahmen dieses Beispiels sprengen.

Sie können dieses Beispiel-Dataset zusammen mit einer Anleitung herunterladen, die zeigt, wie ein multiples Regressionsmodell mit Interaktionen mithilfe von Statistiksoftware geschätzt wird.Der Beispieldatensatz enthält auch eine weitere Variable, Wohlwollen , die erfasst, inwieweit die Befragten wohlwollenden Werten auf der Skala menschlicher Werte Priorität einräumen. Diesmal wollen wir untersuchen, ob positive Einstellung zu den Vorteilen der Einwanderung mit dem Grad an Wohlwollen und Wahlen bei den nationalen Wahlen verbunden ist und ob sie so zusammenwirken, dass die Beziehung zwischen Wohlwollen und Einstellungen zur Einwanderung unterschiedlich ist, je nachdem, ob Sie wählen oder nicht . Sehen Sie, ob Sie die hier vorgestellten Ergebnisse reproduzieren können, und versuchen Sie, Ihre eigene multiple Regression mit Interaktionen zu erstellen, indem Sie Konformität durch Wohlwollen als kontinuierliche unabhängige Variable ersetzen.


Multiple lineare Regression mit kategorialen Prädiktoren

Vorher passen wir ein Modell für Verunreinigung mit Temperatur, Katalysatorkonz, und Reaktionszeit als Prädiktoren. Aber es gibt zwei andere Prädiktoren, die wir in Betracht ziehen könnten: Reaktor und Schicht. Reaktor eine kategoriale Variable mit drei Ebenen ist und Schicht ist eine kategoriale Variable mit zwei Ebenen. Wie können wir unser Modell erweitern, um Unterschiede in zu untersuchen? Verunreinigung zwischen den beiden Schichten oder zwischen den drei Reaktoren? Um eine zweistufige kategoriale Variable in ein Regressionsmodell zu integrieren, erstellen wir einen Indikator oder eine Dummy-Variable mit zwei Werten: Zuweisen einer 1 für die erste Verschiebung und -1 für die zweite Verschiebung.

Betrachten Sie die Daten der ersten 10 Beobachtungen. Hinter den Kulissen, wenn wir ein Model mit ausstatten Schicht, ersetzt die Software eine 1 für die erste Schicht und eine -1 für die zweite Schicht.

Für ein Modell mit Schicht als einziger Prädiktor ist der Achsenabschnitt der Gesamtdurchschnitt Verunreinigung. Der Koeffizient für Schicht, geschrieben Schicht[1], ist -0,012. Dies ist der Betrag, um den die erste Schicht unter dem Durchschnitt liegt Verunreinigung.

Der Durchschnitt Verunreinigung für die erste Verschiebung ist dann der Achsenabschnitt minus 0,012 oder 6,111. Der Durchschnitt Verunreinigung für die zweite Verschiebung ist der Achsenabschnitt plus 0,012 oder 6,135.

Allerdings ist die P-Wert ist sehr groß. Dieser Unterschied ist also nicht signifikant.

Beachten Sie, dass viele Softwarepakete anstelle der -1/1-Effektcodierung eine 0/1-Dummy-Codierung anwenden: eine 0 für die erste Verschiebung und eine 1 für die zweite Verschiebung zuweisen.

Der resultierende Koeffizient für Schicht[1] ist die Differenz im Durchschnitt von Verunreinigung zwischen der ersten und zweiten Schicht. Also der Durchschnitt Verunreinigung für die erste Schicht ist 0,024 niedriger als der Durchschnitt Verunreinigung für die zweite Schicht.

Es ist wichtig zu beachten, dass diese beiden Kodierungsschemata zu den gleichen Modellvorhersagen führen. Aus erklärender Sicht ist die Interpretation der Koeffizienten jedoch unterschiedlich. Wenden wir unsere Aufmerksamkeit der Variablen zu Reaktor, die drei Ebenen hat. In diesem Fall enthält das Regressionsmodell zwei Indikatorvariablen mit Koeffizienten für Reaktor 1 und Reaktor 2. Auch hier können wir entweder eine Effektcodierung oder eine Dummy-Codierung anwenden.

Hier wird die Effektcodierung angewendet:

  • Reaktor Nummer 1 wird als 1 für codiert Reaktor[1] und 0 für Reaktor [2].
  • Reaktor Nummer 2 wird als 0 für codiert Reaktor[1] und 1 für Reaktor [2].
  • Reaktor Nummer 3 ist codiert als -1 für Reaktor[1] und -1 für Reaktor [2].

Der Durchschnitt von Verunreinigung für Reaktor 1 liegt 0,82 unter dem Durchschnitt, und der Durchschnitt von Verunreinigung für Reaktor 2 liegt 0,42 unter dem Durchschnitt.

Warum melden wir keinen Koeffizienten für Reaktor 3? Es stellt sich heraus, dass bei kategorialen Prädiktoren mit drei Ebenen die letzte Ebene zu den ersten beiden Ebenen redundant ist.

Die Interpretation für effektkodierte Schätzungen ist, dass jeder Koeffizient die Differenz vom Durchschnitt ist. Da sich diese Koeffizienten zu Null summieren müssen, ist der Durchschnitt von Verunreinigung für Reaktor 3 lässt sich leicht aus den ersten beiden berechnen: der Durchschnitt von Verunreinigung für Reaktor 3 liegt 1,24 über dem Durchschnitt.

Als Verallgemeinerung berechnet die Software für einen k-stufigen kategorialen Prädiktor k-1 Koeffizienten.

Kehren wir zu unseren Modellergebnissen zurück. Die P-Werte für das gesamte Modell und die Parameterschätzungen sind sehr niedrig, was darauf hindeutet, dass es signifikante Unterschiede im Durchschnitt gibt Verunreinigung für die verschiedenen Reaktoren.

Jetzt setzen wir alles zusammen. Wir passen ein Modell für Verunreinigung mit allen fünf Prädiktoren. Wieder die P-Wert in der ANOVA-Tabelle zeigt an, dass das gesamte Modell signifikant ist.

Die Tabelle Effektzusammenfassung enthält Tests für die gesamten Effekte. Wir sehen das Temperatur, Katalysatorkonz, und Reaktor sind alle signifikant, bereinigt um die anderen Terme im Modell.

Zur Erinnerung, hier sind die Ergebnisse für unser Modell mit nur den drei kontinuierlichen Prädiktoren.

Der Root Mean Square Error für unser neues Modell ist niedriger. Und RSquare für unser neues Modell ist höher. Also, mehr von der Variation in Verunreinigung wird durch unser Modell erklärt.

RSquare kann jedoch aufgeblasen werden, indem dem Modell weitere Terme hinzugefügt werden, auch wenn diese neuen Terme nicht signifikant sind. In Situationen mit mehreren linearen Regressionen verwenden wir also RQuadrat angepasst beim Vergleichen verschiedener Modelle mit den gleichen Daten, anstatt RSquare zu verwenden. RSquare Adjusted verhängt eine Strafe für jede zusätzliche Laufzeit, P, die dem Modell hinzugefügt wird. Wenn dem Modell ein Term hinzugefügt wird, der die Variation in der Antwort nicht erklärt, sinkt RSquare Adjusted.

RSquare Adjusted für unser neues Modell ist höher als RSquare Adjusted für unser Originalmodell. Dies bestätigt, dass das neue Modell besser passt als das Originalmodell.

Aber können wir es besser machen? Gibt es weitere Begriffe, die wir dem Modell hinzufügen können? Wir untersuchen dies in einem kommenden Abschnitt.


Kategoriale Variablen mit mehr als zwei Ebenen

Im Allgemeinen wird eine kategoriale Variable mit n Stufen in n-1 Variablen mit jeweils zwei Stufen umgewandelt. Diese n-1 neuen Variablen enthalten dieselben Informationen wie die einzelne Variable. Diese Umcodierung erstellt eine Tabelle namens Kontrastmatrix.

Der Rang in den Gehaltsdaten hat beispielsweise drei Stufen: „AsstProf“, „AssocProf“ und „Prof“. Diese Variable könnte in zwei Variablen dummycodiert werden, eine namens AssocProf und eine Prof:

  • Wenn Rang = AssocProf, dann würde die Spalte AssocProf mit einer 1 und Prof mit einer 0 kodiert.
  • Wenn Rang = Prof, dann würde die Spalte AssocProf mit einer 0 codiert und Prof würde mit einer 1 codiert.
  • Bei Rang = AsstProf werden beide Spalten „AssocProf“ und „Prof“ mit einer 0 codiert.

Diese Dummy-Codierung wird von R automatisch durchgeführt. Zu Demonstrationszwecken können Sie mit der Funktion model.matrix() eine Kontrastmatrix für eine Faktorvariable erstellen:

Beim Erstellen eines linearen Modells gibt es verschiedene Möglichkeiten, kategoriale Variablen zu codieren, die als Kontrastcodierungssysteme bezeichnet werden. Die Standardoption in R besteht darin, die erste Ebene des Faktors als Referenz zu verwenden und die verbleibenden Ebenen relativ zu dieser Ebene zu interpretieren.

Beachten Sie, dass ANOVA (Varianzanalyse) nur ein Sonderfall eines linearen Modells ist, bei dem die Prädiktoren kategoriale Variablen sind. Und da R die Tatsache versteht, dass ANOVA und Regression beide Beispiele für lineare Modelle sind, können Sie die klassische ANOVA-Tabelle aus Ihrem Regressionsmodell mit der R base anova()-Funktion oder der Anova()-Funktion [in car package] extrahieren. Generell empfehlen wir die Funktion Anova(), da sie unausgeglichene Designs automatisch berücksichtigt.

Die Ergebnisse der Gehaltsvorhersage anhand eines multiplen Regressionsverfahrens sind unten dargestellt.

Berücksichtigt man andere Variablen (Dienstalter, Dienstgrad und Disziplin) zeigt sich, dass die kategoriale Variable Geschlecht nicht mehr signifikant mit den Gehaltsunterschieden zwischen den einzelnen Personen zusammenhängt. Wichtige Variablen sind Rang und Disziplin.

Wenn Sie die Kontraste der kategorialen Variablen interpretieren möchten, geben Sie Folgendes ein:

So ist beispielsweise zu erkennen, dass die Zugehörigkeit zur Fachrichtung B (angewandte Fachbereiche) signifikant mit einer durchschnittlichen Gehaltssteigerung von 13473,38 im Vergleich zur Fachrichtung A (theoretische Fachbereiche) verbunden ist.


  1. Wenn dies eine SPSS-Syntaxfrage ist, wird die Antwort einfach zusammen mit der kontinuierlichen Variablen in die Variablenliste für "unabhängige Variablen" eingefügt.
  2. Zur Statistik: Ist Ihre kategoriale Variable binär? In diesem Fall müssen Sie einen Dummy oder einen anderen gültigen Kontrastcode verwenden. Wenn es nicht binär ist, ist Ihre kategoriale Variable ordinal oder nominal? Wenn es nominell ist, müssen Sie wiederum eine gegensätzliche Codestrategie anwenden - im Endeffekt die Auswirkung jeder Ebene der Variablen auf das Ergebnis oder die "abhängige" Variable modellieren. Wenn die kategoriale Variable ordinal ist, dann höchstwahrscheinlich Es ist sinnvoll, sie unverändert in das Modell einzugeben, genau wie Sie es mit einer kontinuierlichen (d. h. "unabhängigen") Variablen tun würden. In diesem Fall würden Sie davon ausgehen, dass die Inkremente zwischen den Stufen der kategorialen Prädiktorvariablen ("unabhängig") nur selten ein Fehler sein werden, aber wenn dies der Fall ist, sollten Sie erneut einen Kontrastcode und ein Modell der Auswirkung jedes einzelnen verwenden Niveau. Diese Frage taucht in diesem Forum ziemlich oft auf -- hier ist eine gute Analyse
  3. Der Umgang mit fehlenden Daten ist aus meiner Sicht eine ganz andere Sache. Nach meinem Verständnis wird die paarweise Deletion nicht als gültiger Ansatz für die multivariate Regression angesehen. Listenweise ist ziemlich häufig, kann aber auch Ergebnisse verzerren und ist sicherlich eine Schande. Mehrfache Anrechnung ist etwas Schönes.

Sie können dies auf jeden Fall, indem Sie der gleichen Methode folgen, die Sie für den ersten kategorialen Prädiktor verwenden würden. Erstellen Sie Dummy-Variablen genauso wie für die erste solche Variable. Aber es ist oft einfacher, den Unianova-Befehl von SPSS zu verwenden. Sie können dies in jedem gedruckten oder PDF-Syntaxhandbuch nachschlagen oder über Analyze darauf zugreifen. Allgemeines lineares Modell. Univariat.

Obwohl der Regressionsbefehl etwas komplizierter ist, hat er gegenüber Unianova eine Reihe von Vorteilen. Der wichtigste ist, dass Sie „paarweise fehlend“ auswählen können (Sie müssen keinen Fall verlieren, nur weil ihm ein Wert für einen oder zwei Prädiktoren fehlt). Sie können auch viele wertvolle Diagnosen wie Teildiagramme und Einflussstatistiken erhalten.

Eine einfache Möglichkeit, kategoriale Variablen in einen Satz von Dummy-Variablen für die Verwendung in Modellen in SPSS umzuwandeln, ist die Verwendung der do repeat-Syntax. Dies ist am einfachsten zu verwenden, wenn Ihre kategorialen Variablen in numerischer Reihenfolge vorliegen.

Andernfalls können Sie einfach eine Reihe von if-Anweisungen ausführen, um Ihre Dummy-Variablen zu erstellen. Meine aktuelle Version (16) hat keine native Möglichkeit, eine Reihe von Dummy-Variablen automatisch im Regressionsbefehl anzugeben (wie Sie es in Stata mit dem Befehl xi können), aber ich wäre nicht überrascht, wenn dies in einer neueren Version verfügbar wäre. Beachten Sie auch Punkt 2 von dmk38, dieses Kodierungsschema geht von nominalen Kategorien aus. Wenn Ihre Variable ordinal ist, kann mehr Diskretion verwendet werden.

Ich stimme auch dmk38 zu, und die Rede davon, dass Regression besser ist, weil sie fehlende Daten auf eine bestimmte Weise spezifizieren kann, ist ein völlig anderes Thema.


3 Antworten 3

Kanst du? Sicher. Aber es wird zweifellos weniger Arbeit sein, ANOVA zu verwenden. Mathematisch entspricht die ANOVA der Regression, da sie Versionen desselben allgemeinen linearen Modells sind. Die Mechanik variiert je nach verwendeter Software, aber das Ordnen einer Interaktion (um Effekte von Kombinationen von Prädiktoren zu zeigen) ist einfacher, wenn Sie z. B. Alter*Akademische Disziplin in ANOVA verwenden, als wenn Sie die vielen berücksichtigen müssen Dummy-Variablen, die Sie für die Regression erstellt haben.

Ich bin mir nicht sicher, ob ein einfaches Gaußsches lineares Modell aufgrund der Natur der abhängigen Variablen relevant ist. Es scheint mir, dass ein Testergebnis eine "ordinale" Variable ist (d. h. eine diskrete Variable mit geordneten Kategorien). Ich würde mich daher mit Methoden für die ordinale Regression anstelle der einfachen linearen Regression wie Anova befassen. Solche Methoden gibt es in jeder Standardsoftware.

Die Antwort auf Ihre Frage lautet JA. Sie können die ordinale logistische Regression anwenden, um DVs mit kategorialen IVs vorherzusagen. Ich mache eine GROSSE ANNAHME hier Ihre DV haben 2 Intervalle so etwas wie LOW und HIGH.

Ich habe es einmal verwendet, um Methoden für Verhütungsmethoden vorherzusagen. Ich habe in unserem Modell eine proportionale Quote angenommen. Der Trick besteht nicht nur darin, alle IVs in Ihr Modell einzupassen, sondern auch die IVs zu identifizieren, die DVs beeinflussen.

Wenn Sie die Sprache R verwenden, kann polr Ihnen helfen. Aber um relevante IVs zu identifizieren, habe ich die lineare Regression verwendet, um den p-Wert für jede IVs zu finden und IVs zu entfernen, die einen größeren p-Wert hatten. Im Idealfall war die Regel, die ich angewendet habe, IV einzeln mit hohem p-Wert zu eliminieren und dann die lineare Regression erneut auszuführen, bis Sie alle IVs unter p < 0,1 finden.

Sobald ich IVs identifiziert habe, verwende ich polr

Angenommen, Sie haben IVs identifiziert: IV1 und IV2 und Ihre Antwortvariable ist dann DV

Summary(o_reg) gibt Ihnen die Ausgabe in Einheiten von geordneten Logits oder geordneten Log-Quoten. Es ist etwas schwierig, die Polr-Ausgabe zu interpretieren, da sie einige Annahmen über die Beziehung zwischen jedem Paar von Ergebnisgruppen macht. Sie müssen die Literatur durchlesen, um das herauszufinden.

Dann kommt der Vorhersageteil. Angenommen, Sie haben auch Testdaten (wir hatten Testdaten), wir haben die Vorhersagefunktion in R verwendet, um die Wahrscheinlichkeit jedes DV-Werts vorherzusagen, in Ihrem Fall könnte es P(LOW) und P(HIGH) sein.


Überprüfung der Annahmen

Es gibt einige Annahmen, denen die Daten folgen müssen, bevor die Moderationsanalyse durchgeführt wird:

  • Die abhängige Variable (Y) sollte auf einer kontinuierlichen Skala gemessen werden (d. h. es sollte eine Intervall- oder Verhältnisvariable sein).
  • Die Daten müssen eine unabhängige Variable (X), die entweder kontinuierlich (d. h. eine Intervall- oder Verhältnisvariable) oder kategorial (d. h. eine nominale oder quantitative Variable) ist, und eine Moderatorvariable (M) aufweisen.
  • Die Residuen dürfen nicht autokorreliert sein. Dies kann mit dem Durbin-Watson-Test in R überprüft werden.
  • Selbstverständlich muss zwischen der abhängigen Variablen (Y) und der unabhängigen Variablen (X) ein linearer Zusammenhang bestehen. Es gibt eine Reihe von Möglichkeiten, um nach linearen Beziehungen zu suchen, wie zum Beispiel das Erstellen eines Streudiagramms.
  • Die Daten müssen Homoskedastizität zeigen. Diese Annahme bedeutet, dass die Varianz um die Regressionsgerade für alle Kombinationen von unabhängigen (X) und Moderatorvariablen (M) ungefähr gleich ist.
  • Die Daten dürfen keine Multikollinearität innerhalb der unabhängigen Variablen (X) aufweisen. Dies tritt normalerweise auf, wenn zwei oder mehr unabhängige Variablen stark miteinander korreliert sind. Dies kann visuell interpretiert werden, indem eine Heatmap erstellt wird.
  • Die Daten sollten idealerweise keine signifikanten Ausreißer, stark einflussreiche Punkte oder viele NULL-Werte aufweisen. Die stark einflussreichen Punkte können mithilfe der studentisierten Residuen erkannt werden.
  • Die letzte Annahme besteht darin, zu überprüfen, ob die Restfehler ungefähr normalverteilt sind.

3.2 Führen Sie Ihre Regressionsmodelle aus

Verwenden lm()-Funktion Modell mit und ohne Interaktion ausführen

Verwenden Sie stargazer(), um Ihre Ergebnisse zu visualisieren

Abhängige Variable:
GPA
Haupteffekte Interaktion
(1) (2)
Konstante 1.540 *** 1.539 ***
(0.063) (0.063)
Arbeitsethik.C 0.136 ** 0.175 **
(0.060) (0.081)
Geschlecht.FFemale 0.570 *** 0.570 ***
(0.087) (0.087)
Arbeitsethik.C:Gender.FFemale -0.087
(0.122)
Beobachtungen 250 250
R2 0.161 0.163
Angepasstes R 2 0.154 0.153
Reststd. Fehler 0,685 (df = 247) 0,686 (df = 246)
F Statistik 23.740 *** (df = 2 247) 15,965 *** (df = 3 246)
Notiz: p<0.1 p<0.05 p<0.01

Beginnen wir direkt mit der Erstellung unserer Interaktion!

Denken Sie daran, dass wir Geschlecht bereits in einen Faktor mit beschrifteten Ebenen umgewandelt haben, sodass wir uns auf die tatsächlichen Namen der Ebenen (anstelle von Zahlen) beziehen können.

#### Interpretation des kontinuierlichen x kategorialen Interaktionsdiagramms Wie Sie sehen können, gibt es keine große Interaktion, die wir erwarten würden, nachdem wir gesehen haben, dass unser Interaktionseffekt unbedeutend war.


SPSS-Verfahren für die logistische Regression

SPSS verfügt über eine Reihe von Verfahren zum Ausführen der logistischen Regression.

Einige Arten der logistischen Regression können in mehr als einer Prozedur ausgeführt werden. Aus irgendeinem unbekannten Grund erzeugen einige Prozeduren eine Ausgabe, andere nicht. Daher ist es hilfreich, mehrere verwenden zu können.

Logistische Regression

Logistische Regression kann nur für binäre abhängige Variablen verwendet werden. Sie kann über die Menüoptionen rechts oder über den Syntaxbefehl LOGISTIC REGRESSION aufgerufen werden.

Die abhängige Variable muss haben nur zwei Werte. Wenn Sie eine Variable mit mehr als zwei angeben, erhalten Sie einen Fehler.

Ein großer Vorteil dieses Verfahrens besteht darin, dass Sie aufeinanderfolgende Modelle erstellen können, indem Sie jeweils eine Gruppe von Prädiktoren eingeben.

LOGISTISCHE REGRESSIONSVARIABLEN BinaryDV
/METHOD=ENTER Faktor Kovariate1
/METHOD=ENTER Kovariate2 Kovariate3
/KONTRAST (Faktor)=Indikator.

So führe ich zum Beispiel mit dieser Syntax tatsächlich gleichzeitig zwei Modelle aus, eines mit nur zwei unabhängigen Variablen, (klugerweise) benannt Faktor und Kovariate1.

Das zweite Modell hat vier unabhängige Variablen: Faktor, Kovariate1, Kovariate2, und Kovariate3.

Dies wird als “Hierarchical Regression” bezeichnet (nicht zu verwechseln mit hierarchischen linearen Modellen oder HLM) und ermöglicht einen einfachen Vergleich, wie sich die Modellanpassung und die Koeffizienten ändern, wenn Prädiktoren hinzugefügt werden.

Die Logistische Regression Der Befehl wird über die Menüs unter Regression–>Binary Logistic aufgerufen, wie oben gezeigt. (Aber nicht vergessen Paste Ihre Syntax, so dass Sie eine Aufzeichnung dessen haben, was Sie getan haben)!

PFLAUME steht für Polytomous Universal Model. Das ist ein Schluck, aber wirklich nur auf Modelle für kategoriale Ergebnisse mit mehr als zwei geordneten Kategorien zurückzuführen.

Wenn Ihre Ergebniskategorien nicht geordnet sind, verwenden Sie nicht PFLAUME. Es gibt keine Möglichkeit zu sagen, dass Kategorien ungeordnet sind, und sie werden in eine logische Reihenfolge gebracht.

PLUM OrdinalDV BY Faktor MIT Kovariate
/LINK=LOGIT
/PRINT=PARAMETER ZUSAMMENFASSUNG.

Logistische Regressionsmodelle sind eine Art verallgemeinerter linearer Modelle. PFLAUME kann tatsächlich 5 Typen verallgemeinerter linearer Modelle für ordinale Ergebnisse anpassen, einschließlich Probit- und komplementäre Log-Log-Modelle.

Der Befehl LINK=logit gibt das Logistikmodell an.

Logistische Regressionsmodelle in PLUM sind proportionale Quotenmodelle. Das bedeutet, dass die von ihm modellierten Quoten für jede geordnete Kategorie im Vergleich zu allen niedriger geordneten Kategorien gelten und dass das Quotenverhältnis gleich ist, unabhängig davon, ob Sie Kategorie 4 mit 3 und darunter oder Kategorie 3 mit 2 und darunter vergleichen.

PFLAUME hat eine schöne Möglichkeit zu überprüfen, ob diese Annahme vernünftig ist. In vielen Datensätzen ist dies nicht der Fall, also überprüfen Sie es immer.

PFLAUME wird über die Menüs unter . aufgerufen Regression–>Ordinal, wie oben zu sehen.

NomReg

NomReg passt multinomiale logistische Regressionsmodelle für nominale Ergebnisse. Das bedeutet Ergebnisse mit mehr als zwei ungeordneten Kategorien.

Im Gegensatz zu binären und geordneten Modellen können multinomiale Modelle nicht auch in GenLin ausgeführt werden (siehe unten).

NOMREG MultinomialDV (BASE=LAST ORDER=ASCENDING) BY Factor WITH Kovariate
/MODEL=Faktor-Kovariate
/INTERCEPT=INCLUDE
/PRINT=PARAMETER ZUSAMMENFASSUNG LRT CPS SCHRITT MFI.

Multinomiale logistische Regressionsmodelle führen gleichzeitig eine Reihe von binären Modellen durch, von denen jedes die Chancen einer Ergebniskategorie mit einer Referenzkategorie vergleicht.

Eine nette Funktion in NomReg ist, dass Sie mit der Option BASE= (oder durch Klicken auf die Schaltfläche “Referenzkategorie” in den Menüs) eine der Ergebniskategorien als Referenz angeben können.

Wie in PLUM und vielen anderen SPSS-Prozeduren (wie GLM und Mixed) können Sie in NomReg Prädiktoren als kategorisch angeben, indem Sie sie nach der Option BY (oder im Feld Faktor im Menüdialog) oder als kontinuierlich nach dem platzieren WITH-Option (oder im Feld Kovariaten im Menüdialog).

Dadurch können Sie viel Zeit beim Erstellen von Dummy-Variablen für kategoriale Prädiktoren sparen.

GenLin

Wie oben erwähnt, sind logistische Regressionsmodelle eine Art von verallgemeinerten linearen Modellen.

Dies bedeutet, dass Sie die GenLin Verfahren zum Ausführen von binären und ordinalen logistischen Regressionsmodellen. Es führt jedoch keine ungeordneten multinomialen Modelle aus.

GenLin kann viele weitere Modelle ausführen, die nur logistisch sind. Daher müssen Sie die Ergebnisverteilung entweder als Binomial- oder Multinomialverteilung (für die ein Ordinalmodell ausgeführt wird) und eine Logit-Link-Funktion angeben.

GENLIN BinaryDV (REFERENCE=LAST) BY Factor (ORDER=ASCENDING) WITH Kovariate
/MODEL Faktor Kovariate Faktor*Kovariate INTERCEPT=YES
DISTRIBUTION=BINOMIAL LINK=LOGIT
/PRINT CPS BESCHREIBUNGEN MODELINFO FIT ZUSAMMENFASSUNG LÖSUNG.

Wenn Sie Logistic oder PLUM verwenden könnten, warum würden Sie dann jemals GenLin verwenden?

GenLin hat in bestimmten Situationen einige Vorteile. Hier sind drei, die ich häufig verwende.

1. GenLin kann binäre Modelle im Events/Trials-Format ausführen. Logistik kann nicht.

2. GenLin druckt EMMeans sowohl in der ursprünglichen Skala (dh Wahrscheinlichkeiten) als auch in der transformierten Skala (log-Odds).

Dies ist ein großer Vorteil, wenn Sie kategoriale Prädiktoren haben. Ein oder zwei kategoriale Prädiktoren sind mit den Regressionskoeffizienten nicht schwer zu interpretieren, aber wenn Sie viele haben, wenn sie viele Kategorien pro Prädiktor haben oder wenn Sie Wechselwirkungen zwischen ihnen haben, sind die Mittelwerte viel einfacher zu interpretieren.

3. GenLin kann Modelle mit wiederholten Messungen ausführen, die verallgemeinerte Schätzgleichungen verwenden. Auch dies ist nicht nur ein Vorteil, sondern eine Notwendigkeit, wenn Sie ein Messwiederholungsdesign haben.


Multinomiale logistische Regression mit SPSS Statistics

Die multinomiale logistische Regression (oft nur als „multinomiale Regression“ bezeichnet) wird verwendet, um eine nominale abhängige Variable bei einer oder mehreren unabhängigen Variablen vorherzusagen. Es wird manchmal als eine Erweiterung der binomialen logistischen Regression angesehen, um eine abhängige Variable mit mehr als zwei Kategorien zu berücksichtigen. Wie bei anderen Regressionsarten kann die multinomiale logistische Regression nominale und/oder kontinuierliche unabhängige Variablen aufweisen und kann Wechselwirkungen zwischen unabhängigen Variablen aufweisen, um die abhängige Variable vorherzusagen.

Sie könnten beispielsweise eine multinomiale logistische Regression verwenden, um zu verstehen, welche Art von Getränken die Verbraucher basierend auf Standort im Vereinigten Königreich und Alter bevorzugen (dh die abhängige Variable wäre "Art des Getränks", mit vier Kategorien &ndash Kaffee, Erfrischungsgetränk, Tee und Wasser &ndash und Ihre unabhängigen Variablen wären die nominale Variable "Standort in Großbritannien", die anhand von drei Kategorien bewertet wurde &ndash London, South UK und North UK &ndash und die kontinuierliche Variable "Alter", gemessen in Jahren). Alternativ können Sie die multinomiale logistische Regression verwenden, um zu verstehen, ob Faktoren wie die Beschäftigungsdauer im Unternehmen, die Gesamtbeschäftigungsdauer, die Qualifikationen und das Geschlecht die berufliche Position einer Person beeinflussen (dh die abhängige Variable wäre "Position" mit drei Kategorien &ndash junior Management, mittleres Management und oberes Management &ndash und die unabhängigen Variablen wären die kontinuierlichen Variablen "Beschäftigungsdauer im Unternehmen" und "Gesamtbeschäftigungsdauer", beide gemessen in Jahren, die nominalen Variablen "Qualifikationen", mit vier Kategorien &ndash nein Abschluss, Bachelor-Abschluss, Master-Abschluss und PhD &ndash "Geschlecht", das in zwei Kategorien unterteilt ist: "Männer" und "Frauen").

Diese "Schnellstartanleitung" zeigt Ihnen, wie Sie mit SPSS Statistics eine multinomiale logistische Regression durchführen und erklären einige der Tabellen, die von SPSS Statistics generiert werden. Bevor wir Ihnen dieses Verfahren vorstellen, müssen Sie jedoch die verschiedenen Annahmen verstehen, die Ihre Daten erfüllen müssen, damit eine multinomiale logistische Regression Ihnen ein gültiges Ergebnis liefert. Wir diskutieren diese Annahmen als nächstes.

Hinweis: Wir haben derzeit keine Premium-Version dieses Handbuchs im Abonnementbereich unserer Website. Wenn Sie möchten, dass wir eine Premium-Version dieses Handbuchs hinzufügen, kontaktieren Sie uns bitte.

SPSS-Statistiken

Multiple lineare Regression mit kategorialen Prädiktoren

Vorher passen wir ein Modell für Verunreinigung mit Temperatur, Katalysatorkonz, und Reaktionszeit als Prädiktoren. Aber es gibt zwei andere Prädiktoren, die wir in Betracht ziehen könnten: Reaktor und Schicht. Reaktor eine kategoriale Variable mit drei Ebenen ist und Schicht ist eine kategoriale Variable mit zwei Ebenen. Wie können wir unser Modell erweitern, um Unterschiede in zu untersuchen? Verunreinigung zwischen den beiden Schichten oder zwischen den drei Reaktoren? Um eine zweistufige kategoriale Variable in ein Regressionsmodell zu integrieren, erstellen wir einen Indikator oder eine Dummy-Variable mit zwei Werten: Zuweisen einer 1 für die erste Verschiebung und -1 für die zweite Verschiebung.

Betrachten Sie die Daten der ersten 10 Beobachtungen. Hinter den Kulissen, wenn wir ein Model mit ausstatten Schicht, ersetzt die Software eine 1 für die erste Schicht und eine -1 für die zweite Schicht.

Für ein Modell mit Schicht als einziger Prädiktor ist der Achsenabschnitt der Gesamtdurchschnitt Verunreinigung. Der Koeffizient für Schicht, geschrieben Schicht[1], ist -0,012. Dies ist der Betrag, um den die erste Schicht unter dem Durchschnitt liegt Verunreinigung.

Der Durchschnitt Verunreinigung für die erste Verschiebung ist dann der Achsenabschnitt minus 0,012 oder 6,111. Der Durchschnitt Verunreinigung für die zweite Verschiebung ist der Achsenabschnitt plus 0,012 oder 6,135.

Allerdings ist die P-Wert ist sehr groß. Dieser Unterschied ist also nicht signifikant.

Beachten Sie, dass viele Softwarepakete anstelle der -1/1-Effektcodierung eine 0/1-Dummy-Codierung anwenden: eine 0 für die erste Verschiebung und eine 1 für die zweite Verschiebung zuweisen.

Der resultierende Koeffizient für Schicht[1] ist die Differenz im Durchschnitt von Verunreinigung zwischen der ersten und zweiten Schicht. Also der Durchschnitt Verunreinigung für die erste Schicht ist 0,024 niedriger als der Durchschnitt Verunreinigung für die zweite Schicht.

Es ist wichtig zu beachten, dass diese beiden Kodierungsschemata zu den gleichen Modellvorhersagen führen. Aus erklärender Sicht ist die Interpretation der Koeffizienten jedoch unterschiedlich. Wenden wir unsere Aufmerksamkeit der Variablen zu Reaktor, die drei Ebenen hat. In diesem Fall enthält das Regressionsmodell zwei Indikatorvariablen mit Koeffizienten für Reaktor 1 und Reaktor 2. Auch hier können wir entweder eine Effektcodierung oder eine Dummy-Codierung anwenden.

Hier wird die Effektcodierung angewendet:

  • Reaktor Nummer 1 wird als 1 für codiert Reaktor[1] und 0 für Reaktor [2].
  • Reaktor Nummer 2 wird als 0 für codiert Reaktor[1] und 1 für Reaktor [2].
  • Reaktor Nummer 3 ist codiert als -1 für Reaktor[1] und -1 für Reaktor [2].

Der Durchschnitt von Verunreinigung für Reaktor 1 liegt 0,82 unter dem Durchschnitt, und der Durchschnitt von Verunreinigung für Reaktor 2 liegt 0,42 unter dem Durchschnitt.

Warum melden wir keinen Koeffizienten für Reaktor 3? Es stellt sich heraus, dass bei kategorialen Prädiktoren mit drei Ebenen die letzte Ebene zu den ersten beiden Ebenen redundant ist.

Die Interpretation für effektkodierte Schätzungen ist, dass jeder Koeffizient die Differenz vom Durchschnitt ist. Da sich diese Koeffizienten zu Null summieren müssen, ist der Durchschnitt von Verunreinigung für Reaktor 3 lässt sich leicht aus den ersten beiden berechnen: der Durchschnitt von Verunreinigung für Reaktor 3 liegt 1,24 über dem Durchschnitt.

Als Verallgemeinerung berechnet die Software für einen k-stufigen kategorialen Prädiktor k-1 Koeffizienten.

Kehren wir zu unseren Modellergebnissen zurück. Die P-Werte für das gesamte Modell und die Parameterschätzungen sind sehr niedrig, was darauf hindeutet, dass es signifikante Unterschiede im Durchschnitt gibt Verunreinigung für die verschiedenen Reaktoren.

Jetzt setzen wir alles zusammen. Wir passen ein Modell für Verunreinigung mit allen fünf Prädiktoren. Wieder die P-Wert in der ANOVA-Tabelle zeigt an, dass das gesamte Modell signifikant ist.

Die Tabelle Effektzusammenfassung enthält Tests für die gesamten Effekte. Wir sehen das Temperatur, Katalysatorkonz, und Reaktor sind alle signifikant, bereinigt um die anderen Terme im Modell.

Zur Erinnerung, hier sind die Ergebnisse für unser Modell mit nur den drei kontinuierlichen Prädiktoren.

Der Root Mean Square Error für unser neues Modell ist niedriger. Und RSquare für unser neues Modell ist höher. Also, mehr von der Variation in Verunreinigung wird durch unser Modell erklärt.

RSquare kann jedoch aufgeblasen werden, indem dem Modell weitere Terme hinzugefügt werden, auch wenn diese neuen Terme nicht signifikant sind. In Situationen mit mehreren linearen Regressionen verwenden wir also RQuadrat angepasst beim Vergleichen verschiedener Modelle mit den gleichen Daten, anstatt RSquare zu verwenden. RSquare Adjusted verhängt eine Strafe für jede zusätzliche Laufzeit, P, die dem Modell hinzugefügt wird. Wenn dem Modell ein Term hinzugefügt wird, der die Variation in der Antwort nicht erklärt, sinkt RSquare Adjusted.

RSquare Adjusted für unser neues Modell ist höher als RSquare Adjusted für unser Originalmodell. Dies bestätigt, dass das neue Modell besser passt als das Originalmodell.

Aber können wir es besser machen? Gibt es weitere Begriffe, die wir dem Modell hinzufügen können? Wir untersuchen dies in einem kommenden Abschnitt.


Kategoriale Variablen mit mehr als zwei Ebenen

Im Allgemeinen wird eine kategoriale Variable mit n Stufen in n-1 Variablen mit jeweils zwei Stufen umgewandelt. Diese n-1 neuen Variablen enthalten dieselben Informationen wie die einzelne Variable. Diese Umcodierung erstellt eine Tabelle namens Kontrastmatrix.

Der Rang in den Gehaltsdaten hat beispielsweise drei Stufen: „AsstProf“, „AssocProf“ und „Prof“. Diese Variable könnte in zwei Variablen dummycodiert werden, eine namens AssocProf und eine Prof:

  • Wenn Rang = AssocProf, dann würde die Spalte AssocProf mit einer 1 und Prof mit einer 0 kodiert.
  • Wenn Rang = Prof, dann würde die Spalte AssocProf mit einer 0 codiert und Prof würde mit einer 1 codiert.
  • Bei Rang = AsstProf werden beide Spalten „AssocProf“ und „Prof“ mit einer 0 codiert.

Diese Dummy-Codierung wird von R automatisch durchgeführt. Zu Demonstrationszwecken können Sie mit der Funktion model.matrix() eine Kontrastmatrix für eine Faktorvariable erstellen:

Beim Erstellen eines linearen Modells gibt es verschiedene Möglichkeiten, kategoriale Variablen zu codieren, die als Kontrastcodierungssysteme bezeichnet werden. Die Standardoption in R besteht darin, die erste Ebene des Faktors als Referenz zu verwenden und die verbleibenden Ebenen relativ zu dieser Ebene zu interpretieren.

Beachten Sie, dass ANOVA (Varianzanalyse) nur ein Sonderfall eines linearen Modells ist, bei dem die Prädiktoren kategoriale Variablen sind. Und da R die Tatsache versteht, dass ANOVA und Regression beide Beispiele für lineare Modelle sind, können Sie die klassische ANOVA-Tabelle aus Ihrem Regressionsmodell mit der R base anova()-Funktion oder der Anova()-Funktion [in car package] extrahieren. Generell empfehlen wir die Funktion Anova(), da sie unausgeglichene Designs automatisch berücksichtigt.

Die Ergebnisse der Gehaltsvorhersage anhand eines multiplen Regressionsverfahrens sind unten dargestellt.

Berücksichtigt man andere Variablen (Dienstalter, Dienstgrad und Disziplin) zeigt sich, dass die kategoriale Variable Geschlecht nicht mehr signifikant mit den Gehaltsunterschieden zwischen den einzelnen Personen zusammenhängt. Wichtige Variablen sind Rang und Disziplin.

Wenn Sie die Kontraste der kategorialen Variablen interpretieren möchten, geben Sie Folgendes ein:

So ist beispielsweise zu erkennen, dass die Zugehörigkeit zur Fachrichtung B (angewandte Fachbereiche) signifikant mit einer durchschnittlichen Gehaltssteigerung von 13473,38 im Vergleich zur Fachrichtung A (theoretische Fachbereiche) verbunden ist.


SPSS-Verfahren für die logistische Regression

SPSS verfügt über eine Reihe von Verfahren zum Ausführen der logistischen Regression.

Einige Arten der logistischen Regression können in mehr als einer Prozedur ausgeführt werden. Aus irgendeinem unbekannten Grund erzeugen einige Prozeduren eine Ausgabe, andere nicht. Daher ist es hilfreich, mehrere verwenden zu können.

Logistische Regression

Logistische Regression kann nur für binäre abhängige Variablen verwendet werden. Sie kann über die Menüoptionen rechts oder über den Syntaxbefehl LOGISTIC REGRESSION aufgerufen werden.

Die abhängige Variable muss haben nur zwei Werte. Wenn Sie eine Variable mit mehr als zwei angeben, erhalten Sie einen Fehler.

Ein großer Vorteil dieses Verfahrens besteht darin, dass Sie aufeinanderfolgende Modelle erstellen können, indem Sie jeweils eine Gruppe von Prädiktoren eingeben.

LOGISTISCHE REGRESSIONSVARIABLEN BinaryDV
/METHOD=ENTER Faktor Kovariate1
/METHOD=ENTER Kovariate2 Kovariate3
/KONTRAST (Faktor)=Indikator.

So führe ich zum Beispiel mit dieser Syntax tatsächlich gleichzeitig zwei Modelle aus, eines mit nur zwei unabhängigen Variablen, (klugerweise) benannt Faktor und Kovariate1.

Das zweite Modell hat vier unabhängige Variablen: Faktor, Kovariate1, Kovariate2, und Kovariate3.

Dies wird als “Hierarchical Regression” bezeichnet (nicht zu verwechseln mit hierarchischen linearen Modellen oder HLM) und ermöglicht einen einfachen Vergleich, wie sich die Modellanpassung und die Koeffizienten ändern, wenn Prädiktoren hinzugefügt werden.

Die Logistische Regression Der Befehl wird über die Menüs unter Regression–>Binary Logistic aufgerufen, wie oben gezeigt. (Aber nicht vergessen Paste Ihre Syntax, so dass Sie eine Aufzeichnung dessen haben, was Sie getan haben)!

PFLAUME steht für Polytomous Universal Model. Das ist ein Schluck, aber wirklich nur auf Modelle für kategoriale Ergebnisse mit mehr als zwei geordneten Kategorien zurückzuführen.

Wenn Ihre Ergebniskategorien nicht geordnet sind, verwenden Sie nicht PFLAUME. Es gibt keine Möglichkeit zu sagen, dass Kategorien ungeordnet sind, und sie werden in eine logische Reihenfolge gebracht.

PLUM OrdinalDV BY Faktor MIT Kovariate
/LINK=LOGIT
/PRINT=PARAMETER ZUSAMMENFASSUNG.

Logistische Regressionsmodelle sind eine Art verallgemeinerter linearer Modelle. PFLAUME kann tatsächlich 5 Typen verallgemeinerter linearer Modelle für ordinale Ergebnisse anpassen, einschließlich Probit- und komplementäre Log-Log-Modelle.

Der Befehl LINK=logit gibt das Logistikmodell an.

Logistische Regressionsmodelle in PLUM sind proportionale Quotenmodelle. Das bedeutet, dass die von ihm modellierten Quoten für jede geordnete Kategorie im Vergleich zu allen niedriger geordneten Kategorien gelten und dass das Quotenverhältnis gleich ist, unabhängig davon, ob Sie Kategorie 4 mit 3 und darunter oder Kategorie 3 mit 2 und darunter vergleichen.

PFLAUME hat eine schöne Möglichkeit zu überprüfen, ob diese Annahme vernünftig ist. In vielen Datensätzen ist dies nicht der Fall, also überprüfen Sie es immer.

PFLAUME wird über die Menüs unter . aufgerufen Regression–>Ordinal, wie oben zu sehen.

NomReg

NomReg passt multinomiale logistische Regressionsmodelle für nominale Ergebnisse. Das bedeutet Ergebnisse mit mehr als zwei ungeordneten Kategorien.

Im Gegensatz zu binären und geordneten Modellen können multinomiale Modelle nicht auch in GenLin ausgeführt werden (siehe unten).

NOMREG MultinomialDV (BASE=LAST ORDER=ASCENDING) BY Factor WITH Kovariate
/MODEL=Faktor-Kovariate
/INTERCEPT=INCLUDE
/PRINT=PARAMETER ZUSAMMENFASSUNG LRT CPS SCHRITT MFI.

Multinomiale logistische Regressionsmodelle führen gleichzeitig eine Reihe von binären Modellen durch, von denen jedes die Chancen einer Ergebniskategorie mit einer Referenzkategorie vergleicht.

Eine nette Funktion in NomReg ist, dass Sie mit der Option BASE= (oder durch Klicken auf die Schaltfläche “Referenzkategorie” in den Menüs) eine der Ergebniskategorien als Referenz angeben können.

Wie in PLUM und vielen anderen SPSS-Prozeduren (wie GLM und Mixed) können Sie in NomReg Prädiktoren als kategorisch angeben, indem Sie sie nach der Option BY (oder im Feld Faktor im Menüdialog) oder als kontinuierlich nach dem platzieren WITH-Option (oder im Feld Kovariaten im Menüdialog).

Dadurch können Sie viel Zeit beim Erstellen von Dummy-Variablen für kategoriale Prädiktoren sparen.

GenLin

Wie oben erwähnt, sind logistische Regressionsmodelle eine Art von verallgemeinerten linearen Modellen.

Dies bedeutet, dass Sie die GenLin Verfahren zum Ausführen von binären und ordinalen logistischen Regressionsmodellen. Es führt jedoch keine ungeordneten multinomialen Modelle aus.

GenLin kann viele weitere Modelle ausführen, die nur logistisch sind. Daher müssen Sie die Ergebnisverteilung entweder als Binomial- oder Multinomialverteilung (für die ein Ordinalmodell ausgeführt wird) und eine Logit-Link-Funktion angeben.

GENLIN BinaryDV (REFERENCE=LAST) BY Factor (ORDER=ASCENDING) WITH Kovariate
/MODEL Faktor Kovariate Faktor*Kovariate INTERCEPT=YES
DISTRIBUTION=BINOMIAL LINK=LOGIT
/PRINT CPS BESCHREIBUNGEN MODELINFO FIT ZUSAMMENFASSUNG LÖSUNG.

Wenn Sie Logistic oder PLUM verwenden könnten, warum würden Sie dann jemals GenLin verwenden?

GenLin hat in bestimmten Situationen einige Vorteile. Hier sind drei, die ich häufig verwende.

1. GenLin kann binäre Modelle im Events/Trials-Format ausführen. Logistik kann nicht.

2. GenLin druckt EMMeans sowohl in der ursprünglichen Skala (dh Wahrscheinlichkeiten) als auch in der transformierten Skala (log-Odds).

Dies ist ein großer Vorteil, wenn Sie kategoriale Prädiktoren haben. Ein oder zwei kategoriale Prädiktoren sind mit den Regressionskoeffizienten nicht schwer zu interpretieren, aber wenn Sie viele haben, wenn sie viele Kategorien pro Prädiktor haben oder wenn Sie Wechselwirkungen zwischen ihnen haben, sind die Mittelwerte viel einfacher zu interpretieren.

3. GenLin kann Modelle mit wiederholten Messungen ausführen, die verallgemeinerte Schätzgleichungen verwenden. Auch dies ist nicht nur ein Vorteil, sondern eine Notwendigkeit, wenn Sie ein Messwiederholungsdesign haben.


Wie führt man eine multiple hierarchische Regression mit kategorialen und skalierten Prädiktoren in SPSS aus? - Psychologie

In diesem Leitfaden erfahren Sie, wie Sie ein multiples Regressionsmodell mit Interaktionen in SPSS anhand eines praktischen Beispiels schätzen, um den Prozess zu veranschaulichen. Den Lesern werden Links zum Beispieldatensatz bereitgestellt und sie werden ermutigt, dieses Beispiel zu replizieren. Ein zusätzliches Praxisbeispiel wird am Ende dieses Leitfadens vorgeschlagen. Im Beispiel wird davon ausgegangen, dass Sie die Datendatei bereits in SPSS geöffnet haben.

Interaktion beschreibt eine bestimmte Art nichtlinearer Beziehung, bei der sich der “Effekt” einer unabhängigen Variablen auf die abhängige Variable bei unterschiedlichen Werten einer anderen unabhängigen Variablen im Modell unterscheidet. In einem multiplen Regressionsmodell mit “Haupteffekten” wird eine abhängige Variable (oder Antwortvariable) als lineare Funktion von zwei oder mehr unabhängigen (oder erklärenden) Variablen ausgedrückt. Dies erfordert die Schätzung eines Achsenabschnitts (oft als Konstante bezeichnet) und einer Steigung für jede unabhängige Variable, die die Änderung der abhängigen Variablen für einen Anstieg der unabhängigen Variablen um eine Einheit beschreibt. Die größte Aufmerksamkeit gilt den Steigungsschätzungen, da sie die Beziehung zwischen den abhängigen und den unabhängigen Variablen erfassen. In einem Modell, das einen Interaktionsterm enthält, können die Steigungsschätzungen nicht auf die gleiche Weise interpretiert werden, da sie nun von anderen Werten abhängig sind. Der Fokus liegt stattdessen auf der Differenz der Steigungen, die durch den Wechselwirkungskoeffizienten beschrieben wird. In einem linearen Regressionsmodell sollten die abhängigen Variablen stetig sein. Eine Interaktion kann zwischen kategorialen oder stetigen unabhängigen Variablen und über mehrere unabhängige Variablen hinweg auftreten.Dieses Beispiel konzentriert sich auf Interaktionen zwischen einem Variablenpaar, die kategorialer und kontinuierlicher Natur sind. Dies wird als Zwei-Wege-Interaktion bezeichnet. Es ist möglich, Drei-Wege-Interaktionen oder mehr zu haben, aber wir konzentrieren uns auf den Zwei-Wege-Fall, um die Erklärung zu vereinfachen.

In diesem Beispiel werden drei Variablen aus einer Teilmenge des European Social Survey (2016) verwendet:

  • Punktzahl auf einer Skala, die misst, wie vorteilhaft britische Befragte die Einwanderung nach Großbritannien empfinden (Einwanderung)
  • Punktzahl auf einer Skala zur Messung der Wichtigkeit von Werten der Befragten im Verhältnis zu neun anderen menschlichen Grundwerten (Konformität)
  • Ob Befragter bei der letzten nationalen Wahl gewählt hat oder nicht (Wähler)

Die Bewertungsvariable für Zuwanderung wurde anhand einer summativen Skala ausgewählter Erhebungselemente konstruiert, die auf interne Konsistenz getestet wurde. Die Variable Konformität wurde anhand von Items erstellt, die von der European Social Survey als auf diesen Wert bezogen identifiziert wurden. Die mittlere Punktzahl einer Person über alle menschlichen Werte-Items wurde von ihrer durchschnittlichen Punktzahl für die Items, die sich auf das fragliche Konzept bezogen, subtrahiert, um so die Priorität zu ermitteln, die diesem bestimmten Wert im Verhältnis zu anderen beigemessen wird. Beide Variablen sind um den Mittelwert zentriert. Sie können alle als kontinuierlich betrachtet werden, mit Mittelwerten von ungefähr Null und einer ungefähren Spanne von ungefähr 𕒶.0 bis +2,0 für Einwanderung und 𕒷 bis +3 für Konformität. Eine hohe Punktzahl bedeutet eine positive Einstellung zur Einwanderung und eine hohe relative Bedeutung von Konformitätswerten. Wähler ist eine binäre kategoriale Variable, die mit 1 codiert ist, wenn der Befragte bei der letzten Wahl gewählt hat, und mit 0, wenn er dies nicht getan hat.

Bei der Durchführung einer multiplen Regression mit Interaktionen ist es oft ratsam, zuerst jede Variable einzeln zu untersuchen. Dies kann in SPSS durch Auswahl aus dem Menü erfolgen:

Analysieren Sie → Descriptive Statistics → Explore

Verschieben Sie im sich öffnenden Dialogfeld “Explore” die Einwanderungs- und Konformitätsvariablen in das Feld “Dependent List:”. Klicken Sie mit der rechten Maustaste auf die Schaltfläche “Plots”. Dadurch wird ein weiteres Dialogfeld geöffnet, in dem Sie die zu erstellenden Plots auswählen können. Überprüfen Sie in diesem Beispiel einfach “Histogramm” unter der Überschrift Beschreibend. Klicken Sie auf Weiter, um zum vorherigen Dialogfeld zurückzukehren, und klicken Sie dann auf OK, um die Analyse durchzuführen.

Wir sollten auch eine Häufigkeitsverteilung der Wählervariablen erstellen. Dies erfolgt in SPSS durch Auswahl der folgenden Menüoptionen:

Analysieren Sie → Deskriptive Statistiken → Häufigkeiten

Verschieben Sie im daraufhin geöffneten Dialogfeld die Voter-Variable in das Feld “Variable(n)” und klicken Sie auf OK .

Screenshots für das Verfahren zum Erstellen von Histogrammen in SPSS finden Sie im Thema “How to Guides for the Dispersion of a Continuous Variables”, das Teil von SAGE Research Methods Datasets ist. Bei der Schätzung eines Regressionsmodells einschließlich Wechselwirkungen schätzen wir zunächst ein multiples Regressionsmodell mit Haupteffekten. Um sicherzustellen, dass wir die beiden Modelle vergleichen können, listen wir die unabhängigen Variablen beider Modelle in zwei separaten Blöcken auf, bevor wir die Analyse ausführen. Dies liefert Schätzungen für beide Modelle und einen Signifikanztest der Differenz zwischen den R-Quadrat-Werten.

Sie schätzen ein multiples Regressionsmodell in SPSS, indem Sie aus dem Menü Folgendes auswählen:

Analysieren Sie → Regression → Linear

Verschieben Sie im sich öffnenden Dialogfeld “Linear Regression” die abhängige Variable Einwanderung in das Fenster “Dependent:” und verschieben Sie die beiden unabhängigen Variablen Konformität und Voter in das “Independent(s):” Fenster. Abbildung 1 zeigt, wie dies in SPSS aussieht.

Um ein Regressionsmodell mit Wechselwirkungen zu schätzen, müssen wir eine neue Variable erstellen, die das Produkt der beiden unabhängigen Variablen ist. Wählen Sie dazu die folgenden Menüpunkte:

Transformieren → Variable berechnen

Wählen Sie im sich öffnenden Dialogfeld “Variable berechnen” einen Namen für die neue Variable aus. In diesem Fall rufen wir die Variable confvote auf. Wählen Sie im Feld “Numeric Expression” die Konformität aus und multiplizieren Sie sie mit dem Wähler, wie in Abbildung 2 gezeigt.

Wenn Sie zum Dialogfeld Lineare Regression zurückkehren, wählen Sie “Next” über dem Variablenfeld “Independent(s)” aus. Die abhängige Variable Einwanderung wird weiterhin im Feld der abhängigen Variablen angezeigt. Fügen Sie für das Modell, das einen Interaktionsterm enthält, die neue Variable confvote wie in Abbildung 3 gezeigt hinzu.

Wählen Sie aus den Optionen rechts neben dem Textfeld “Statistik” aus. Dadurch wird das Kästchen “Linear Regression:Statistics” geöffnet, wie in Abbildung 4 gezeigt. Aktivieren Sie das Kästchen neben”R-Quadratänderung” und drücken Sie Weiter, um zum vorherigen Dialogfeld zurückzukehren.

Wählen Sie als Nächstes “Speichern” aus den Optionen auf der rechten Seite. Aktivieren Sie im sich öffnenden Dialogfeld “Linear Regression:Save” das “Unstandardized” im Abschnitt “Predicted Values” (siehe Abbildung 5). Neben dem Interaktionsmodell müssen Sie diese Option auswählen und die Analyse für das erste Modell ausführen, bevor Sie die Variablen für das zweite Modell auswählen. Andernfalls erzeugt SPSS nur vorhergesagte Werte für das Modell einschließlich eines Interaktionsterms.)

Drücken Sie OK, um die Analyse auszuführen.

Die Abbildungen 6 und 7 zeigen Histogramme für die beiden kontinuierlichen Variablen.

Abbildung 6 zeigt eine grobe Normalverteilung mit einem Peak bei den niedrigsten Werten. Insgesamt gibt es wenig Anlass zur Besorgnis hinsichtlich der Eignung der Variablen für die Aufnahme.

Abbildung 7 zeigt eine sehr leicht negativ verzerrte Verteilung mit einem Spitzenwert der Werte knapp über dem Mittelwert, der jedoch nahe genug am Normalwert liegt, um keine Bedenken zu rechtfertigen.

Die Häufigkeitsverteilung der Wählervariablen in Abbildung 8 zeigt, dass 71,5 % der Befragten bei der letzten Wahl ihre Stimme abgegeben haben, verglichen mit 28,5 % der Befragten, die dies nicht getan haben.

Es ist auch nützlich, die mögliche Korrelation zwischen Ihren unabhängigen Variablen zu untersuchen. In diesem Fall beträgt der Korrelationskoeffizient nach Pearson zwischen Wähler und Konformität 0,07, was schwach ist. Wir haben daher wenig Bedenken, dass Multikollinearität diese Regressionsanalyse beeinflusst.

Die Abbildungen 9 und 10 zeigen eine Reihe von Ergebnistabellen für beide Modelle, die durch das multiple Regressionsverfahren in SPSS erstellt wurden.

Die ersten drei Tabellen in Abbildung 9 zeigen die unabhängigen Variablen, die in Modell 1 (das Haupteffektmodell) und Modell 2 (das Modell mit einem Interaktionsterm) eingegeben wurden, einige zusammenfassende Anpassungsstatistiken für die Regressionsmodelle und eine Varianzanalyse für beide Modelle als Ganzes. Obwohl eine detaillierte Untersuchung dieser Tabellen den Rahmen dieses Beispiels sprengen würde, stellen wir fest, dass der R-Quadrat-Wert in der zweiten Tabelle den Anteil der Varianz in der abhängigen Variablen misst, der durch das Modell erklärt wird. Ein Wert von 0,037 für das Haupteffektmodell bedeutet, dass nur etwa 3,7 % der Varianz der Einstellungen zur Einwanderung auf die beiden unabhängigen Variablen zurückzuführen sind. Ein angewandter Forscher möchte vielleicht ein Modell mit mehr erklärenden Variablen entwickeln, um die Grundlagen der Einstellungen gegenüber den Vorteilen der Einwanderung in das Land besser zu verstehen. Wir stellen fest, dass für das zweite Modell, das einen Interaktionsterm enthält, 0,04 nur sehr geringfügig höher ist als beim ersten Modell. Die Änderungsstatistiken in den Modellzusammenfassungstabellen geben die Ergebnisse eines F-Tests an, der prüft, ob die Differenz zwischen dem Haupteffektmodell und dem des Interaktionsmodells gleich Null ist. Die Ergebnisse zeigen einen Wert von 5,824 und einen zugehörigen p-Wert von 0,016. Wir können daher die Nullhypothese zurückweisen und schlussfolgern, dass es Hinweise auf einen Interaktionseffekt zwischen Konformitätswerten und Abstimmungen gibt. In diesem Fall erklärt die Interaktion jedoch nicht viel mehr über die Varianz, und ein Forscher könnte aus Gründen der Sparsamkeit entscheiden, sie auszuschließen.

Die obere Tabelle in Abbildung 10 zeigt die Schätzungen des Achsenabschnitts oder der Konstanten (_cons) und die Steigungskoeffizienten für beide Modelle. Betrachtet man zunächst Modell 1, geben die Ergebnisse einen Schätzwert für den Achsenabschnitt oder die Konstante von ungefähr −.19 an. Die Konstante eines multiplen Regressionsmodells kann als durchschnittlicher Erwartungswert der abhängigen Variablen interpretiert werden, wenn alle unabhängigen Variablen gleich Null sind. Da in diesem Fall die kontinuierliche unabhängige Variable einen Mittelwert von ungefähr null und die binäre Variable einen Wert von null hat, gibt uns die Konstante den erwarteten Zuwanderungswert für die Befragten an, die Konformitätswerten durchschnittlich hohe Priorität einräumen und nicht gewählt haben. Forscher haben nicht oft Vorhersagen, die auf dem Schnittpunkt basieren, daher wird ihm oft wenig Aufmerksamkeit geschenkt, obwohl Null ein sinnvoller “in-sample”-Wert ist, kann es nützlich sein.

Der geschätzte Wert für den Partial-Steigung-Koeffizienten, der die Einstellungen zur Einwanderung mit den Konformitätswerten verknüpft, beträgt ungefähr −,15. Dies stellt den durchschnittlichen marginalen Effekt von Konformitätswerten auf die Einwanderungseinstellungen dar und kann als erwartete Veränderung der abhängigen Variablen im Durchschnitt bei einer Erhöhung der unabhängigen Variablen um eine Einheit interpretiert werden, die steuert, ob jemand gewählt hat oder nicht. In diesem Modell drückt der Koeffizient die eindeutige Assoziation dieser Variablen mit der abhängigen Variablen aus, sodass jede Erhöhung des Konformitätswerts um einen Punkt mit einem Anstieg der Einstellung zur Einwanderung um etwa −.15 verbunden ist, wobei kontrolliert wird, ob jemand gestimmt. Der Koeffizient ist statistisch signifikant, basierend auf einem p-Wert von weniger als 0,001.

Diese Tabelle zeigt auch, dass der Partial-Steigung-Koeffizient, der das Wahlverhalten mit einer positiven Einstellung zur Einwanderung verknüpft, auf ungefähr 0,24 geschätzt wird. Dies stellt den durchschnittlichen marginalen Effekt der Abstimmung auf die Einstellung zur Einwanderung dar, wobei die Konformitätswerte kontrolliert werden. Da die Wahlvariable Werte von 0 und 1 aufweist, können wir feststellen, dass über alle Bedeutungsebenen hinweg, die den Konformitätswerten beigemessen werden, diejenigen, die bei den letzten nationalen Wahlen ihre Stimme abgegeben haben, im Durchschnitt eine um 0,24 Punkte höhere positive Einstellung zur Zuwanderung hatten als diejenigen, die hat nicht gestimmt. Der Koeffizient ist statistisch signifikant, basierend auf einem p-Wert von weniger als 0,001.

Die Interpretation der Ergebnisse für das zweite Modell einschließlich eines Interaktionsterms ist nicht so einfach wie beim ersten Modell.

Wie zuvor kann der Achsenabschnitt (−.19) als durchschnittliches Niveau der abhängigen Variablen interpretiert werden, wenn die Werte der unabhängigen Variablen Null sind.

Bei der Interpretation der Koeffizienten (oder Steigungsschätzungen) für die unabhängigen Variablen unseres Modells muss mehr Aufmerksamkeit geschenkt werden. Abbildung 10 zeigt einen Koeffizienten von −.069 für die variable Übereinstimmung und 0,236 für den Wähler. Diese Werte können nicht mehr als Beziehung zwischen jeder unabhängigen Variablen und der abhängigen Variablen interpretiert werden, sondern sind nun von den Werten des Interaktionsterms abhängig. Folglich zeigen sie nur dann die einzigartige Wirkung einer interagierenden Variablen, wenn der Wert der anderen Null ist. Der Wert für Wähler ist auf dem Niveau von 0,001 statistisch signifikant, der Wert für Konformität ist jedoch mit einem p-Wert von 0,065 nicht mehr statistisch signifikant. Es ist wichtig zu beachten, dass die p -Werte für die Haupteffekte nur dann relevant sind, wenn der Wert der anderen Variablen Null ist. Da die Standardfehler zwischen den Werten der anderen Variablen variieren können, gibt es nur begrenzte Informationen im p-Wert für diese Koeffizienten. Die Bedeutung des Wechselwirkungskoeffizienten und nicht der konstituierenden Variablen ist hier von größter Bedeutung. Wir interessieren uns hauptsächlich für den Koeffizienten für den Produktterm, der auf ungefähr −,11 geschätzt wird und basierend auf einem p-Wert von weniger als 0,05 statistisch signifikant ist. Dieser Wert beschreibt die Änderung der Steigung, so dass sich die Steigung einer unabhängigen Variablen der abhängigen Variablen um −.11 für jede Einheitsänderung der anderen unabhängigen Variablen ändert.

Der einfachste Weg, die Ergebnisse zu interpretieren, besteht darin, sie in einem Diagramm darzustellen. Wählen Sie dazu die folgenden Menüpunkte:

Diagramme → Legacy-Dialoge → Scatter/Dot

Markieren Sie das in Abbildung 11 gezeigte Symbol “Simple Scatter” und klicken Sie auf Definieren . Markieren Sie im sich öffnenden Dialogfeld “Simple Scatterplot” (siehe Abbildung 12) die neue Variable Unstandardized Predicted Values ​​[PRE_1] und klicken Sie auf den Pfeil, um sie in das Textfeld Y-Achse zu verschieben. Wählen Sie für die X-Achse Konformität aus. Wählen Sie im Feld “Marker setzen nach:” die Option voter aus.

(Zu Vergleichszwecken haben wir die vorhergesagten Werte für beide Modelle gespeichert. Wenn Sie dasselbe gemacht haben, bezieht sich der erste Satz vorhergesagter Werte auf das Haupteffektmodell. Wiederholen Sie den gleichen Vorgang, um einen zweiten Graphen des Interaktionsmodells zu erstellen. diesmal mit nicht standardisierten vorhergesagten Werten [PRE_2] auf der Y-Achse.) Drücken Sie OK, um das ausgewählte Diagramm zu erstellen.

Abbildung 13 zeigt die grafische Darstellung der Ergebnisse unseres Haupteffekt-Regressionsmodells. Wir sehen, dass der Anteil derer, die gewählt haben, höher ist als der derjenigen, die nicht gewählt haben, und dass daher diejenigen, die bei den letzten nationalen Wahlen ihre Stimme abgegeben haben, im Durchschnitt die Vorteile der Einwanderung positiver beurteilen als diejenigen, die nicht gewählt haben. Die Werte auf der Skala der Einwanderungseinstellungen nehmen ab, wenn die Werte für die Priorität der Konformitätswerte steigen. Die Steigungen sind parallel, was zeigt, dass der Trend zur positiven Einschätzung der Vorteile der Einwanderung über die Präferenzstufen für Konformitätswerte hinweg für diejenigen, die gewählt haben, und für diejenigen, die nicht gewählt haben, gleich ist.

Abbildung 14 zeigt einen Unterschied in den beiden Steigungen für diejenigen, die gewählt haben und diejenigen, die nicht gewählt haben, im Gegensatz zu den parallelen Steigungen für beide Gruppen in Abbildung 13. Wie zuvor sehen wir, dass diejenigen, die weniger Wert auf Konformitätswerte legen, positiver sind über die Vorteile der Einwanderung in das Land. Allerdings sehen wir jetzt einen Unterschied in den Steigungen für Wähler und Nichtwähler, wobei die Steigung bei den Wählern (Wähler=1) stärker abfällt als bei den Nichtwählern (Wähler=0). Der negative Effekt von Konformitätswerten auf die Einstellung zur Einwanderung ist bei den Wählern stärker als bei denjenigen, die nicht gewählt haben.

Es gibt mehrere diagnostische Tests, die Forscher nach der Schätzung eines Regressionsmodells durchführen könnten, um zu bewerten, ob das Modell eine der OLS-Annahmen zu verletzen scheint oder ob es andere Arten von Problemen gibt, wie beispielsweise besonders einflussreiche Fälle. Die Beschreibung all dieser diagnostischen Tests würde den Rahmen dieses Beispiels sprengen.

Sie können dieses Beispiel-Dataset zusammen mit einer Anleitung herunterladen, die zeigt, wie ein multiples Regressionsmodell mit Interaktionen mithilfe von Statistiksoftware geschätzt wird. Der Beispieldatensatz enthält auch eine weitere Variable, Wohlwollen , die erfasst, inwieweit die Befragten wohlwollenden Werten auf der Skala menschlicher Werte Priorität einräumen. Diesmal wollen wir untersuchen, ob positive Einstellung zu den Vorteilen der Einwanderung mit dem Grad an Wohlwollen und Wahlen bei den nationalen Wahlen verbunden ist und ob sie so zusammenwirken, dass die Beziehung zwischen Wohlwollen und Einstellungen zur Einwanderung unterschiedlich ist, je nachdem, ob Sie wählen oder nicht . Sehen Sie, ob Sie die hier vorgestellten Ergebnisse reproduzieren können, und versuchen Sie, Ihre eigene multiple Regression mit Interaktionen zu erstellen, indem Sie Konformität durch Wohlwollen als kontinuierliche unabhängige Variable ersetzen.


  1. Wenn dies eine SPSS-Syntaxfrage ist, wird die Antwort einfach zusammen mit der kontinuierlichen Variablen in die Variablenliste für "unabhängige Variablen" eingefügt.
  2. Zur Statistik: Ist Ihre kategoriale Variable binär? In diesem Fall müssen Sie einen Dummy oder einen anderen gültigen Kontrastcode verwenden. Wenn es nicht binär ist, ist Ihre kategoriale Variable ordinal oder nominal? Wenn es nominell ist, müssen Sie wiederum eine gegensätzliche Codestrategie anwenden - im Endeffekt die Auswirkung jeder Ebene der Variablen auf das Ergebnis oder die "abhängige" Variable modellieren. Wenn die kategoriale Variable ordinal ist, dann höchstwahrscheinlich Es ist sinnvoll, sie unverändert in das Modell einzugeben, genau wie Sie es mit einer kontinuierlichen (d. h. "unabhängigen") Variablen tun würden. In diesem Fall würden Sie davon ausgehen, dass die Inkremente zwischen den Stufen der kategorialen Prädiktorvariablen ("unabhängig") nur selten ein Fehler sein werden, aber wenn dies der Fall ist, sollten Sie erneut einen Kontrastcode und ein Modell der Auswirkung jedes einzelnen verwenden Niveau. Diese Frage taucht in diesem Forum ziemlich oft auf -- hier ist eine gute Analyse
  3. Der Umgang mit fehlenden Daten ist aus meiner Sicht eine ganz andere Sache. Nach meinem Verständnis wird die paarweise Deletion nicht als gültiger Ansatz für die multivariate Regression angesehen. Listenweise ist ziemlich häufig, kann aber auch Ergebnisse verzerren und ist sicherlich eine Schande. Mehrfache Anrechnung ist etwas Schönes.

Sie können dies auf jeden Fall, indem Sie der gleichen Methode folgen, die Sie für den ersten kategorialen Prädiktor verwenden würden. Erstellen Sie Dummy-Variablen genauso wie für die erste solche Variable. Aber es ist oft einfacher, den Unianova-Befehl von SPSS zu verwenden. Sie können dies in jedem gedruckten oder PDF-Syntaxhandbuch nachschlagen oder über Analyze darauf zugreifen. Allgemeines lineares Modell. Univariat.

Obwohl der Regressionsbefehl etwas komplizierter ist, hat er gegenüber Unianova eine Reihe von Vorteilen. Der wichtigste ist, dass Sie „paarweise fehlend“ auswählen können (Sie müssen keinen Fall verlieren, nur weil ihm ein Wert für einen oder zwei Prädiktoren fehlt). Sie können auch viele wertvolle Diagnosen wie Teildiagramme und Einflussstatistiken erhalten.

Eine einfache Möglichkeit, kategoriale Variablen in einen Satz von Dummy-Variablen für die Verwendung in Modellen in SPSS umzuwandeln, ist die Verwendung der do repeat-Syntax. Dies ist am einfachsten zu verwenden, wenn Ihre kategorialen Variablen in numerischer Reihenfolge vorliegen.

Andernfalls können Sie einfach eine Reihe von if-Anweisungen ausführen, um Ihre Dummy-Variablen zu erstellen. Meine aktuelle Version (16) hat keine native Möglichkeit, eine Reihe von Dummy-Variablen automatisch im Regressionsbefehl anzugeben (wie Sie es in Stata mit dem Befehl xi können), aber ich wäre nicht überrascht, wenn dies in einer neueren Version verfügbar wäre. Beachten Sie auch Punkt 2 von dmk38, dieses Kodierungsschema geht von nominalen Kategorien aus. Wenn Ihre Variable ordinal ist, kann mehr Diskretion verwendet werden.

Ich stimme auch dmk38 zu, und die Rede davon, dass Regression besser ist, weil sie fehlende Daten auf eine bestimmte Weise spezifizieren kann, ist ein völlig anderes Thema.


3 Antworten 3

Kanst du? Sicher. Aber es wird zweifellos weniger Arbeit sein, ANOVA zu verwenden. Mathematisch entspricht die ANOVA der Regression, da sie Versionen desselben allgemeinen linearen Modells sind. Die Mechanik variiert je nach verwendeter Software, aber das Ordnen einer Interaktion (um Effekte von Kombinationen von Prädiktoren zu zeigen) ist einfacher, wenn Sie z. B. Alter*Akademische Disziplin in ANOVA verwenden, als wenn Sie die vielen berücksichtigen müssen Dummy-Variablen, die Sie für die Regression erstellt haben.

Ich bin mir nicht sicher, ob ein einfaches Gaußsches lineares Modell aufgrund der Natur der abhängigen Variablen relevant ist. Es scheint mir, dass ein Testergebnis eine "ordinale" Variable ist (d. h. eine diskrete Variable mit geordneten Kategorien). Ich würde mich daher mit Methoden für die ordinale Regression anstelle der einfachen linearen Regression wie Anova befassen. Solche Methoden gibt es in jeder Standardsoftware.

Die Antwort auf Ihre Frage lautet JA. Sie können die ordinale logistische Regression anwenden, um DVs mit kategorialen IVs vorherzusagen. Ich mache eine GROSSE ANNAHME hier Ihre DV haben 2 Intervalle so etwas wie LOW und HIGH.

Ich habe es einmal verwendet, um Methoden für Verhütungsmethoden vorherzusagen. Ich habe in unserem Modell eine proportionale Quote angenommen. Der Trick besteht nicht nur darin, alle IVs in Ihr Modell einzupassen, sondern auch die IVs zu identifizieren, die DVs beeinflussen.

Wenn Sie die Sprache R verwenden, kann polr Ihnen helfen. Aber um relevante IVs zu identifizieren, habe ich die lineare Regression verwendet, um den p-Wert für jede IVs zu finden und IVs zu entfernen, die einen größeren p-Wert hatten. Im Idealfall war die von mir angewandte Regel, IV einzeln mit hohem p-Wert zu eliminieren und dann die lineare Regression erneut durchzuführen, bis Sie alle IVs unter p < 0,1 finden.

Sobald ich IVs identifiziert habe, verwende ich polr

Angenommen, Sie haben IVs identifiziert: IV1 und IV2 und Ihre Antwortvariable ist dann DV

Summary(o_reg) gibt Ihnen die Ausgabe in Einheiten von geordneten Logits oder geordneten Log-Quoten. Es ist etwas schwierig, die Polr-Ausgabe zu interpretieren, da sie einige Annahmen über die Beziehung zwischen jedem Paar von Ergebnisgruppen macht. Sie müssen die Literatur durchlesen, um das herauszufinden.

Dann kommt der Vorhersageteil. Angenommen, Sie haben auch Testdaten (wir hatten Testdaten), wir haben die Vorhersagefunktion in R verwendet, um die Wahrscheinlichkeit jedes DV-Werts vorherzusagen, in Ihrem Fall könnte es P(LOW) und P(HIGH) sein.


Überprüfung der Annahmen

Es gibt einige Annahmen, denen die Daten folgen müssen, bevor die Moderationsanalyse durchgeführt wird:

  • Die abhängige Variable (Y) sollte auf einer kontinuierlichen Skala gemessen werden (d. h. es sollte eine Intervall- oder Verhältnisvariable sein).
  • Die Daten müssen eine unabhängige Variable (X), die entweder kontinuierlich (d. h. eine Intervall- oder Verhältnisvariable) oder kategorial (d. h. eine nominale oder quantitative Variable) ist, und eine Moderatorvariable (M) aufweisen.
  • Die Residuen dürfen nicht autokorreliert sein. Dies kann mit dem Durbin-Watson-Test in R überprüft werden.
  • Selbstverständlich muss zwischen der abhängigen Variablen (Y) und der unabhängigen Variablen (X) ein linearer Zusammenhang bestehen. Es gibt eine Reihe von Möglichkeiten, um nach linearen Beziehungen zu suchen, wie zum Beispiel das Erstellen eines Streudiagramms.
  • Die Daten müssen Homoskedastizität zeigen. Diese Annahme bedeutet, dass die Varianz um die Regressionsgerade für alle Kombinationen von unabhängigen (X) und Moderatorvariablen (M) ungefähr gleich ist.
  • Die Daten dürfen keine Multikollinearität innerhalb der unabhängigen Variablen (X) aufweisen. Dies tritt normalerweise auf, wenn zwei oder mehr unabhängige Variablen stark miteinander korreliert sind. Dies kann visuell interpretiert werden, indem eine Heatmap erstellt wird.
  • Die Daten sollten idealerweise keine signifikanten Ausreißer, stark einflussreiche Punkte oder viele NULL-Werte aufweisen. Die stark einflussreichen Punkte können mithilfe der studentisierten Residuen erkannt werden.
  • Die letzte Annahme besteht darin, zu überprüfen, ob die Restfehler ungefähr normalverteilt sind.

3.2 Führen Sie Ihre Regressionsmodelle aus

Verwenden lm()-Funktion Modell mit und ohne Interaktion ausführen

Verwenden Sie stargazer(), um Ihre Ergebnisse zu visualisieren

Abhängige Variable:
GPA
Haupteffekte Interaktion
(1) (2)
Konstante 1.540 *** 1.539 ***
(0.063) (0.063)
Arbeitsethik.C 0.136 ** 0.175 **
(0.060) (0.081)
Geschlecht.FFemale 0.570 *** 0.570 ***
(0.087) (0.087)
Arbeitsethik.C:Gender.FFemale -0.087
(0.122)
Beobachtungen 250 250
R2 0.161 0.163
Angepasstes R 2 0.154 0.153
Reststd. Fehler 0,685 (df = 247) 0,686 (df = 246)
F Statistik 23.740 *** (df = 2 247) 15,965 *** (df = 3 246)
Notiz: p<0.1 p<0.05 p<0.01

Beginnen wir direkt mit der Erstellung unserer Interaktion!

Denken Sie daran, dass wir Geschlecht bereits in einen Faktor mit beschrifteten Ebenen umgewandelt haben, sodass wir uns auf die tatsächlichen Namen der Ebenen (anstelle von Zahlen) beziehen können.

#### Interpretation des kontinuierlichen x kategorialen Interaktionsdiagramms Wie Sie sehen können, gibt es keine große Interaktion, die wir erwarten würden, nachdem wir gesehen haben, dass unser Interaktionseffekt unbedeutend war.


Schau das Video: Interpreting Output for Multiple Regression in SPSS (Juli 2022).


Bemerkungen:

  1. Kektilar

    Sehr amüsantes Stück

  2. Jediah

    Es tut mir leid, aber ich glaube, du liegst falsch. Ich kann meine Position verteidigen. Maile mir per PN.

  3. Yot

    Herzlichen Glückwunsch, brillante Idee

  4. Raedpath

    Ich entschuldige mich, aber ich denke, Sie liegen falsch. Ich biete an, darüber zu diskutieren. Schreiben Sie mir in PM, wir werden reden.

  5. Hanif

    Ich gratuliere der bewundernswerten Nachricht



Eine Nachricht schreiben