class: center, middle, inverse, title-slide # Einführung in die Quantitative Datenanalyse ## Sitzung 3: Lineare Regression I ### Proseminar an der Freien Universität Berlin ### 15.05.2017 - Marcus Spittler --- ## Inhalt der 3. Sitzung - Datenmanipulation mit **R** und **dplyr** (mehr Infos und hilfreiche Tipps gibt es hier: [http://tidyverse.org/](http://tidyverse.org/) und hier: [http://r4ds.had.co.nz/](http://r4ds.had.co.nz/)) - Kurzer Einstieg in die lineare Regression (heute bivariate Zusammenhänge) - **Riverview-Beispiel** aus Lewis-Beck/Lewis-Beck (2016) --- <div style="padding-top:130px;padding-left:150px"> <img src="./img/3whathavewedone.gif" alt="What have we done so far"> </div> --- ## <span class="red">R Grundlagen</span> - <span class="blue">Zuweisungspfeil</span> - Zuweisung erfolgen mit Hilfe des <span class="blue">Pfeils</span> - Lies: *Speichere das Ergebnis von **rechts** in das Objekt **links** ab* ```r neuesObjekt <- 2017 ``` -- - <span class="blue">Funktion</span> - Mit <span class="blue">Funktionen</span> können wir unsere Daten manipulieren. Wir erkennen sie daran, dass nach ihrem **Funktionsnamen** immer Klammmern folgen `(...)`. - Innerhalb der Klammern übergeben wir der Funktion unsere **Argumente**. - Würden in einem Satz den **Verben** entsprechen. ```r neuesObjekt <- eineFunktion(27) ``` --- ## <span class="red">R Grundlagen II</span> - <span class="blue">Pipe</span> - Mit Hilfe von einfachen <span class="blue">Pipes</span> `%>%` wird das Ergebnis von **links** in die Funktion(en) **rechts** übertragen. Wichtig: Es wird nichts gespeichert. - Lies: *Nimm das Objekt/Ergebnis links und bring es in die Funktion rechts* - Pipes kann man mit `CMD + M` schnell tippen. ```r objekt %>% eineFunktion() ``` -- - Pipes können auch **verkettet** werden ```r objekt %>% eineFunktion() %>% undNochEineFunktion() ``` -- - Das Ergebnis der ganzen Kette kann auch gespeichert werden ```r neuesObjekt <- objekt %>% eineFunktion() %>% undNochEineFunktion() ``` --- <div style="padding-top:50px;padding-left:50px"> <img src="./img/3pipe-magritte.jpg" alt="Pipe-Magritte" style="width:200%"> </div> --- <div style="padding-top:50px;padding-left:50px"> <img src="./img/3pipe.png" alt="Pipe" style="width:200%"> </div> --- ## <span class="red">R Grundlagen III</span> - Mehrere Werte werden mit der Funktion **combine** miteinander verbunden `c` ```r neuesObjekt <- c(2017, "bisschen Text", 45, TRUE, FALSE, 300) ``` - Hilfe zu einzelnen Befehlen bekommt man mit einem Fragezeichen `?` ```r ?filter ``` --- class: center, middle <div> <img src="./img/3happy.gif" alt="Happy"> </div> --- class: center, middle # Lineare Regression ## Eine Einführung --- ## <span class="red">Lineare Regression</span> -- - Mit einer <span class="red">linearen Regression</span> lassen sich sog. **Zusammenhangshypothesen** prüfen (nicht Unterschiedshypothesen), also Fragen ob ein Merkmal `X` mit einem anderen Merkmal `Y` in Zusammenhang steht. -- - <span class="blue">Beispiel:</span> *Wird ein höheres Einkommen von einer längeren Bildungsdauer verursacht? Ist also die Bildungsdauer ursächlich für ein höheres Einkommen?* -- - Vorausetzung ist, dass die abhängige Variable **metrisch** skaliert ist. In diesem Beispiel ist <span class="blue">Einkommen</span> die **abhängige** Variable. -- - Erklärende Variablen (hier <span class="blue">Bildungsjahre</span>) nennt man **unabhängige** Variablen. --- ## <span class="red">Riverview-Beispiel</span> - Im Örtchen Riverview möchte man etwas über den Zusammmenhang von Bildungsdauer und Einkommen bei Angestellten im Öffentlichen Dienst wissen. - Von den 320 Angestellten (**Grundgesamtheit**) wurde eine zufällige **Stichprobe** von 32 Angestellten gezogen und deren Bildungsdauer und Einkommen erfasst. - Näheres zum Beispiel findet man bei Lewis-Beck/Lewis-Beck (2016) ab Seite 8. ``` ## # A tibble: 6 × 3 ## id edu income ## <int> <int> <dbl> ## 1 1 8 26430 ## 2 2 8 37449 ## 3 3 10 34182 ## 4 4 10 25479 ## 5 5 10 47034 ## 6 6 12 37656 ``` --- ## <span class="red">Riverview</span>
--- ## <span class="red">Riverview</span> <!-- --> --- ## <span class="red">Erste Interpretation</span> Die **unabhängige Variable X** wird auf der X-Achse (Abszisse) abgetragen, die **abhängige Variable Y** auf der Y-Achse (Ordinate). Jeder Punkt im Streudiagramm entspricht einer Untersuchungseinheit, im Riverview-Beispiel einem Angestellten. Geht man von einem bestimmten Datenpunkt senkrecht nach unten, so erhält man die Ausprägung der X-Variablen. Geht man waagrecht nach links, so findet man die Ausprägung der abhängigen Variablen Y. Das **Streudiagramm** zeigt die gemeinsame Verteilung der Merkmale Bildung (X) und Einkommen (Y). Die Merkmale hängen, dem Augenschein zufolge, positiv zusammen: Je länger die Bildungsdauer, desto höher ist auch im allgemeinen auch das Einkommen der Befragten. Es besteht offenbar eine **positive Beziehung** zwischen X und Y. --- class: center, middle <div> <img src="./img/3notbad.gif" alt="Not bad"> </div> --- ## <span class="red">Riverview-Beispiel</span> <!-- --> --- ## <span class="red">Linearer Zusammenhang</span> - Grundgleichung eines **linearen** Zusammenhangs `$$y = b_{0} + b_{1}x$$` - Beispiel für einen **perfekt linearen** Zusammenhang `$$y = 5 + 2x$$` | Unabhängige Variable `X` | Abhängige Variable `y` | |:------------------------:|:------------------------:| | 0 | 5 | | 1 | 7 | | 2 | 9 | | 3 | 11 | | 4 | 13 | | 5 | 15 | --- ## <span class="red">Scatterplot</span> eines perfekt linearen Zusammenhangs <!-- --> --- ## <span class="red">Linearer Zusammenhang</span> Linearer Zusammenhang mit **Fehlerterm** `$$y = b_{0} + b_{1}x + e$$` Riverview Beispiel: `$$y = 11321 + 2651x + e$$` <img src="./img/11-lewis3.png" alt="Lewis3" style="width:50%"> --- class: center, middle ## Vielen Dank für die Aufmerksamkeit! <div> <img src="./img/3thankyou.gif" alt="Thank you"> </div>