class: center, middle, inverse, title-slide # Einführung in die Quantitative Datenanalyse ## Sitzung 8: Maße der zentralen Tendenz und Variabilität ### Proseminar an der Freien Universität Berlin ### 25.06.2017 - Marcus Spittler --- # <span class="red">Inhalt der 8. Sitzung</span> 1. <span class="red">Maße der zentralen Tendenz</span> - Modus - Median - (Arithmetisches) Mittel 2. <span class="blue">Maße der Variabilität</span> - Varianz - Standardabweichung - Variationsbreite - Variationskoeffizient 3. <span class="green">Form von Verteilungen</span> - Symmetrie - Wölbung --- </br></br> .pull-left[ <img src="./img/7hamilton.jpg" alt="Hamilton" style=""> ] .pull-right[ </br></br></br></br></br></br></br></br></br></br></br> Margaret Hamilton (1969) mit dem Code der Apollo 11 Mission ] --- # <span class="red">Übersicht</span> Zulässige Berechnungen ab jeweiligem Skalenniveau: | **Skalenniveau**| **Zentrale Tendenz** | **Variabilität** | |-----------------|--------------------------|---------------------------| | Nominalskala | Modus | Entropie | | Ordinalskala | Median | Summenhäufigkeitsentropie | | ab Intervallsk. | - Arithmetisches Mittel | - Standardabweichung | | | - Harmonisches Mittel | - Varianz | | | - Geometrisches Mittel | - Variationsbreite | --- # <span class="red">Arithmetisches Mittel</span> - Arithmetisches Mittel wird mit `\(\bar{x}\)` (*mean*) bezeichnet - Entspricht dem **Schwerpunkt**/Zentrum der Verteilung - Ab *intervallskaliertem* Merkmal `$$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_{i}$$` - Empfindlich gegenüber Ausreißern/Extremwerten ```r mean( c( 800,1100,1500,2500,2800, 3000) ) ``` ``` ## [1] 1950 ``` ```r mean( c( 800,1100,1500,2500,2800, 3000, 80000) ) ``` ``` ## [1] 13100 ``` --- # <span class="red">Arithmetisches Mittel</span> - Eigenschaften des **arithmetischen Mittels** 1. Summe der Abweichungen vom Mittel ergibt immer *null* `$$\sum_{i=1}^{n} (x_{i}-\bar{x}) = 0$$` 2. Summe der quadrierten Abweichungen vom Mittel ergibt immer ein *Minimum*. Diese Eigenschaft macht man sich bei der *Methode der kleinsten Quadrate* / *Least squares* zunutze `$$\sum_{i=1}^{n} (x_{i}-\tilde{x})^2$$` --- # <span class="red">Modus</span> - **Modus/Modalwert** `\(Mo\)` (*Mode*) - Häufigster Wert einer Verteilung - Für jedes Skalenniveau geeignet - Sollten zwei verschiedene Werte die selbe Häufigkeit haben, spricht man von einer *bimodalen Verteilung* ```r icecream <- c("chocolate", "vanilla", "strawberry", "vanilla", "strawberry", "vanilla", "chocolate", "chocolate", "chocolate") table(icecream) ``` ``` ## icecream ## chocolate strawberry vanilla ## 4 2 3 ``` --- # <span class="red">Median</span> - **Median** `\(Md\)` (*median*) - Der Median einer Stichprobe von Werten ist definiert als der Wert, der größer gleich 50% der Werte der Stichprobe ist. - `\(x_{MD} = x_{(0.5)} = min \left \{ x_{i}\, |\, F(x_{i}) \geq 0.5 \right \}\)` - Kennzeichnet die *Mitte* der Stichprobenwerte - Ab *ordinalskaliertem* Merkmal - Wichtige Eigenschaft: Robust gegen Ausreißer --- # <span class="red">Berechnung des Median</span> - Erster Schritt: Anordnung der Daten nach Größe geordnet (Rangreihe) bzw. theoretisch plausibler Rangordnung - bei **ungeradem** `\(n\)` = Median `\(Md = Rangplatz (n+1)/2\)` - bei **quantitativen** Merkmalen und **geradem** `\(n\)` hier definiert als das arithmetische Mittel zwischen oberem und unterem Rangplatz: `\(Md = x_{bar}\)` von `\(x_{Rangplatz:n/2}\)` und `\(x_{Rangplatz:(n/2)+1}\)` - bei **ordinalskalierten** Merkmalen und **geradem** `\(n\)` ist der MD der untere Rangplatz: `\(Md = x_{Rangplatz:n/2}\)` - Die Berechnung des Medians bei **geradem** `\(n\)` ist uneindeutig, hier ist Vorschlag präsentiert, es gibt jedoch verschiedene Methoden. --- # <span class="red">Median für ordinale Merkmale</span> - Beispiel: Wir haben 14 Menschen in einem Fast Food Restaurant bei ihrer Bestelllung beobachtet. Dabei haben wir erhoben, welche Größe das von ihnen bestellte Menü hatte. - Die Größe des Menus haben wir in der Reihenfolge der Bestellungen notiert, z.B.: ```r menus <- c("sehr klein", "groß", "groß", "groß", "sehr groß", "mittel", "sehr klein", usw. ... ) ``` -- - Die Größe der Menus ist ein **ordinalskaliertes** Merkmal. Die Anzahl der beobachteten Personen `\(n\)` ist mit 14 **gerade**. --- # <span class="red">Median für ordinale Merkmale</span> Zuerst legen wir wie gewohnt einen neuen Vektor mit den Daten an ```r menus <- c(rep("sehr klein",3), rep("groß", 5), "mittel", rep("klein",4), "sehr groß") table(menus) ``` ``` ## menus ## groß klein mittel sehr groß sehr klein ## 5 4 1 1 3 ``` Danach "ordnen" wir den Vektor um für R die Reihenfolge festzulegen ```r menus <- ordered(menus, levels = c("sehr klein", "klein", "mittel", "groß", "sehr groß")) table(menus) ``` ``` ## menus ## sehr klein klein mittel groß sehr groß ## 3 4 1 5 1 ``` --- # <span class="red">Median für ordinale Merkmale</span> ```r # Package "DescTools" für die Berechnung des Median # bei ordinalskalierten Variablen library(DescTools) Median(menus) ``` ``` ## [1] klein ## Levels: sehr klein < klein < mittel < groß < sehr groß ``` Der Median unserer Variable `menus` liegt bei "klein". Das heißt, die unteren 50% der Besteller haben ein "kleines" oder "sehr kleines" Menu bestellt. --- # <span class="red">Median bei Intervallskala</span> ```r income <- c( 800,1100,1500,2500,2800, 3000, 80000) summary(income) ``` ``` ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 800 1300 2500 13100 2900 80000 ``` ```r median(income) ``` ``` ## [1] 2500 ``` ```r mean(income) ``` ``` ## [1] 13100 ``` --- # <span class="blue">Maße der Variabilität</span> - Während Maße der zentralen Tendenz uns Auskunft über die Mitte, bzw. das Zentrum der Werte liefern, informieren uns Maße der Variablität über die **Unterschiedlichkeit** der Werte. --- # <span class="blue">Varianz und Std.Abweichung</span> - **(Stichproben-) Varianz** `\(s^2\)` (*variance*) - Def.: Die Stichprobenvarianz ist die Summe der quadrierten Abweichungen aller Messwerte vom arithmetischen Mittel, dividiert durch `\(n-1\)`. - `\(n-1\)` bezeichnet man als **Freiheitsgrade** - Ab *intervallskaliertem* Merkmal `$$~\sigma^2 = \frac{\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2} {n-1}$$` - **Standardabweichung** `\(s\)` (*standard deviation*) - Da die Varianz quadiert ist, ist sie nur schwer inhaltlich interpretierbar `$$~\sigma = \sqrt{\sigma^2}$$` --- ## <span class="blue">Standardabweichung</span> Beispiel für zwei Verteilungen mit dem gleichen Mittelwert, aber unterschiedlichen Standardabweichungen: <img src="./img/7sd2.svg" alt="" style="max-width:100%"> --- # <span class="blue">Varianz Beispiel</span> ![]()<!-- --> --- # <span class="blue">Varianz Beispiel</span> | ID `\(i\)` | Note `\(x_{i}\)` | 1. Schritt `\(x_{i}-\bar{x}\)` | 2. Schritt `\((x_{i}-\bar{x})^2\)` | |--------|-------------:|----------------------------:|--------------------------------:| | 1 | 3.3| 0.8| 0.64| | 2 | 1.7| -0.8| 0.64| | 3 | 2.0| -0.5| 0.25| | 4 | 4.0| 1.5| 2.25| | 5 | 1.0| -1.5| 2.25| | 6 | 2.0| -0.5| 0.25| | 7 | 3.0| 0.5| 0.25| | 8 | 2.7| 0.2| 0.04| | 9 | 4.0| 1.5| 2.25| --- # <span class="blue">Varianz Beispiel</span> ```r # Mittelwert mean(grades) ``` ``` ## [1] 2.5 ``` ```r # Varianz var(grades) ``` ``` ## [1] 0.8672727 ``` ```r # Standardabweichung sd(grades) ``` ``` ## [1] 0.9312748 ``` --- ## <span class="blue">Standardabweichung</span> Standardabweichung in der Gaussschen Normalverteilung <img src="./img/7gaussd.svg" alt="" style="width:180%"> --- # <span class="blue">Variationsbreite</span> - **Variationsbreite** (*range*) - Differenz aus dem größten und kleinsten Messwert `$$x_{n}-x_{1}$$` ```r range(grades) ``` ``` ## [1] 1 4 ``` ```r range(income) ``` ``` ## [1] 800 80000 ``` --- # <span class="blue">Interquartilabstand</span> - **Interquartilabstand** (*Hinge / IQR*) - Auch Tukey-Angelpunkte - Drückt die Länge jenes Bereichs aus, über den die mittleren 50% der Verteilung streuen. - Berechnet sich analog zum Median. - `\(Q_{1}\)` ist der *untere Angelpunkt* unterhalb dem 25% der Verteilung liegen. `$$IQR = Q_{3}-Q_{1}$$` --- ### Boxplot <img src="./img/5graf-boxplotex.png" alt="Boxplot" style="max-width:75%"> <small>[Weitere Erläuterung](https://flowingdata.com/2008/02/15/how-to-read-and-use-a-box-and-whisker-plot/ )</small> --- #<span class="green">Form von Verteilungen</span> - **Verteilungen** können: - uni- oder bimodal - symmetrisch oder schief (*skewness*) - spezielle Funktionen sein (z.B. Normalverteilung) --- ### Form von Verteilung <img src="./img/7distribution1.png" alt="Verteilung" style="max-width:75%"> <img src="./img/7distribution2.png" alt="Verteilung" style="max-width:75%"> --- ### Form von Verteilung <img src="./img/7distribution3.png" alt="Verteilung" style="max-width:75%"> <img src="./img/7distribution4.png" alt="Verteilung" style="max-width:75%"> --- ### Form von Verteilung <img src="./img/7distribution5.png" alt="Verteilung" style="max-width:75%"> --- ## Vielen Dank für die Aufmerksamkeit <iframe src="https://giphy.com/embed/26ufp2yCvgElWaX9S" width="422" height="480" frameBorder="0" class="giphy-embed" allowFullScreen></iframe>