class: center, middle, inverse, title-slide # Einführung in die Quantitative Datenanalyse ## Sitzung 1: Datenanalyse im Forschungsprozess ### Proseminar an der Freien Universität Berlin ### 24.04.2017 - Marcus Spittler --- ## Einführung in die Quantitative Datenanalyse <img src="./img/1data.gif" alt="Data"> --- ## Einführung in die Quantitative Datenanalyse <img src="./img/1stdata.gif" alt="Data"> --- ## Einführung in die Quantitative Datenanalyse <img src="./img/1excel.gif" alt="Excel" style="max-width:75%"> --- ## Einführung in die Quantitative Datenanalyse <img src="./img/1bigmoney.png" alt="Big Data Big Money"> --- ## Einführung in die Quantitative Datenanalyse <img src="./img/1target.png" alt="Kursziel" style="max-width:80%"> ??? Was ist das eigentlich, was kann ich mir darunter vorstellen? Stelle im Forschungsprozess an der Daten erhoben und analysiert werden. Quantitativ und Qualitativ Theoretische Arbeiten Case Studies Möglichst wenig Mathe um uns den Konzepten nähern. Anwendungsorientiert --- ## Selbstvorstellung - Marcus Spittler, M.A. -- - Studium der Politikwissenschaft an der **Otto-Friedrich-Universität Bamberg** und an der **Freien Universität Berlin**. -- - Gastaufenthalte an der **BGU in Minsk** und an der **Central European University** in Budapest. -- - Gast im **Electoral Integrity Projekt** im Sydney. -- - Seit 2015 Wissenschaftlicher Mitarbeiter am **Wissenschaftszentrum Berlin** in der Abteilung für **Demokratie und Demokratisierung**. -- - Forschungsinteresse liegt v.a. in der **Wahl- und Einstellungsforschung**. -- --- ## Kommunikation im Kurs - Alle Präsentationen, Datensätze und Skripte die wir im Kurs verwenden stehen auf <a href="https://mspittler.gitlab.io/teaching/">mspittler.gitlab.io</a> zum Download. - Die **Begleitlektüre** wird in der ersten Woche per e-mail versendet und steht im Blackboard zur Verfügung. - Ihr könnt gerne in die Sprechstunde kommen. Diese findet nach Vereinbarung statt. <div id="kontaktdaten"> Marcus Spittler <br> Wissenschaftszentrum Berlin (WZB) <br> Reichpietschufer 50 <br> 10785 Berlin <br> +49 30 25491 309 <br> <a href="mailto:marcus.spittler@wzb.eu">marcus.spittler@wzb.eu</a> <br> <a href="https://www.wzb.eu/de/personen/marcus-spittler">www.wzb.eu/de/personen/marcus-spittler</a> <br> <a href="https://mspittler.gitlab.io/">mspittler.gitlab.io/</a> <br> </div> --- ## Teilnahmebedingungen <span class=green>Hausaufgabe</span> - Kurze Bearbeitung einer gegebenen Aufgabenstellung. - Bewertung möglich, kann zu 50% in die Endnote einfließen. - Bearbeitung ist Bedingung für einen Teilnahmeschein <span class=red>Die Klausur gliedert sich in:</span> - 1/3 Zentrale Konzepte und Begriffe (Wissen) - 1/3 Interpretation statistischer Ergebnisse (Transfer) - 1/3 Angewandte Datenanalyse (Software) <span class=blue>Kriterien:</span> - Vmtl. Open Book Exam - 120 Minuten Bearbeitungszeit - Termin: vmtl. letzte Seminar-Stunde (24.07.2017) ??? Vorstellungsrunde --- ## Geschichte der Statistik <img src="./img/1cattlecensus.png" alt="Cattle Census"> --- ## Geschichte der Statistik - **Ursprung der praktischen Statistik** - Rinderzensus in Ägypten (ca. 2500 BCE) - Erste Volkszählungen (Altes Testament / China (2300 BCE)) - Ende des 18 Jhdt. - Gründung statistischer Zentralämter - Das Glücksspiel -- - **Woher kommt der Begriff?** - Ursprung im lateinischen *Status* (Zustand, Staat) und im italienischen *statista* (Staatsmann) - Vorlesung M. Schmeitzel in Halle (1679-1747) mit dem Namen "collegium politico-statisticum" -- - **Einige VertreterInnen** - Euler, Gauss, *Condorcet*, Bernoulli, **Pearson**, **Fisher** - Cox, Nightingale ??? WWII als weiterer Verstaerker<br> Entwicklung der Computer-Technologie<br> Bayes Nightingale, Krankenpflege, Darstellungen Gertrud Mary Cox --- ## Florence Nightingale - Causes of Mortality <img src="./img/1nightingale.jpg" alt="Florence Nightingale - Causes of Mortality"> --- ## Deskriptive und induktive Statistik * **Deskriptive Statistik** + Beschreibung eines historischen Faktums + Keine Zufallsfehler + **Ziel:** Verdichtung von Einzelinformationen / Datenreduktion + Bsp.: Volkszählung, Bundestagswahl -- * **Schliessende/Induktive Statistik** + Schliessen von Zusammenhängen von einer Stichprobe auf eine Grundgesamtheit + Basiert auf Wahrscheinlichkeitsrechnung (Stochastik) + Zufallsfehler / Konfidenzintervalle + **Ziel:** Überprüfung von Hypothesen + Bsp.: Umfrageforschung, Stichprobe in der Produktion --- ## Statistik im Forschungsprozess <img src="./img/1forschungsprozess.png" alt="Forschungsprozess"> ??? Fragen --- ## Statistik-Software - Wir werden mit den frei zugänglichen Open-Source Statistik-Umgebungen **R** und **R Studio** arbeiten. - In den Sozialwissenschaften werden auch Alternativen eingesetzt. Bekannte Beispiele sind **STATA**, **SPSS**, **SAS**, aber auch **Excel**. <img src="./img/1software.png" alt="Statistik Software"> --- ## Was ist R ? - Ursprünglich als Statistikumgebung **S** in den Bell Labs entwickelt -- - 1992 veröffentlichten die Statistiker Ross Ihaka und Robert Gentleman **R** -- - **R** besteht aus einem Kern (R Core/Base R) plus Zusatzpaketen. -- - Die wichtigsten Zusatzpakete die wir nutzen werden sind das **<span class="red">tidyverse</span>** und **<span class="red">ggplot2</span>** -- - Wo bekomme ich Hilfe? - [CRAN](https://cran.r-project.org/manuals.html) / eingebaute R-Hilfe - [stackoverflow.com](http://stackoverflow.com/) - [http://www.cookbook-r.com](http://www.cookbook-r.com) ??? Domain Specific Language Bell Labs in der Nähe von NewYork Nokia, Unix --- ## R Vor- und Nachteile .pull-left[ **<span class="green">Vorteile</span>** - Open Source - Kostenfreie Nutzung - Akzeptiert alle Datenformate - Sehr viele und unterschiedliche Zusatzpakete - Große Community ] .pull-right[ **<span class="red">Nachteile</span>** - Teilweise sehr steile Lernkurve ] --- ## R Vor- und Nachteile <img src="./img/1rvsexcel.png" alt="RvsExcel"> --- ## R Installation <img src="./img/1cran.png" alt="Cran" style="max-width:90%"> Zuerst muss <span class="red">R</span> installiert werden, z.B. aus dieser Quelle: [https://cran.r-project.org/](https://cran.r-project.org/) --- ## RStudio Installation <img src="./img/1rstudio.png" alt="RStudio" style="max-width:90%"> RStudio ist die grafische Oberfläche die "über" <span class="red">R</span> liegt. Mit ihr werden wir <span class="red">R</span> bedienen. [https://www.rstudio.com/products/rstudio/download/](https://www.rstudio.com/products/rstudio/download/) --- ## Unser erstes Skript <img src="./img/1thewire.png" alt="The Wire"> --- ## Ausblick - In der Begleitlektüre finden Sie Hinweise zur Installation von <span class="red">R</span>. Bitte versuchen Sie <span class="red">R</span> bis zum nächsten Mal zuhause zu installieren. - Bearbeiten Sie bitte den ersten Kurs auf **DataCamp** [https://www.datacamp.com/courses/free-introduction-to-r](https://www.datacamp.com/courses/free-introduction-to-r) - Zum Üben steht ihnen ein [RStudio Server](http://104.237.3.166:8787/auth-sign-in) für die Zeit des Kurses zur Verfügung. --- ## Vielen Dank für die Aufmerksamkeit