Feed Validator Results: http://statistik-dresden.de/feed

Congratulations!

This is a valid RSS feed.

Recommendations

This feed is valid, but interoperability with the widest range of feed readers could be improved by implementing the following recommendations.

line 33, column 0: Use of unknown namespace: com-wordpress:feed-additions:1 (11 occurrences) [help]
```
<site xmlns="com-wordpress:feed-additions:1">35603212</site>	<item>
```
line 113, column 0: content:encoded should not contain iframe tag (4 occurrences) [help]
```
The post <a href="https://statistik-dresden.de/von-sas-zu-r-in-der-pharmaind ...
```

line 611, column 0: Invalid HTML: Unexpected end tag (p). Ignored. (5 occurrences) [help]

										<content:encoded><![CDATA[<p>Zugegeben: Der Titel ist ein wenig pr ...

Source: http://statistik-dresden.de/feed

<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:wfw="http://wellformedweb.org/CommentAPI/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:atom="http://www.w3.org/2005/Atom"
xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
xmlns:georss="http://www.georss.org/georss"
xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#"
>
<channel>
<title>Statistik Dresden</title>
<atom:link href="https://statistik-dresden.de/feed/" rel="self" type="application/rss+xml" />
<link>https://statistik-dresden.de</link>
<description>R, R Training, R Workshop, Datenvisualisierung, R Programmierung</description>
<lastBuildDate>Mon, 12 Feb 2024 17:23:36 +0000</lastBuildDate>
<language>de-DE</language>
<sy:updatePeriod>
hourly </sy:updatePeriod>
<sy:updateFrequency>
1 </sy:updateFrequency>
<generator>https://wordpress.org/?v=6.4.4</generator>
<image>
<url>https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2016/02/cropped-Scatter_Confint_ggplot.png?fit=32%2C32&ssl=1</url>
<title>Statistik Dresden</title>
<link>https://statistik-dresden.de</link>
<width>32</width>
<height>32</height>
</image>
<site xmlns="com-wordpress:feed-additions:1">35603212</site> <item>
<title>Storytelling mit Daten: Cole Nussbaumer Knaflic</title>
<link>https://statistik-dresden.de/storytelling-mit-daten-cole-nussbaumer-knaflic/</link>
<comments>https://statistik-dresden.de/storytelling-mit-daten-cole-nussbaumer-knaflic/#respond</comments>
<dc:creator><![CDATA[Wolf Riepl]]></dc:creator>
<pubDate>Mon, 12 Feb 2024 17:19:47 +0000</pubDate>
<category><![CDATA[Praxisbeispiel]]></category>
<category><![CDATA[Datenvisualisierung]]></category>
<category><![CDATA[Excel]]></category>
<category><![CDATA[Storytelling]]></category>
<guid isPermaLink="false">https://statistik-dresden.de/?p=21060</guid>
<description><![CDATA[Storytelling mit Daten zählt zu den bekanntesten Werken in seinem Bereich. Nachdem ich mehrmals auf Empfehlungen gestoßen war, unter anderem in Claus Wilkes Fundamentals of Data Visualization, las ich vor einiger Zeit Cole Nussbaumer Knaflics Werk endlich selbst (auf Englisch). Es hat sich definitiv gelohnt! Zur Person: Cole Nussbaumer Knaflic Bevor ich näher auf das … <a href="https://statistik-dresden.de/storytelling-mit-daten-cole-nussbaumer-knaflic/" class="more-link">„Storytelling mit Daten: Cole Nussbaumer Knaflic“ weiterlesen</a>
The post <a href="https://statistik-dresden.de/storytelling-mit-daten-cole-nussbaumer-knaflic/">Storytelling mit Daten: Cole Nussbaumer Knaflic</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></description>
<content:encoded><![CDATA[Storytelling mit Daten zählt zu den bekanntesten Werken in seinem Bereich. Nachdem ich mehrmals auf Empfehlungen gestoßen war, unter anderem in <a href="https://statistik-dresden.de/datenvisualisierung-fundamentals-of-data-visualization-von-claus-o-wilke/">Claus Wilkes Fundamentals of Data Visualization</a>, las ich vor einiger Zeit Cole Nussbaumer Knaflics Werk endlich selbst (auf Englisch). Es hat sich definitiv gelohnt!
<h2>Zur Person: Cole Nussbaumer Knaflic</h2>
Bevor ich näher auf das Buch eingehe, einige Worte über die Autorin. Wie wird man zur weltweit anerkannten Expertin für Storytelling mit Daten? Bevor sie sich damit selbständig machte, arbeitete sie in Analysejobs in Banken und Beteiligungsfirmen. Die prägendste Zeit verbrachte sie offenbar bei Google im Personalbereich, wo sie datenbasiert innovative Personalprogramme und Management-Methoden analysierte. Dabei stellte sie erheblichen Nachholbedarf sowohl an guter grafischer Darstellung als auch beim Lesen und Interpretieren von Grafiken fest. Bereits während ihrer Zeit bei Google entwickelte Cole Nussbaumer Knaflic einen Kurs über <a href="https://statistik-dresden.de/archives/tag/datenvisualisierung/">Datenvisualisierung</a>, den sie aufgrund großen Erfolgs wiederholte Male sowohl in Google-Büros in den USA als auch in Europa abhielt. Schließlich folgte die Selbständigkeit.
<h2>Zum Buch: Welche Themen behandelt Storytelling mit Daten?</h2>
Die Autorin zeichnet sich durch klare Sprache und anschauliche, praxisbezogenen Beispiele aus. Die Einleitung motivierte mich gleich: Beispiele belegen, dass die Kommunikation mit Daten in vielen Fällen deutlich verbessert werden kann.
Anschließend geht es um die keineswegs triviale Auswahl geeigneter Visualisierungen. Sehr hilfreich das folgende Kapitel über clutter: Unordnung und unnötige Ablenkungen in Grafiken. Damit sind die Grundlagen gelegt, um genauer darüber nachzudenken, wie man die Aufmerksamkeit der Betrachter gezielt lenken kann.
Wirklich gelungene <a href="https://statistik-dresden.de/archives/tag/datenvisualisierung/">Datenvisualisierung</a> erfordert nicht nur analytische Fähigkeiten – vermutlich werden viele, die aus analytischen Ausbildungen und Berufen kommen (ich schließe mich da gern ein), von dem Kapitel Denke wie ein Designer profitieren.
Das folgende Kapitel (Dissecting Model Visuals / Modellvisualisierungen „zerlegen“) zeigt ausgewählte Datenvisualisierungen und beschreibt ausführlich den Denk- und Entscheidungsprozess, der zu dieser Art der Darstellung führte.
Schließlich kommt Cole Nussbaumer Knaflic zur Kunst: dem Storytelling. Hier erhält der Leser klar verständliche, gut umsetzbare Hinweise etwa zur Struktur, zum Aufbau, zur Art der Präsentation, zur Reihenfolge, wobei sie auch ausführlich auf Unterschiede zwischen schriftlicher und mündlicher Präsentation eingeht.
Es folgen noch drei Kapitel, die die Kernaussagen zusammenfassen, Fallstudien vorstellen und ausführliche, praxiserprobte Hinweise geben, wie es nach der Lektüre weitergehen kann.
<h2>Was mich an Storytelling mit Daten beeindruckt hat</h2>
Man merkt dem Buch an vielen Stellen wohltuend an, dass es auf reichhaltiger Praxiserfahrung der Autorin basiert. Die Grafiken sind oft erstaunlich einfach gehalten, sodass man den Fokus von technischer Machbarkeit und Gedanken an ausgefallene Tricks verschieben kann hin zu dem, was beim Betrachter wirklich ankommt und was man eigentlich vor allem herüberbringen möchte.
<figure id="attachment_21065" aria-describedby="caption-attachment-21065" style="width: 241px" class="wp-caption alignright"><img fetchpriority="high" decoding="async" class="wp-image-21065 size-medium" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2024/02/cover_Storytelling-Nussbaumer-Knaflic-eng-241x300.jpg?resize=241%2C300&ssl=1" alt="Storytelling with Data: Cole Nussbaumer Knaflic, english book cover" width="241" height="300" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2024/02/cover_Storytelling-Nussbaumer-Knaflic-eng.jpg?resize=241%2C300&ssl=1 241w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2024/02/cover_Storytelling-Nussbaumer-Knaflic-eng.jpg?w=374&ssl=1 374w" sizes="(max-width: 241px) 85vw, 241px" data-recalc-dims="1" /><figcaption id="caption-attachment-21065" class="wp-caption-text">Storytelling with Data: Cole Nussbaumer Knaflic, Englisches Buchcover</figcaption></figure>
Bei der Lektüre wurde mir noch deutlicher als bisher klar, dass Storytelling Mut erfordert. Im Business-Kontext neigen wir eventuell dazu, nüchtern und faktenbasiert zu denken und zu argumentieren. Das kann oft in wenig ansprechenden, schnell vergessenen Präsentationen münden. Geschichten zu erzählen, ist nicht unsachlich oder unprofessionell, wenn wir dabei seriös und fachlich fundiert vorgehen. Ein Abschnitt aus dem Storytelling-Kapitel bleibt mir besonders im Gedächtnis, wo die Autorin die Rotkäppchen-Geschichte im Stil einer langweiligen Powerpoint-Präsentation darstellt, inspiriert von Libby Spears. Das beginnt in etwa so:
<ul>
<li>Rotkäppchen (RK) muss 0,87 Kilometer von Punkt A (zuhause) zu Punkt B (Großmutter) zu Fuß gehen.</li>
<li>RK trifft Wolf, der
<ul>
<li>(1) zu Großmutter vorausläuft,</li>
<li>(2) sie isst,</li>
<li>(3) ihre Kleidung anlegt.</li>
</ul>
</li>
<li>…</li>
</ul>
Mit Mut lassen sich auch Geschäftsberichte interessanter erzählen!
Interessant fand ich auch die Empfehlung, beim Nachdenken über die Story, die man erzählen will, zunächst ohne Software zu arbeiten. Das mag im ersten Moment im 21. Jahrhundert überraschend klingen, doch ich kann die Begründung sehr gut nachvollziehen: Zu schnell lässt man sich von technischen Details ablenken, anstatt sich zunächst auf die Grundzüge der Geschichte zu konzentrieren. Ich kenne auch das Hin- und Herschieben von grafischen Elementen in Powerpoint, das mich inhaltlich nicht weiterbringt. (Artikel-Hinweis: <a href="https://statistik-dresden.de/datenanalysen-praesentieren-warum-ich-nicht-powerpoint-verwende/">Datenanalysen präsentieren: Warum ich nicht Powerpoint verwende</a>.)
<h2>Fazit: Storytelling mit Daten</h2>
Datenvisualisierung ist ein weites Feld und wer in diesem Bereich überzeugen will, wird nicht mit einem einzigen Buch auskommen. Storytelling mit Daten glänzt durch eine Fülle an praxiserprobten Hinweisen und wird sicher viele Leser bereichern.
Was Storytelling mit Daten nicht leistet, ist eine umfassende Übersicht über Arten von Grafiken. Die Autorin hat eine begrenzte Auswahl an nicht gerade ausgefallenen Grafiktypen ausgewählt, mit denen man klare Botschaften kommunizieren kann. Die Grafiken sind alle mit <a href="https://statistik-dresden.de/archives/tag/excel/">Excel</a> umsetzbar. Man lernt mit dem Buch also auch keine neuen Softwaretools kennen. Jedoch sind die Erkenntnisse mit vielen Tools anwendbar.
<h2>Datenvisualisierung: Weitere Buchempfehlungen und Kurse</h2>
Weitere Buchbesprechungen zur Datenvisualisierung auf diesem Blog:
<ul>
<li><a href="https://statistik-dresden.de/datenvisualisierung-fundamentals-of-data-visualization-von-claus-o-wilke/">Fundamentals of Data Visualization</a> von Claus O. Wilke</li>
<li><a href="https://statistik-dresden.de/informationen-visualisieren-edward-tuftes-klassiker-envisioning-information/">Envisioning Information</a> von Edward Tufte</li>
</ul>
Von Edward Tufte sind sicher auch weitere Werke empfehlenswert. Auf meinem Lesetisch liegt zur Zeit Show Me The Numbers von Stephen Few.
Über Das Buch The Grammar of Graphics von Leland Wilkinson habe ich zwar nicht direkt geschrieben, jedoch behandeln die Beiträge <a href="https://statistik-dresden.de/ggplot2-einfuehrung-in-die-drei-basisschichten-daten-aesthetiken-geometrien/">ggplot2: Einführung in die drei Basisschichten – Daten, Ästhetiken, Geometrien</a> sowie<a href="https://statistik-dresden.de/ggplot2-die-4-fortgeschrittenen-schichten/"> ggplot2: Die vier fortgeschrittenen Schichten</a> wesentliche Grundideen daraus.
Meine Beiträge zum <a href="https://statistik-dresden.de/archives/tag/datenvisualisierung/">Stichwort Datenvisualisierung</a> beziehen sich ansonsten häufig auf die Umsetzung mit R und Erweiterungspaketen. Dazu biete ich derzeit zwei Kurse an: <a href="https://statistik-dresden.de/r-schulungen/professionelle-diagramme-mit-ggplot2/">Datenvisualisierung mit R und ggplot2</a> sowie <a href="https://statistik-dresden.de/r-schulungen/datenvisualisierung-mit-r-fuer-fortgeschrittene/">Datenvisualisierung mit R für Fortgeschrittene</a>.
Literatur (Hinweis: bezahlte Links):
<a href="https://amzn.to/3Suj6hS">Storytelling mit Daten: Die Grundlagen der effektiven Kommunikation und Visualisierung mit Daten (Cole Nussbaumer Knaflic)</a>
<a href="https://amzn.to/4aW3pse">Fundamentals of Data Visualization: Claus Wilke</a>
<a href="https://amzn.to/3O9wkiY">Edward Tufte: Envisioning Information</a>The post <a href="https://statistik-dresden.de/storytelling-mit-daten-cole-nussbaumer-knaflic/">Storytelling mit Daten: Cole Nussbaumer Knaflic</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></content:encoded>
<wfw:commentRss>https://statistik-dresden.de/storytelling-mit-daten-cole-nussbaumer-knaflic/feed/</wfw:commentRss>
<slash:comments>0</slash:comments>
<post-id xmlns="com-wordpress:feed-additions:1">21060</post-id> </item>
<item>
<title>Von SAS zu R in der Pharmaindustrie: Paradigmenwechsel!</title>
<link>https://statistik-dresden.de/von-sas-zu-r-in-der-pharmaindustrie-paradigmenwechsel/</link>
<comments>https://statistik-dresden.de/von-sas-zu-r-in-der-pharmaindustrie-paradigmenwechsel/#respond</comments>
<dc:creator><![CDATA[Wolf Riepl]]></dc:creator>
<pubDate>Wed, 31 Jan 2024 20:18:39 +0000</pubDate>
<category><![CDATA[R-Programmierung]]></category>
<category><![CDATA[klinische Studien]]></category>
<category><![CDATA[Open Source]]></category>
<category><![CDATA[Pharmaindustrie]]></category>
<category><![CDATA[pharmaverse]]></category>
<category><![CDATA[tidyverse]]></category>
<guid isPermaLink="false">https://statistik-dresden.de/?p=20140</guid>
<description><![CDATA[In den Biowissenschaften und der Pharmaindustrie spielen Datenverarbeitung und insbesondere statistische Datenanalysen eine fundamentale Rolle. Seit Jahrzehnten dominierte dabei die kommerzielle Software SAS (Statistical Analysis System). Nun sind starke Initiativen auf mehreren Ebenen hin zum Einsatz von R in der Pharmaindustrie zu beobachten - verbunden mit einem erstaunlichen Kulturwandel!
The post <a href="https://statistik-dresden.de/von-sas-zu-r-in-der-pharmaindustrie-paradigmenwechsel/">Von SAS zu R in der Pharmaindustrie: Paradigmenwechsel!</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></description>
<content:encoded><![CDATA[In den Biowissenschaften und der Pharmaindustrie spielen Datenverarbeitung und insbesondere statistische Datenanalysen eine fundamentale Rolle. Seit Jahrzehnten dominierte dabei die kommerzielle Software SAS (Statistical Analysis System). Nun sind starke Initiativen auf mehreren Ebenen hin zum Einsatz von R in der Pharmaindustrie zu beobachten.
<h2 class="wp-block-heading">Gründe für die jahrzehntelange SAS-Dominanz</h2>
Diese Dominanz hat mehrere Gründe, wie <a href="https://appsilon.com/r-vs-sas-pharma-life-sciences/">Gift Kenneth kürzlich auf dem Blog von Appsilon schrieb</a>:
<ul>
<li>Historische Relevanz: langjährige Vertrauensverhältnisse seit den 1970er Jahren</li>
<li>Der fundierte Ruf, die regulatorischen Anforderungen, etwa von der FDA (U.S. Food and Drug Administration) genau einzuhalten</li>
<li>Abdeckung aller Arbeitsschritte klinischer Studien</li>
<li>Starke Tools für die Datenintegration aus verschiedenen Quellen</li>
<li>Flexible Anpassungsmöglichkeiten durch Programmierung</li>
</ul>
<h2 class="wp-block-heading">Nachteile von SAS</h2>
Allerdings brachte SAS auch schon immer einige Nachteile mit sich, die zumindest einen Anreiz setzten, offen für Alternativen zu bleiben:
<ul>
<li>Hohe Lizenzkosten</li>
<li>Steile Lernkurve, auch im Vergleich zu <a href="https://statistik-dresden.de/archives/tag/open-source/">Open-Source-Software</a> wie R</li>
<li>Begrenzte Offenheit: Als kommerzielle / proprietäre Software ist SAS weniger offen für Erweiterungen als Alternativen wie R</li>
</ul>
<h2 class="wp-block-heading">Wachsende Popularität von R</h2>
<ul>
<li>Open Source: frei verfügbar ohne Budget-Restriktionen; das erleichtert Zusammenarbeit und Innovation</li>
<li>Riesige Anzahl an Erweiterungspaketen durch globale Entwickler-Gemeinschaft</li>
<li>Flexibilität und Anpassbarkeit an individuelle Bedürfnisse / Herausforderungen</li>
</ul>
<h2 class="wp-block-heading">Spezifische Vorteile, R zu nutzen</h2>
<div class="wp-block-image">
<figure class="alignright size-full"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2011/08/Rlogo.png?ssl=1"><img decoding="async" width="200" height="155" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2011/08/Rlogo.png?resize=200%2C155&ssl=1" alt="" class="wp-image-12371" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2011/08/Rlogo.png?w=200&ssl=1 200w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2011/08/Rlogo.png?resize=150%2C116&ssl=1 150w" sizes="(max-width: 200px) 85vw, 200px" data-recalc-dims="1" /></a></figure></div>
<ul>
<li>Reproduzierbarkeit: z. B. durch <a href="https://statistik-dresden.de/r-schulungen/ergebnisse-berichten-mit-r-reproduzierbare-workflows-dank-markdown/">Berichtsformate wie Quarto und Markdown</a></li>
<li>Datenvisualisierung: Enorme Möglichkeiten durch <a href="https://statistik-dresden.de/archives/tag/ggplot2/">ggplot2</a> und zahlreiche spezialisierte Erweiterungspakete</li>
<li>Datenintegration aus verschiedenen Quellen, inklusive <a href="https://statistik-dresden.de/archives/tag/datenbank/">Datenbanken</a> und <a href="https://statistik-dresden.de/archives/tag/excel/">Excel</a></li>
<li>Unterstützung von der weltweiten Gemeinschaft von Entwicklern und Anwendern, z. B. in zahlreichen Foren, Blogs, auf Github, auf Social Media, in <a href="https://www.youtube.com/@StatistikinDD">Youtube-Videos</a> etc.</li>
<li>Kosten-Effizienz durch Wegfall der Lizenzgebühren</li>
<li>Kürzere / schnellere Abläufe von Rohdaten zu Einsichten, Business Value</li>
<li>Größere Auswahl an Bewerbern / potenziellen Mitarbeitern, da es zunehmend mehr R-Experten als SAS-Experten gibt</li>
</ul>
<h2 class="wp-block-heading">Von SAS zu R in der Pharmaindustrie: Herausforderungen</h2>
Trotz der Vorteile ist es ein großer Schritt, Arbeitsabläufe auf R umzustellen. Dabei sind einige Herausforderungen zu meistern:
<ul>
<li>Regulatorische Anforderungen: Entwicklung maßgeschneiderter Prozesse, um alle Anforderungen, etwa hinsichtlich Dokumentation und Handhabung der Daten, einzuhalten</li>
<li>Datensicherheit, Schutz vertraulicher Informationen</li>
<li>Software-Validierung</li>
</ul>
Diese Hürden sind nicht trivial! In den letzten Jahren hat sich in dieser Hinsicht sehr viel getan – vor dem Hintergrund jahrzehntelang etablierter Abläufe und strenger Richtlinien stellt das einen erstaunlichen Wandel auf mehreren Ebenen dar.
<h2 class="wp-block-heading">R in der Pharmaindustrie: Kulturwandel, Kooperation</h2>
Neben all den technischen Aspekten finde ich dabei auch den Kulturwandel sehr beeindruckend, der von der Geheimhaltung eigener Lösungen mit Blick auf den harten Wettbewerb zu erstaunlich umfangreicher Kooperation geführt hat. Dazu zählen Konferenzen mit Erfahrungsaustausch (R/Pharma), öffentlich zugängliche Videos mit gesammelten Erfahrungen, die gemeinsame Entwicklung von R-Paketen (pharmaverse) sowie gemeinsame Arbeitsgruppen (etwa die R Submissions Working Group).
In der <a href="https://pharmaverse.org/charter/">Charter des pharmaverse </a>heißt es, die Branche sei nie so offen für Zusammenarbeit über Firmengrenzen hinweg gewesen wie jetzt.
<h2 class="wp-block-heading">R in der Pharmaindustrie: Das pharmaverse</h2>
<div class="wp-block-image">
<figure class="alignleft size-full is-resized"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2024/01/logo-pharmaverse.png?ssl=1"><img decoding="async" width="324" height="356" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2024/01/logo-pharmaverse.png?resize=324%2C356&ssl=1" alt="R in der Pharmaindustrie: Logo der pharmaverse-Paketsammlung" class="wp-image-20190" style="width:166px;height:auto" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2024/01/logo-pharmaverse.png?w=324&ssl=1 324w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2024/01/logo-pharmaverse.png?resize=273%2C300&ssl=1 273w" sizes="(max-width: 324px) 85vw, 324px" data-recalc-dims="1" /></a></figure></div>
Das pharmaverse erlangte mit der <a href="https://youtu.be/NW9qp5QOlIU?si=t4rPQkMCIja1rHPL">R in Pharma-Konferenz 2021 durch Ben Straub (GSK) und Eli Miller (Atorus Research)</a> große Popularität und ist schnell gewachsen. Dabei ist es nicht als isolierter Teil der R-Paket-Welt zu sehen, vielmehr knüpfen etliche pharmaverse-Pakete eng an bestehenden, sehr breit genutzten Paketen wie dem <a href="https://statistik-dresden.de/archives/tag/tidyverse/" title="">tidyverse</a> an. Hier einige zentrale R-Pakete des pharmaverse:
<ul>
<li><a href="https://pharmaverse.github.io/admiral/">{admiral}</a> für die Erstellung von ADaM-Datensätzen (Analysis Data Model)</li>
<li><a href="https://insightsengineering.github.io/rtables/main/">{rtables}</a> für komplexe Tabellen, die in den Formaten ASCII, HTML, PDF oder Power Point (als flextable-Objekte) ausgegeben werden können</li>
<li><a href="https://pharmaverse.github.io/tidytlg/main/" title="">{tidytlg}</a> zur Erstellung von Tabellen, Listen, Grafiken auf Basis des <a href="https://statistik-dresden.de/archives/tag/tidyverse/" title="">tidyverse</a></li>
<li><a href="https://atorus-research.github.io/pharmaRTF/" title="">{pharmaRTF}</a> als Brücke von bestehenden Tabellen-Paketen wie {gt} oder {huxtable} zum RTF-Format; siehe auch {<a href="https://merck.github.io/r2rtf/" title="">r2rtf</a>} von Merck</li>
<li><a href="https://atorus-research.github.io/Tplyr/index.html" title="">{Tplyr}</a>, um die Zusammenfassung klinischer Studienergebnisse zu erleichtern</li>
</ul>
Weitere Infos zum pharmaverse:
<ul>
<li><a href="https://pharmaverse.org/" title="">pharmaverse.org</a> mit Übersicht über Pakete und Beitragende</li>
<li><a href="https://github.com/pharmaverse" title="">github-Seite</a>: pharmaverse, aktuell bereits >40 Repositories!</li>
<li><a href="https://posit.co/blog/pharmaverse-packages-for-clinical-reporting-workflows/" title="">Blogbeitrag von posit</a> (<a href="https://statistik-dresden.de/aus-rstudio-wurde-posit/" title="">früher RStudio</a>)</li>
<li><a href="https://appsilon.com/pharmaceutical-and-clinical-trial-data-analysis-packages/" title="">Blogbeitrag von appsilon</a> mit sehr umfangreicher Paket-Übersicht</li>
<li><a href="https://pharmaverse.r-universe.dev/builds" title="">pharmaverse auf r-universe</a>, einer zunehmend populären CRAN-Alternative; dazu gibt es ebenfalls eine <a href="https://github.com/r-universe/pharmaverse" title="">github-Seite</a></li>
<li><a href="https://cran.r-project.org/web/packages/pharmaverse/index.html" title="">CRAN-Seite zum R-Paket pharmaverse</a>, das bei der Navigation hilft</li>
<li><a href="https://www.youtube.com/channel/UCxQFEv8HNqM01DXzdQLCy6Q" title="">pharmaverse auf Youtube</a></li>
</ul>
<h2 class="wp-block-heading">R/Pharma-Konferenzen</h2>
2018 fand die <a href="https://rinpharma.com/event/rinpharma2018/" title="">erste R/Pharma-Konferenz an der Harvard-Universität</a> statt, seitdem jährlich. Von 2020 bis 2023 wurden die Konferenzen zu 100% online durchgeführt. Auf <a href="https://rinpharma.com/" title="">rinpharma.com</a> werden die Veranstaltungen ausführlich dokumentiert.
Themen im Oktober 2023 unter anderem:
<ul>
<li>{admiral}-Anwendung</li>
<li>Rollen-Veränderungen in der „Programmierung“ in der Pharmaindustrie</li>
<li>Interaktive Datenvisualisierungen; mehrere Workshops zu <a href="https://statistik-dresden.de/r-schulungen/shiny-interaktive-webapplikationen-mit-r/" title="">Shiny</a></li>
</ul>
<h2 class="wp-block-heading">R in der Pharmaindustrie: Arbeitsgruppen</h2>
Weitere Belege für Initiativen, die immer stärker R in der Pharmaindustrie verankern:
<ul>
<li><a href="https://rconsortium.github.io/submissions-wg/" title="">R Submissions Working Group:</a> Arbeitsgruppe für R-basierte Zulassungsanträge für klinische Studien beim R Consortium</li>
<li><a href="https://www.pharmar.org/" title="">R Validation Hub:</a> Unterstützung der Einführung von R in einem biopharmazeutischen Regulierungsumfeld, bereits über 40 teilnehmende Organisationen und Unternehmen</li>
<li>Siehe auch <a href="https://phuse.global/" title="">PHUSE:</a> The Global Healthcare Data Science Community</li>
</ul>
<h2 class="wp-block-heading">Videos und Links zu R in der Pharmaindustrie</h2>
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe loading="lazy" class="youtube-player" width="840" height="473" src="https://www.youtube.com/embed/APMDOS4v9Hk?version=3&rel=1&showsearch=0&showinfo=1&iv_load_policy=1&fs=1&hl=de-DE&autohide=2&wmode=transparent" allowfullscreen="true" style="border:0;" sandbox="allow-scripts allow-same-origin allow-popups allow-presentation allow-popups-to-escape-sandbox"></iframe>
</div><figcaption class="wp-element-caption">R/Pharma 2022 Day 2: Ross Farrugia. Breaking boundaries through open-source collaboration</figcaption></figure>
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe loading="lazy" title="Shifting to an Open-Source Backbone in Clinical Trials with Roche" width="840" height="473" src="https://www.youtube.com/embed/nqJsLSLd39A?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe>
</div><figcaption class="wp-element-caption">Shifting to an Open-Source Backbone in Clinical Trials with Roche</figcaption></figure>
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe loading="lazy" class="youtube-player" width="840" height="473" src="https://www.youtube.com/embed/EqKhmJ1lcN8?version=3&rel=1&showsearch=0&showinfo=1&iv_load_policy=1&fs=1&hl=de-DE&autohide=2&wmode=transparent" allowfullscreen="true" style="border:0;" sandbox="allow-scripts allow-same-origin allow-popups allow-presentation allow-popups-to-escape-sandbox"></iframe>
</div><figcaption class="wp-element-caption">R Validation Hub Mini-Series Part I – Risk Metrics and Risk Score Package</figcaption></figure>
<a href="https://posit.co/blog/shiny-use-cases-within-pharma/" title="">Mehrere kurze Videos mit Eric Nantz, Vorreiter der Shiny-Nutzung in der Pharmaindustrie</a>
<a href="https://appsilon.com/first-r-based-submission-to-fda-by-novo-nordisk/" title="">Novo Nordisk: Erfahrungen aus der ersten R-basierten Einreichung bei der FDA</a>
<a href="https://posit.co/blog/celebrating-5-years-of-r-pharma/" title="">Posit Blog: 5 Jahre R/Pharma-Konferenzen</a>
Gern unterstütze ich Sie dabei, mehr mit R zu erreichen! <a href="https://statistik-dresden.de/r-schulungen/" title="">Hier geht’s zu den Workshops</a>. Bei inhouse-Schulungen bereite ich das Material gern in Abstimmung mit Ihnen maßgeschneidert vor.
Viel Freude und Erfolg mit R!The post <a href="https://statistik-dresden.de/von-sas-zu-r-in-der-pharmaindustrie-paradigmenwechsel/">Von SAS zu R in der Pharmaindustrie: Paradigmenwechsel!</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></content:encoded>
<wfw:commentRss>https://statistik-dresden.de/von-sas-zu-r-in-der-pharmaindustrie-paradigmenwechsel/feed/</wfw:commentRss>
<slash:comments>0</slash:comments>
<post-id xmlns="com-wordpress:feed-additions:1">20140</post-id> </item>
<item>
<title>6 Jahre R-Seminare / R-Kurse / R-Workshops: Erfahrungsbericht</title>
<link>https://statistik-dresden.de/6-jahre-r-seminare-r-kurse-r-workshops-erfahrungsbericht/</link>
<comments>https://statistik-dresden.de/6-jahre-r-seminare-r-kurse-r-workshops-erfahrungsbericht/#respond</comments>
<dc:creator><![CDATA[Wolf Riepl]]></dc:creator>
<pubDate>Fri, 05 Jan 2024 15:31:59 +0000</pubDate>
<category><![CDATA[R-Programmierung]]></category>
<category><![CDATA[ggplot2]]></category>
<category><![CDATA[Markdown]]></category>
<category><![CDATA[plotly]]></category>
<category><![CDATA[Powerpoint]]></category>
<category><![CDATA[quarto]]></category>
<category><![CDATA[rmarkdown]]></category>
<category><![CDATA[shiny]]></category>
<category><![CDATA[tidyverse]]></category>
<category><![CDATA[xaringan]]></category>
<guid isPermaLink="false">https://statistik-dresden.de/?p=18128</guid>
<description><![CDATA[Seit etwa 6 Jahren liegt mein beruflicher Fokus auf der Entwicklung und Durchführung von R-Workshops / R-Seminaren / R-Kursen. Zeit, über einige Erfahrungen zu reflektieren. R-Seminare: Wie kam es dazu? Nach dem Soziologie-Studium und einer kurz befristeten Stelle an der Medizinischen Fakultät der Universität Leipzig, wo ich Zusammenhänge von Lebensstilen und Ernährungsverhalten von Jugendlichen und … <a href="https://statistik-dresden.de/6-jahre-r-seminare-r-kurse-r-workshops-erfahrungsbericht/" class="more-link">„6 Jahre R-Seminare / R-Kurse / R-Workshops: Erfahrungsbericht“ weiterlesen</a>
The post <a href="https://statistik-dresden.de/6-jahre-r-seminare-r-kurse-r-workshops-erfahrungsbericht/">6 Jahre R-Seminare / R-Kurse / R-Workshops: Erfahrungsbericht</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></description>
<content:encoded><![CDATA[Seit etwa 6 Jahren liegt mein beruflicher Fokus auf der Entwicklung und Durchführung von R-Workshops / R-Seminaren / R-Kursen. Zeit, über einige Erfahrungen zu reflektieren.
<h2>R-Seminare: Wie kam es dazu?</h2>
Nach dem Soziologie-Studium und einer kurz befristeten Stelle an der Medizinischen Fakultät der Universität Leipzig, wo ich Zusammenhänge von Lebensstilen und Ernährungsverhalten von Jugendlichen und jungen Erwachsenen erforschte, machte ich mich 2007 selbständig. Gute 10 Jahre lang führte ich Datenanalysen für diverse Marktforschungsinstitute durch und betreute nebenbei Studenten und Doktoranden bei statistischen Auswertungen. Schon in dieser Zeit hatte ich gelegentlich Schulungen durchgeführt – die Initiative kam dabei von den Auftraggebern.
Im Laufe der Jahre wurde ich zunehmend unzufriedener mit meiner Tätigkeit. Zum einen erwies sich der Fokus auf <a href="https://statistik-dresden.de/archives/category/praxisbeispiel/spss">SPSS</a> (und, zu einem deutlich geringeren Teil, <a href="https://statistik-dresden.de/archives/tag/stata">Stata</a>) als problematisch. Die Software aktuell zu halten, ist für einen Solo-Selbständigen mit hohen Kosten verbunden. Zum anderen, und das wog schwerer, hatte ich Mühe, eine einigermaßen gleichmäßige Auslastung sicherzustellen. Projekte wurden häufig unter Zeitdruck durchgeführt; Anfragen kamen oft in Wellen. Wenn ich ohnehin schon gut ausgelastet war, kamen weitere Anfragen von treuen Kunden, die ich nicht ohne weiteres guten Gewissens ablehnen konnte. Andererseits war phasenweise weniger zu tun, zugesagte Projekte verschoben sich und ich konnte nicht zu meiner Wunschzeit in Projektarbeit einsteigen. Dabei hatte ich es lange Zeit genossen, kaum Akquise machen zu müssen. Ich erhielt viele Folgeaufträge, sodass ich mit einer überschaubaren Anzahl treuer Kunden langfristig zusammenarbeitete.
Schon zu <a href="https://statistik-dresden.de/archives/category/praxisbeispiel/spss">SPSS</a>-Zeiten hatte ich, leider erfolglos, versucht, stärker auf Schulungen zu setzen.
<h2>Krise und Neuausrichtung</h2>
Ein Wendepunkt war das Jahr 2014. Einerseits privat unvergesslich dank der Hochzeit mit meiner langjährigen Partnerin. Beruflich jedoch breitete sich mehr und mehr das Gefühl aus, in eine Sackgasse geraten zu sein. Ich war unausgeglichen, gereizt, hatte Mühe mich zu entspannen, verdiente auch zu wenig mit der Projektarbeit, um zufrieden zu sein. Im Zuge der notwendigen Neuausrichtung begann ich, neben einigen erfolglosen Bewerbungen und Berufsberatung, R zu lernen. Es war mein zweiter Anlauf: 2007 hatte ich bereits ein von einem Auftraggeber bezahltes Wochenendseminar besucht, das unter der Frage stand, ob wir uns die teuren <a href="https://statistik-dresden.de/archives/category/praxisbeispiel/spss">SPSS</a>-Lizenzen künftig sparen können.
<blockquote>Meine Reaktion auf R 2007: 
„Ich möchte diese Software nie wieder öffnen.“</blockquote>
Das war Ende 2014 anders: Ich begann, Feuer zu fangen, und stürzte mich, neben der weiterlaufenden SPSS-Projektarbeit, auf Bücher und Internetquellen, um mehr und mehr in R einzutauchen. Das <a href="https://statistik-dresden.de/archives/tag/tidyverse">tidyverse</a> hat sicherlich bei mir – wie bei vielen anderen – wesentlich dazu beigetragen, die Einstiegshürde zu senken.
<h2>Erste Schulungen: Erfolg und fuck-up</h2>
Etwa Ende 2015 schrieb ich auf dieser Webseite, dass ich ab sofort R-Kurse anbiete. Zu meiner Überraschung erhielt ich innerhalb kurzer Zeit meinen ersten Auftrag: Eine Online-Schulung für eine Einsteigerin. Das war einerseits sehr ermutigend, andererseits war ich noch nicht gerade Vollprofi in R …
Die Projektarbeit ging weiter, nach wie vor überwiegend mit SPSS. Gleichzeitig vertiefte ich 2016 / 2017 meine R-Kenntnisse, teils mit Büchern, überwiegend mit Online-Material und eigenen Datenanalyse-Ideen.
2017 erhielt ich einen lukrativen Firmenauftrag für eine mehrtätige Firmenschulung vor Ort beim Kunden. Ganz im Sinne der <a href="https://www.youtube.com/c/fvckupnights">Fuckup Nights</a> möchte ich den Fehlschlag nicht verschweigen. Ich warb mit maßgeschneiderten Schulungen mit Kundendaten, um mich von standardisierten Schulungen abzuheben und die Übertragung des Gelernten in den Arbeitsalltag zu erleichtern. Hier handelte es sich um ein sehr technisches Thema einer Hightech-Produktionsfirma. Das Problem waren nicht meine R-Kenntnisse, aber ich brauchte sehr lange zur Fertigstellung der Schulungsunterlagen. Dabei verpasste ich es im Zeitdruck, mit dem Kunden über die zur Verfügung gestellten Daten zu sprechen. So kam es, dass einige Beispiele inhaltlich unsinnig und somit wenig überzeugend waren. Eine weitere Schwäche: Am letzten Tag konnte ich die Zeit nicht ganz füllen.
Was habe ich daraus gelernt?
<ol>
<li>Gute Abstimmung im Vorfeld hilft! Es mag zwar bequemer erscheinen, „mein eigenes Ding“ zu machen. Doch Kunden schätzen passgenaues Material, und mir macht es mit besserer Abstimmung auch mehr Spaß – auch wenn es Mehraufwand im Vorfeld bedeutet. Das gilt sowohl für technische Voraussetzungen als auch für Inhalte.</li>
<li>Reichlich Zeit zur Vorbereitung einplanen. Schulungen aus vorbereitetem Material anzupassen ist einfacher, als Material komplett neu zu erstellen.</li>
<li>Mehr Material vorbereiten, als die Seminarzeit hergibt. Ich habe immer „Bonusmaterial“ dabei, das ich nie komplett brauche. Oft kam aber das Gespräch im Seminar auf bestimmte Sonderthemen; dann ist es klasse, etwas zeigen zu können.</li>
</ol>
<h2>2018: Der Schritt zum Vollzeit-R-Trainer</h2>
Die Übergangszeit zwischen Datenanalyse-Projektarbeit und ersten Schulungen empfand ich als herausfordernd. Mir wurde klar, dass die Schulungen einen starken Fokus erfordern. So wagte ich den Schritt, nach und nach Projekte von bisherigen Stammkunden abzulehnen und den Wechsel meines Angebots klar zu kommunizieren. Das erforderte Mut, fühlte sich aber richtig an. Der Umstieg wurde mir erleichtert von zwei IT-Schulungsanbietern, die meine Kurse in ihr Seminarprogramm aufnahmen. So konnte ich mich auf die inhaltliche Arbeit konzentrieren und musste mich nicht so sehr um Werbung und Akquise kümmern.
<ul>
<li><a href="https://www.it-trainingshaus.de/kursprogramm/?tx_coursemanagement_management%5Bcategory%5D=24437&cHash=dc45f9524dbd7199243ca27e88f82170">it-Trainingshaus Dresden</a></li>
<li><a href="https://www.it-schulungen.com/seminare/business-intelligence/data-mining/r/index.html">New Elements / IT-Schulungen.com, Nürnberg</a></li>
</ul>
Kurz nach der Entscheidung, ganz auf die R-Schulungen zu setzen, gab es jedoch einen schwachen Moment. Einige angekündigte, beworbene Schulungen kamen mangels Buchungen nicht zustande. Ein alter, sehr sympathischer Kunde fragte mich für eine Excel-VBA-Programmierung für seinen Firmenkunden an. Ich war von Anfang an etwas skeptisch, ließ mich jedoch überreden und brauchte ja auch Aufträge. Das Projekt entwickelte sich zu einem Musterbeispiel für einen Freelancer-Albtraum. Es musste ein Festpreis-Angebot sein; es gab eine ganze Reihe von Detailwünschen, die für mich vorab nicht abschätzbar waren und zu höherem Aufwand als erwartet führten (ohne dass ich sie hätte ablehnen können). Als es um die Fertigstellung ging, verließ die Ansprechpartnerin beim Endkunden die Firma. Nur mit Mühe konnten wir das Projekt schließlich fertigstellen. Im Nachhinein hätte ich die Zeit weitaus besser für die Entwicklung weiterer R-Schulungen verwendet.
<h2>Die größte Überraschung: Als Wessi entlarvt!</h2>
Die größte Überraschung seitens einer Teilnehmerin erlebte ich, als ich völlig unvermutet beim Runden (!!) als Wessi entlarvt wurde.
<div class="jetpack-video-wrapper"><iframe loading="lazy" class="youtube-player" width="840" height="473" src="https://www.youtube.com/embed/KtoBjo-SmGY?version=3&rel=1&showsearch=0&showinfo=1&iv_load_policy=1&fs=1&hl=de-DE&autohide=2&wmode=transparent" allowfullscreen="true" style="border:0;" sandbox="allow-scripts allow-same-origin allow-popups allow-presentation allow-popups-to-escape-sandbox"></iframe></div>
<h2>R-Seminare in der Pandemie ab 2020</h2>
2019, mein zweites Jahr nach der Entscheidung, voll auf R-Kurse zu setzen, lief deutlich besser als das bereits zufriedenstellende Jahr 2018. Ich verbrachte viel Zeit in Zügen und Hotels, schulte neben den Präsenzseminaren in Dresden unter anderem in Hannover, Offenbach, Köln, Berlin (mehrfach) und Nürnberg (mehrfach). Im März 2020 war damit plötzlich Schluss. Ich hatte das Glück, dass meine Arbeit sehr einfach auf online umzustellen war – so konnten auch einige bereits als Präsenzveranstaltungen gebuchte Kurse zum geplanten Termin stattfinden. Mit dem Online-Format fühlte ich mich von Anfang an wohl. Der Verzicht auf Reisen brachte erheblichen Zeitgewinn mit sich, bei allen Corona-bedingten Einschränkungen. Im Sommer 2020 gab es eine interessante Hybridveranstaltung in Hannover: Live-Teilnehmer mit großen Abständen, eine Plexiglaswand vor meinem Trainerplatz, Videoteilnehmer im Nachbarraum sowie im Home Office. Klappte gut und machte Spaß!
Natürlich geht beim Online-Format auch etwas menschliche Begegnung verloren, zum Beispiel lockerer Austausch beim Mittagessen oder in den Pausen. Eine etwas seltsame Erfahrung war eine Schulung mit rund 40 Teilnehmern (das ist in meinem Bereich ungewöhnlich viel, meist sind es zwischen 1 und höchstens 15 Teilnehmende), davon etwa die Hälfte in China. Hier war der Anteil derjenigen, die die Kamera ausgeschaltet ließen, ungewöhnlich hoch. Von vielen erhielt ich während mehrerer Kurstage praktisch gar keine Lebenszeichen, auch der Chat wurde nur spärlich genutzt. Eingeschaltete Kameras helfen sehr dabei, abzuschätzen, ob das Gesagte ankommt. Auch ein wortloses Lächeln ist so viel mehr Wert als unsichtbares Schweigen.
Seit Aufhebung der Corona-Maßnahmen haben viele Seminare weiterhin online stattgefunden.
<h2>Ausweitung des Angebots, Herausforderungen</h2>
Im Laufe der Jahre habe ich mein Angebot kontinuierlich ausgebaut – teils aus eigener Initiative, teils nach Durchführung kundenspezifischer Agenden. Begonnen hat es mit <a href="https://statistik-dresden.de/r-schulungen/professionelle-diagramme-mit-ggplot2">„Datenvisualisierung mit R und ggplot2“</a> und <a href="https://statistik-dresden.de/r-schulungen/workshop-einfuehrung-in-r-r-studio">„Einführung in R“</a> – letzterer ist der meistgebuchte Kurs.
Eine große Herausforderung besteht darin, Kurse aktuell zu halten. Einige Zeit lang hielt ich einen gut gebuchten Kurs „Machine Learning mit R“, der auch gute Feedbacks erhielt, jedoch auf dem älteren caret-Paket beruhte. Nach einer Weile, als die Paketsammlung tidymodels an Popularität gewann, gab ich den Machine Learning-Kurs auf. caret konnte ich nicht mehr guten Gewissens anbieten, während tidymodels so dynamisch weiterentwickelt wurde, dass ich in kurzen Abständen den Kurs hätte überarbeiten müssen; zudem führe ich keine eigenen Machine Learning-Projekte durch, sodass ich das Thema bis auf weiteres lieber Spezialisten überlasse.
Ähnlich wie mit caret und tidymodels ging es mir auch mit RMarkdown. Der Kurs zur Berichtserstellung mit R und Markdown war mit der Veröffentlichung von <a href="https://statistik-dresden.de/r-markdown-warum-ihr-jetzt-zu-quarto-wechseln-solltet/">Quarto</a> 2022 ebenfalls veraltet. Inzwischen habe ich den <a href="https://statistik-dresden.de/r-schulungen/ergebnisse-berichten-mit-r-reproduzierbare-workflows-dank-markdown">Kurs auf Quarto umgestellt</a>.
Den Einführungskurs habe ich mehrfach überarbeitet. Ich habe immer wieder über das Verhältnis zwischen Base R und <a href="https://statistik-dresden.de/archives/tag/tidyverse">tidyverse</a> nachgedacht. Ich stehe dazu, einige Base R-Funktionen zu zeigen. Die Indizierung mit eckigen Klammern etwa sollte jeder R-Anwender kennen. Inzwischen habe ich den Base R-Teil jedoch gekürzt und wechsele früher im Kurs zum <a href="https://statistik-dresden.de/archives/tag/tidyverse">tidyverse</a>; nach meiner Erfahrung ist das Seminar nun noch unterhaltsamer und motivierender.
Ein dreitägiger Fortgeschrittenenkurs wurde anfangs (2020, 2021) sehr regelmäßig gebucht, später kaum noch. Inzwischen habe ich ihn in Module aufgeteilt, die separat gebucht werden können:
<ul>
<li>Funktionales Programmieren mit R – mit einigen Besonderheiten, die R von anderen Programmiersprachen unterscheiden</li>
<li>Effiziente R-Programmierung – R-Code beschleunigen</li>
<li>Eigene R-Pakete entwickeln</li>
</ul>
<h2>Präsentationen: Weg von Powerpoint</h2>
2022 erstellte ich alle Präsentationen komplett neu: Endlich direkt in R, weg von Powerpoint, hin zu <a href="https://statistik-dresden.de/archives/tag/rmarkdown">RMarkdown</a> und dem <a href="https://statistik-dresden.de/archives/tag/xaringan">xaringan-Paket</a>. Inzwischen erstelle ich Präsentationen auch mit Quarto. Live im Seminar zeige ich HTML-Varianten, die gegenüber <a href="https://statistik-dresden.de/archives/tag/powerpoint">Powerpoint</a> den Vorteil interaktiver Elemente wie Grafiken mit Mouse-Over-Effekten (etwa mit <a href="https://statistik-dresden.de/archives/tag/plotly">plotly</a>, highcharter, leaflet anderen HTML-Widgets) oder sortier- und filterbare Datensätze (mit DT::datatable, nicht zu verwechseln mit dem data.table-Paket) bieten.
Nun kann ich einfacher zwischen verschiedenen Stilen (etwa für verschiedene Schulungsanbieter oder bei Direktbuchungen) wechseln, ohne Folien manuell nachzubearbeiten. Weiterer Vorteil: Dank R-Code kann ich Folien leichter aktuell halten. Beispiel: Beim Einsteigerkurs wird auf einer Folie meine R-Version angezeigt. In Powerpoint musste ich hier manuell aktualisieren – nun ist es ein R-Befehl, der die aktuelle Version beim Erstellen der Präsentation einträgt. Auch Beispiele für Datums- und Zeitfunktionen können das aktuelle Datum verwenden und sind dann nicht versehentlich zu veraltet.
<h2>6 Jahre R-Kurse in Zahlen</h2>
In den 6 Jahren konnte ich viele Erfahrungen sammeln. In Zahlen:
<ul>
<li>Einführung in R: über 30x gehalten; mehrfach überarbeitet</li>
<li>Datenvisualisierung mit R und ggplot2: über 10x gehalten</li>
<li>Machine Learning und Data Mining mit R: ca. 8x gehalten</li>
<li>R-Programmierung für Fortgeschrittene (3 Tage): ca. 12x gehalten</li>
<li>Ergebnisse berichten mit R: ca. 6x als Spezialseminar gehalten; Thema ist Bestandteil der Einführungs- und vieler Fortgeschrittenenkurse mit variabler Detailtiefe; umgestellt auf Quarto</li>
<li>Shiny – Interaktive Webapplikationen mit R: 2x gehalten (seit 2023)</li>
<li>Datenvisualisierung mit R für Fortgeschrittene: 2x gehalten (seit 2023)</li>
</ul>
Mit etlichen sehr kundenspezifischen inhouse-Schulungen komme ich inzwischen insgesamt auf über 100 R-Seminare, die Mehrheit davon mehrtägig.
<h2>Weitere Pläne</h2>
Ich wende sehr viel Zeit auf, um bei R am Ball zu bleiben, insbesondere durch die Lektüre von Newslettern: <a href="https://www.r-bloggers.com/">RBloggers</a> und <a href="https://rweekly.org/">RWeekly</a>. R macht mir nach wie vor viel Spaß und ich erhalte sehr positive Feedbacks. Jedoch kann ich mir auch gut vorstellen, Themen anzubieten, die etwas länger haltbar sind. Daher arbeite ich an software-unabhängigen Schulungen zur Datenkompetenz. Bisher gibt es eine, wie ich hoffe, recht kurzweilige halbtägige Schulung <a href="https://www.it-trainingshaus.de/kursprogramm/detailansicht/P31020/">„Statistik entzaubert“</a>. Das möchte ich ergänzen mit einem software-unabhängigen Workshop zur Datenvisualisierung, etwa mit „Lernen aus schlechten Beispielen“ und Tipps und Tricks zum Storytelling mit Daten.
Stay tuned!The post <a href="https://statistik-dresden.de/6-jahre-r-seminare-r-kurse-r-workshops-erfahrungsbericht/">6 Jahre R-Seminare / R-Kurse / R-Workshops: Erfahrungsbericht</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></content:encoded>
<wfw:commentRss>https://statistik-dresden.de/6-jahre-r-seminare-r-kurse-r-workshops-erfahrungsbericht/feed/</wfw:commentRss>
<slash:comments>0</slash:comments>
<post-id xmlns="com-wordpress:feed-additions:1">18128</post-id> </item>
<item>
<title>Datenvisualisierung: Fundamentals of Data Visualization von Claus O. Wilke</title>
<link>https://statistik-dresden.de/datenvisualisierung-fundamentals-of-data-visualization-von-claus-o-wilke/</link>
<comments>https://statistik-dresden.de/datenvisualisierung-fundamentals-of-data-visualization-von-claus-o-wilke/#comments</comments>
<dc:creator><![CDATA[Wolf Riepl]]></dc:creator>
<pubDate>Fri, 26 May 2023 12:41:56 +0000</pubDate>
<category><![CDATA[R-Programmierung]]></category>
<category><![CDATA[Claus Wilke]]></category>
<category><![CDATA[Datenvisualisierung]]></category>
<category><![CDATA[Garrett Grolemund]]></category>
<category><![CDATA[ggplot2]]></category>
<category><![CDATA[Grammatik der grafischen Darstellung]]></category>
<category><![CDATA[Hadley Wickham]]></category>
<category><![CDATA[Jenny Bryan]]></category>
<category><![CDATA[Overplotting]]></category>
<guid isPermaLink="false">https://statistik-dresden.de/?p=18017</guid>
<description><![CDATA[2019 legte Claus O. Wilke mit Fundamentals of Data Visualization ein sehr lesenswertes Buch über Datenvisualisierung vor, das einige Vorzüge gegenüber vergleichbaren Werken bietet: Wer es gerne physisch in Papierform in der Hand hält, kann es selbstverständlich käuflich erwerben. Es steht jedoch auch kostenlos online im Volltext zur Verfügung. Damit folgt es dem Beispiel von … <a href="https://statistik-dresden.de/datenvisualisierung-fundamentals-of-data-visualization-von-claus-o-wilke/" class="more-link">„Datenvisualisierung: Fundamentals of Data Visualization von Claus O. Wilke“ weiterlesen</a>
The post <a href="https://statistik-dresden.de/datenvisualisierung-fundamentals-of-data-visualization-von-claus-o-wilke/">Datenvisualisierung: Fundamentals of Data Visualization von Claus O. Wilke</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></description>
<content:encoded><![CDATA[2019 legte Claus O. Wilke mit Fundamentals of Data Visualization ein sehr lesenswertes Buch über Datenvisualisierung vor, das einige Vorzüge gegenüber vergleichbaren Werken bietet:
<a href="https://clauswilke.com/dataviz/"><img loading="lazy" decoding="async" class="alignright wp-image-18019 size-medium" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/05/Wilke-Dataviz-cover.jpg?resize=229%2C300&ssl=1" alt="Fundamentals of Data Visualization von Claus Wilke: Buchcover" width="229" height="300" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/05/Wilke-Dataviz-cover.jpg?resize=229%2C300&ssl=1 229w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/05/Wilke-Dataviz-cover.jpg?resize=780%2C1024&ssl=1 780w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/05/Wilke-Dataviz-cover.jpg?resize=768%2C1008&ssl=1 768w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/05/Wilke-Dataviz-cover.jpg?resize=1171%2C1536&ssl=1 1171w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/05/Wilke-Dataviz-cover.jpg?resize=1561%2C2048&ssl=1 1561w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/05/Wilke-Dataviz-cover.jpg?resize=1200%2C1575&ssl=1 1200w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/05/Wilke-Dataviz-cover.jpg?w=1951&ssl=1 1951w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/05/Wilke-Dataviz-cover.jpg?w=1680&ssl=1 1680w" sizes="(max-width: 229px) 85vw, 229px" data-recalc-dims="1" /></a>
<ul>
<li>Wer es gerne physisch in Papierform in der Hand hält, kann es selbstverständlich käuflich erwerben. Es steht jedoch auch <a href="https://clauswilke.com/dataviz/">kostenlos online im Volltext</a> zur Verfügung. Damit folgt es dem Beispiel von Büchern aus dem RStudio / Posit-Umfeld wie <a href="https://r4ds.hadley.nz/">R for Data Science </a>(<a href="https://statistik-dresden.de/archives/tag/hadley-wickham">Hadley Wickham</a> / <a href="https://statistik-dresden.de/archives/tag/garrett-grolemund">Garrett Grolemund</a>), <a href="https://adv-r.hadley.nz/">Advanced R</a> (Wickham), <a href="https://rstudio-education.github.io/hopr/">Hands-On Programming with R</a> (Grolemund), <a href="https://ggplot2-book.org/">ggplot2: Elegant Graphics for Data Analysis</a> (Wickham), <a href="https://r-pkgs.org/">R Packages </a>(Wickham / <a href="https://statistik-dresden.de/archives/tag/jenny-bryan">Jenny Bryan</a>), oder <a href="https://happygitwithr.com/">Happy Git and GitHub for the UseR</a> (Jenny Bryan).</li>
<li>Es schafft den seltenen Spagat, einerseits software-unabhängig und somit breit nutzbar zu sein, andererseits legt der Autor Wert auf Reproduzierbarkeit von Grafiken. Alle Grafiken im Buch wurden mit <a href="https://statistik-dresden.de/archives/tag/ggplot2">R und ggplot2</a> erstellt, das Buch enthält zwar keinen R-Code, <a href="https://github.com/clauswilke/dataviz">der Quellcode steht jedoch auf Github zur Verfügung</a>. Ein tolles Beispiel für gelebtes Open Source!</li>
</ul>
<h2>Über den Autor: Claus Wilke</h2>
Claus Wilke war bereits vor Veröffentlichung dieses oft zitierten Buches in der R Community bekannt, vor allem als Entwickler von R-Paketen wie <a href="https://github.com/wilkelab/cowplot">cowplot</a> (zur Anordnung mehrerer Diagramme; der Name bezieht sich nicht auf Kuh, sondern auf die Anfangsbuchstaben von Claus O. Wilke; es war zunächst zum internen Gebrauch gedacht; heute dürfte Thomas Pedersen’s patchwork bekannter sein); <a href="https://github.com/wilkelab/ggridges">ggridges</a> für sog. Ridge- bzw. Ridgeline-Plots, sowie <a href="https://github.com/wilkelab/ggtext">ggtext</a> für verbesserte, flexiblere Text-Darstellung in <a href="https://statistik-dresden.de/archives/tag/ggplot2">ggplot2-Diagrammen</a>, u. a. mit der Möglichkeit, Bilder oder Markdown-Formatierungen zur Achsenbeschriftung einzubeziehen. Claus Wilke arbeitet an der University of Texas at Austin.
<h2>Arten von Visualisierungen in Fundamentals of Data Visualization</h2>
Bevor es an konkrete Diagrammbeispiele und -typen geht, legt Claus Wilke einige Grundlagen der Datenvisualisierung dar, die sich an der Grammatik der grafischen Darstellung (Grammar of Graphics) orientieren, wie sie von <a href="https://link.springer.com/book/10.1007/0-387-28695-0">Leland Wilkinson</a> beschrieben wurde:
<ul>
<li>die Zuordnung von Daten zu Ästhetiken</li>
<li>Koordinatensysteme und Achsen</li>
<li>Zur Verwendung von Farbskalen</li>
</ul>
Zum Aufbau von Grafiken in Schichten in der Grammatik der grafischen Darstellung vergleiche die Beiträge <a href="https://statistik-dresden.de/ggplot2-einfuehrung-in-die-drei-basisschichten-daten-aesthetiken-geometrien/">ggplot2: Einführung in die drei Basisschichten – Daten, Ästhetiken, Geometrien</a> sowie <a href="https://statistik-dresden.de/ggplot2-die-4-fortgeschrittenen-schichten/">ggplot2: Die vier fortgeschrittenen Schichten</a>.
Das sehr gut strukturierte Werk gibt zunächst einen Überblick über Arten von Visualisierungen, bevor es tiefer ins Detail geht:
<ul>
<li>Darstellung von Häufigkeiten</li>
<li>Verteilungen: Histogramme, Dichte-Diagramme, Q-Q-Plots, viele Verteilungen auf einmal visualisieren</li>
<li>Verhältnisse und geschachtelte / genistete Verhältnisse (nested proportions)</li>
<li>Zusammenhänge zwischen zwei oder mehr quantitativen Variablen</li>
<li>Zeitreihen und andere Funktionen einer unabhängigen Variable</li>
<li>Darstellung von Trends</li>
<li>Geodaten</li>
<li>Darstellung von Unsicherheit</li>
</ul>
<h2>Designprinzipien in Fundamentals of Data Visualization</h2>
Nach diesen konkreten Diagrammarten geht es um einige Designprinzipien, unter anderem:
<ul>
<li>proportional ink – „proportionale Tinte“: Die Größen schattierter Flächen müssen proportional zu den Datenwerten sein, die sie repräsentieren</li>
<li>Umgang mit overplotting – überlappenden Datenpunkten, z. B. jitter (leichte zufällige Verschiebung von Datenpunkten) und partielle Transparenz</li>
<li>Fallen beim Umgang mit Farbe</li>
<li>redundante Codierung (redundant coding): Informationen mit mehreren Ästhetiken abbilden, um die Lesbarkeit zu erleichtern</li>
<li>gute Balance finden zwischen Daten und Kontext</li>
</ul>
<h2>Was mir gut an Fundamentals of Data Visualization gefällt</h2>
<ul>
<li>Die Einteilung von missglückten Visualisierungen in hässlich (ugly), schlecht (bad) und falsch (wrong) finde ich sehr hilfreich. Man kann viel aus schlechten (im weiteren Sinne) Beispielen lernen – es tut gut, nicht nur „Bilderbuch-Beispiele“ zu sehen.</li>
<li>Dass 3D-Grafiken oft problematisch sein können, war mir bewusst. Claus Wilkes Beispiele dafür fand ich besonders anschaulich: Tortendiagramme aus verschiedenen 3D-Perspektiven, die die gleichen Daten darstellen, aber unterschiedliche optische Eindrücke hervorrufen.</li>
<li>Sehr hilfreich sind auch die klaren Richtlinien, wie Tabellen aussehen sollten. Bemerkenswert dabei ist, dass sie in der Praxis sehr häufig missachtet werden – oft deshalb, weil Software wie Microsoft Word Voreinstellungen enthält, die Design-Prinzipien verletzen.</li>
<li>Hilfreich auch die Abschnitte zu gängigen Dateiformaten für Grafiken mit ihren Eigenschaften und Vor- und Nachteilen sowie die gut kommentierte und gegliederte Literaturauswahl.</li>
</ul>
<h2>Fazit zu Fundamentals of Data Visualization</h2>
Ein sehr lesenswertes Buch, auch als Nachschlagewerk. Besonders nützlich dadurch, dass es nicht an eine bestimmte Software gebunden ist; dennoch ist der <a href="https://github.com/clauswilke/dataviz">R-Code für die ggplot2-Grafiken via github zugänglich</a>. Klare Empfehlung, zumal man mit dem <a href="https://clauswilke.com/dataviz/">kostenlosen Online-Zugang zum Volltext</a> kein Risiko eingeht!
Ergänzt sich bestens mit dem ebenfalls sehr empfehlenswerten Werk Storytelling with Data von Cole Nussbaumer Knaflic.
<a href="https://amzn.to/4aW3pse">Fundamentals of Data Visualization: Claus Wilke</a>
<a href="https://amzn.to/4216SBU">Storytelling mit Daten: Die Grundlagen der effektiven Kommunikation und Visualisierung mit Daten: Nussbaumer Knaflic</a>The post <a href="https://statistik-dresden.de/datenvisualisierung-fundamentals-of-data-visualization-von-claus-o-wilke/">Datenvisualisierung: Fundamentals of Data Visualization von Claus O. Wilke</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></content:encoded>
<wfw:commentRss>https://statistik-dresden.de/datenvisualisierung-fundamentals-of-data-visualization-von-claus-o-wilke/feed/</wfw:commentRss>
<slash:comments>1</slash:comments>
<post-id xmlns="com-wordpress:feed-additions:1">18017</post-id> </item>
<item>
<title>R Markdown: Warum Ihr JETZT zu Quarto wechseln solltet</title>
<link>https://statistik-dresden.de/r-markdown-warum-ihr-jetzt-zu-quarto-wechseln-solltet/</link>
<comments>https://statistik-dresden.de/r-markdown-warum-ihr-jetzt-zu-quarto-wechseln-solltet/#comments</comments>
<dc:creator><![CDATA[Wolf Riepl]]></dc:creator>
<pubDate>Tue, 24 Jan 2023 10:27:11 +0000</pubDate>
<category><![CDATA[Praxisbeispiel]]></category>
<category><![CDATA[R-Programmierung]]></category>
<category><![CDATA[blogdown]]></category>
<category><![CDATA[bookdown]]></category>
<category><![CDATA[knitr]]></category>
<category><![CDATA[Markdown]]></category>
<category><![CDATA[Powerpoint]]></category>
<category><![CDATA[quarto]]></category>
<category><![CDATA[rmarkdown]]></category>
<category><![CDATA[RStudio]]></category>
<category><![CDATA[xaringan]]></category>
<category><![CDATA[YAML]]></category>
<category><![CDATA[Yihui Xie]]></category>
<guid isPermaLink="false">https://statistik-dresden.de/?p=17921</guid>
<description><![CDATA[Zugegeben: Der Titel ist ein wenig provokativ. Wer über etablierte Projekte verfügt, in denen Markdown-Dokumente erstellt werden, muss nicht sofort alles über Bord werfen – der Code wird weiterhin funktionieren. Doch es gibt mehrere sehr gute Gründe, zu Quarto zu wechseln – besser jetzt als später. Doch zunächst etwas Hintergrund: Was haben Quarto und R … <a href="https://statistik-dresden.de/r-markdown-warum-ihr-jetzt-zu-quarto-wechseln-solltet/" class="more-link">„R Markdown: Warum Ihr JETZT zu Quarto wechseln solltet“ weiterlesen</a>
The post <a href="https://statistik-dresden.de/r-markdown-warum-ihr-jetzt-zu-quarto-wechseln-solltet/">R Markdown: Warum Ihr JETZT zu Quarto wechseln solltet</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></description>
<content:encoded><![CDATA[Zugegeben: Der Titel ist ein wenig provokativ. Wer über etablierte Projekte verfügt, in denen Markdown-Dokumente erstellt werden, muss nicht sofort alles über Bord werfen – der Code wird weiterhin funktionieren. Doch es gibt mehrere sehr gute Gründe, zu Quarto zu wechseln – besser jetzt als später. Doch zunächst etwas Hintergrund: Was haben Quarto und R Markdown gemeinsam, wo unterscheiden sie sich?
<div class="jetpack-video-wrapper"><iframe loading="lazy" class="youtube-player" width="840" height="473" src="https://www.youtube.com/embed/mGNW8jl7RMc?version=3&rel=1&showsearch=0&showinfo=1&iv_load_policy=1&fs=1&hl=de-DE&autohide=2&wmode=transparent" allowfullscreen="true" style="border:0;" sandbox="allow-scripts allow-same-origin allow-popups allow-presentation allow-popups-to-escape-sandbox"></iframe></div>
<h2>Quarto vs. R Markdown: Vom Ausgangspunkt zum finalen Dokument</h2>
<figure id="attachment_17923" aria-describedby="caption-attachment-17923" style="width: 840px" class="wp-caption aligncenter"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/qmd-how-it-works.png?ssl=1"><img loading="lazy" decoding="async" class="size-large wp-image-17923" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/qmd-how-it-works.png?resize=840%2C154&ssl=1" alt="Von Quarto (.qmd) zum finalen Bericht: Präsentation, Word, PDF, ..." width="840" height="154" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/qmd-how-it-works.png?resize=1024%2C188&ssl=1 1024w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/qmd-how-it-works.png?resize=300%2C55&ssl=1 300w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/qmd-how-it-works.png?resize=768%2C141&ssl=1 768w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/qmd-how-it-works.png?resize=1200%2C220&ssl=1 1200w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/qmd-how-it-works.png?w=1400&ssl=1 1400w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 1362px) 62vw, 840px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17923" class="wp-caption-text">Von Quarto (.qmd) zum finalen Bericht: Präsentation, Word, PDF, …</figcaption></figure>
Die automatisierte Berichtserstellung aus R heraus, sei es mit R Markdown oder Quarto, umfasst mehrere Schritte. Der Ablauf vom „Roh-Dokument“ zum fertigen Bericht – je nach Wunsch eine Präsentation in einem von mehreren HTML-Formaten oder Powerpoint, ein PDF oder Word-Dokument – ist prinzipiell der gleiche. Neu ist lediglich das Dateiformat: Es beginnt mit dem Quarto-typischen .qmd anstatt dem bisher in R üblichen .Rmd. Wer in R arbeitet, wird in beiden Fällen im Hintergrund auf knitr zugreifen, das eine .md-Datei erstellt. (Wir sehen weiter unten, dass auch andere Engines an die Stelle von knitr treten können.) Diese wiederum wird pandoc übergeben, um das finale Dokument zu erstellen.
<h2>Quarto vs. R Markdown: Unterschiede</h2>
R Markdown basiert auf dem R-Paket rmarkdown von JJ Allaire, <a href="https://statistik-dresden.de/datenanalysen-praesentieren-warum-ich-nicht-powerpoint-verwende/">Yihui Xie</a> und vielen anderen. D. h. es ist an R gebunden, es gibt keine direkte Verbindung zu anderen Markdown-Varianten.
Quarto dagegen ist eine eigenständige Software. Es gibt zwar ein R-Paket quarto, dieses ist jedoch optional und bildet lediglich eine Brücke zum Kommandozeilen-Interface, das Quarto im Kern ist (CLI, Command Line Interface). Quarto muss separat heruntergeladen und installiert werden. Anlaufpunkt ist die <a href="https://quarto.org/docs/get-started/">Quarto-Webseite</a>. Da Quarto vom <a href="https://statistik-dresden.de/aus-rstudio-wurde-posit/">RStudio / Posit-Team</a> entwickelt wurde und wird, dürfte es nicht überraschen, dass die Software sehr gut in die <a href="https://statistik-dresden.de/archives/tag/rstudio">RStudio-Oberfläche</a> eingebunden ist.
<h2>Warum von R Markdown zu Quarto wechseln?</h2>
Warum also wechseln? Aus meiner Sicht gibt es drei wesentliche Gründe:
<ol>
<li>Quarto enthält „von Haus aus“ Leistungsmerkmale, die in R Markdown nur über Erweiterungspakete zur Verfügung stehen.</li>
<li>Quarto ist per Design offen für verschiedene Programmiersprachen und für verschiedene Engines, d. h. Software-Bausteine, die Markdown verarbeiten.</li>
<li>Es ist einfach, umzusteigen – in den meisten Fällen dürfte sich das früher oder später angesichts der klaren Vorteile auszahlen. Die Wechselkosten sind gering – da es sich um frei verfügbare Software handelt, geht es „nur“ um ein wenig Zeit.</li>
</ol>
Ein paar Details zu den Wechselgründen:
<h2>1. Quartos fest integrierte Leistungsmerkmale</h2>
In R Markdown benötigt man für verschiedene Aufgaben Erweiterungspakete, zum Beispiel:
<ul>
<li>bookdown, um Bücher aus R heraus zu schreiben</li>
<li>blogdown, um Blogs aus R heraus zu schreiben</li>
<li>distill für wissenschaftliche Publikationen</li>
<li>xaringan für Präsentationen (es gibt andere Präsentationsformate – mein Favorit wurde 2022 xaringan, das vor Quarto auch das präferierte Format von Yihui Xie war)</li>
<li>Um Querverweise zu verwenden, benötigte man ein bookdown-Format, wie z. B. htmldocument2 statt htmldocument</li>
</ul>
Es war spannend zu sehen, wie das RMarkdown-Ökosystem über wenige Jahre wuchs und immer mehr coole Anwendungen ermöglichte. Nachteil dieser Entwicklung war eine gewisse Uneinheitlichkeit.
Quarto bietet all diese Möglichkeiten „per se“, ohne auf Erweiterungen angewiesen zu sein. Auch wenn die Markdown-Landschaft von einem starken, professionellen Team mit langem Atem betreut wird, ist es gerade im Open-Source-Bereich immer eine gute Idee, Paket-Abhängigkeiten zu reduzieren.
<h2>2. Multiple Programmiersprachen, multiple Engines<a style="font-weight: bold; background-color: transparent; text-align: inherit;" href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/quarto-multi-language-njtierney.jpeg?ssl=1"><img loading="lazy" decoding="async" class="size-large wp-image-17925" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/quarto-multi-language-njtierney.jpeg?resize=840%2C473&ssl=1" alt="" width="840" height="473" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/quarto-multi-language-njtierney.jpeg?resize=1024%2C576&ssl=1 1024w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/quarto-multi-language-njtierney.jpeg?resize=300%2C169&ssl=1 300w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/quarto-multi-language-njtierney.jpeg?resize=768%2C432&ssl=1 768w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/quarto-multi-language-njtierney.jpeg?resize=1536%2C864&ssl=1 1536w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/quarto-multi-language-njtierney.jpeg?resize=1200%2C675&ssl=1 1200w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/quarto-multi-language-njtierney.jpeg?w=1920&ssl=1 1920w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2023/01/quarto-multi-language-njtierney.jpeg?w=1680&ssl=1 1680w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 1362px) 62vw, 840px" data-recalc-dims="1" /></a></h2>
Quarto unterstützt verschiedene Programmiersprachen und Engines. 
Quelle: <a style="font-size: 13px; font-style: italic; background-color: transparent; text-align: inherit;" href="https://www.njtierney.com/post/2022/04/11/rmd-to-qmd/">Nick Tierney, Notes on Changing from Rmarkdown/Bookdown to Quarto</a>
Quarto bringt, anders als R Markdown, keine R-Abhängigkeit mit sich. Nach allem, was ich in der R Community darüber gelesen und gehört habe, ist die Wahrscheinlichkeit sehr hoch, dass Quarto zum neuen Standard wird – wenn das nicht sogar schon geschehen ist. Wer mit R arbeitet, wird mit gewisser Wahrscheinlichkeit früher oder später mit Kollegen oder Projektpartnern in Kontakt kommen, die mit anderen Programmiersprachen arbeiten. Quarto senkt die Hürde der Zusammenarbeit und kann einfacher von anderen Sprachen aus genutzt werden, ohne R. Auch RStudio ist keine Bedingung: Quarto unterstützt auch andere Code-Editoren (IDEs, Integrated Development Environments), z. B. JupyterLab, VS Code.
Aktuell unterstützte Programmiersprachen:
<ul>
<li>R</li>
<li>Python</li>
<li>Javascript</li>
<li>Julia</li>
</ul>
Zudem ist Quarto so offen konzipiert, dass es per Design auch mit Sprachen kooperieren kann, die es heute noch gar nicht gibt. In diesem Sinne ist es eine zukunftssicherere Wahl als R Markdown.
Aktuell unterstützte Engines:
<ul>
<li>knitr</li>
<li>Jupyter</li>
<li>Observable</li>
</ul>
<h2>3. Der Umstieg ist einfach</h2>
Die meisten Markdown-Dokumente und Jupyter-Notebooks sollten ohne Änderungen von Quarto gerendert werden. Je nach Ausgabeformat können jedoch Anpassungen erforderlich sein – etwa bei komplexeren Strukturen wie Blogs oder Büchern. Ein Vorteil des Umstiegs auf Quarto besteht in mehr Einheitlichkeit:
<ul>
<li>Einfacherer Wechsel zwischen Ausgabeformaten, z. B. von Buch zu Webseite oder Präsentationsfolien</li>
<li>YAML-Dateien: In Markdown z. B. _bookdown.yml, _output.yml; 
in Quarto: nur eine _quarto.yml 
YAML = Yet Another Markup Language: Auszeichnungssprache für Meta-Informationen, z. B. Titel, Autor, Datum, Institution; im YAML-Kopfbereich können auch Einstellungen vorgenommen werden wie z. B. ob Codeblöcke im finalen Dokument angezeigt werden sollen</li>
</ul>
<h2>Meine Erfahrungen bis jetzt</h2>
Erst 2022 überarbeitete ich Powerpoint-Material und übertrug es in RMarkdown / xaringan. Zuerst war ich nicht so glücklich, dass es nun schon wieder ein neues Format gibt. Jedoch ist der Wechsel von xaringan zu Quarto ein Kindergeburtstag im Vergleich zum Schritt von Powerpoint zu xaringan. Präsentationen werden nun von der Javascript-Bibliothek reveal.js unterstützt – bei xaringan war es remark.js.
Quarto bietet flexiblere Layouts. Beispiel: Zwei oder mehr Spalten. Zum Einstellen der Spaltenbreiten musste ich in xaringan die .css-Datei anpassen und eine css-Klasse bearbeiten oder erstellen. In Quarto mit revealjs genügt die Schreibweise mit den drei Doppelpunkten, um ein <div>-Tag anzulegen:
::: {.column width=“65%“}
Weiterer Vorteil von Quarto: Tabsets funktionieren gleichermaßen in verschiedenen html-Formaten. Allerdings sind sie ungünstig, wenn man – wie ich – eine HTML-Präsentation auch im PDF-Format weitergeben möchte. (Warum ich HTML für Präsentationen bevorzuge, erläutere ich <a href="https://statistik-dresden.de/datenanalysen-praesentieren-warum-ich-nicht-powerpoint-verwende/">in diesem Blogbeitrag</a>.)
Zudem ist es in Quarto einfacher, globale Chunk-Optionen einzustellen. Kennen Sie die etwas umständliche, unintuitive Schreibweise in RMarkdown?
knitr::opts_chunk$set(echo = FALSE) besagt, dass Codeblöcke nicht angezeigt werden sollen.
In Quarto kann man dagegen im YAML-Header schreiben:
execute: 
 echo: false
Wer, etwa zu Unterrichtszwecken, Codeblöcke inklusive der Chunk-Optionen anzeigen möchte, kann in Quarto einfach schreiben:
echo: fenced
Weiteres Argument pro Quarto: Das RStudio/Posit-Team hat zwar versprochen, R Markdown und die damit verbundenen Formate und Pakete weiter zu betreuen. Dieses Versprechen schließt jedoch ausdrücklich nicht ein, dass neue Leistungsmerkmale parallel sowohl für RMarkdown als auch Quarto entwickelt werden. Auch in diesem Sinne ist Quarto also zukunftssicherer als RMarkdown.
<h2>Weitere Informationen</h2>
Zum Abschluss etwas Material, das mir bei diesem Artikel geholfen hat:
<ul>
<li>Zentrale Anlaufstelle für die Dokumentation: <a href="https://quarto.org/">https://quarto.org/</a></li>
<li>Wo ich zuerst von Quarto erfuhr: 
Alison Hill: <a href="https://www.apreshill.com/blog/2022-04-we-dont-talk-about-quarto/">We don’t talk about Quarto – Until Now!</a></li>
<li>
<div class="slides">
<section id="resources" class="slide level2 present">
<ul>
<li>jumping rivers: <a href="https://www.jumpingrivers.com/blog/quarto-rmarkdown-comparison/">I’m an R user: Quarto or R Markdown?</a></li>
<li>Nick Tierney: <a href="https://www.njtierney.com/post/2022/04/11/rmd-to-qmd/">Notes on Changing from Rmarkdown/Bookdown to Quarto</a></li>
<li>Jim Hester: <a href="https://speakerdeck.com/jimhester/it-depends">it depends</a> 
Diese Folien stammen aus der Zeit vor Quarto und gehen nicht auf Quarto ein. Ich erwähne sie, um zu unterstreichen, wie gut es ist, Paket-Abhängigkeiten zu reduzieren.</li>
</ul>
</section>
<section id="thanks" class="slide level2 future" hidden="" aria-hidden="true">
<h2>Thanks!</h2>
<h3 id="youtube-statistikindd">Youtube: StatistikinDD</h3>
<h3 id="twitter-statistikindd">Twitter: @StatistikinDD</h3>
<h3 id="github-fjodor">github: fjodor</h3>
<h3 id="presentation-created-using">Presentation created using</h3>
</section>
</div>
<div class="slide-menu-button">Und jetzt bin ich gespannt auf Eure Erfahrungen! Habt Ihr schon gewechselt? Wenn nein, warum nicht? Wenn ja, wie lief der Umstieg?</div>
</li>
</ul>
Viel Erfolg mit Euren R-Projekten!
P. S. Im <a href="https://statistik-dresden.de/r-schulungen/workshop-einfuehrung-in-r-r-studio">R-Einführungskurs</a> habe ich bereits das Markdown-Kapitel auf Quarto umgestellt. Der separate Workshop „Berichte erstellen mit R“ wird seltener gebucht – hier bin ich noch dran. Bei der nächsten Buchung wird er auf Quarto getrimmt sein.The post <a href="https://statistik-dresden.de/r-markdown-warum-ihr-jetzt-zu-quarto-wechseln-solltet/">R Markdown: Warum Ihr JETZT zu Quarto wechseln solltet</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></content:encoded>
<wfw:commentRss>https://statistik-dresden.de/r-markdown-warum-ihr-jetzt-zu-quarto-wechseln-solltet/feed/</wfw:commentRss>
<slash:comments>1</slash:comments>
<post-id xmlns="com-wordpress:feed-additions:1">17921</post-id> </item>
<item>
<title>Warum Du parallel::detectCores() in R NICHT verwenden solltest</title>
<link>https://statistik-dresden.de/warum-du-paralleldetectcores-in-r-nicht-verwenden-solltest/</link>
<comments>https://statistik-dresden.de/warum-du-paralleldetectcores-in-r-nicht-verwenden-solltest/#respond</comments>
<dc:creator><![CDATA[Wolf Riepl]]></dc:creator>
<pubDate>Wed, 21 Dec 2022 14:36:49 +0000</pubDate>
<category><![CDATA[Praxisbeispiel]]></category>
<category><![CDATA[R-Programmierung]]></category>
<category><![CDATA[future]]></category>
<category><![CDATA[Henrik Bengtsson]]></category>
<category><![CDATA[parallel]]></category>
<category><![CDATA[Parallelisierung]]></category>
<category><![CDATA[parallelly]]></category>
<guid isPermaLink="false">https://statistik-dresden.de/?p=17893</guid>
<description><![CDATA[parallel::detectCores() zur Parallelisierung von R-Code ist populär, kann aber Probleme verursachen. Besser: parallelly::availableCores().
The post <a href="https://statistik-dresden.de/warum-du-paralleldetectcores-in-r-nicht-verwenden-solltest/">Warum Du parallel::detectCores() in R NICHT verwenden solltest</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></description>
<content:encoded><![CDATA[Die Funktion detectCores() aus dem Base R-Paket parallel ist sehr populär, wenn man R-Code von mehreren Prozessorkernen oder Arbeitern gleichzeitig ausführen lassen möchte. Ich habe sie selbst häufig genutzt, auch in <a href="https://youtube.com/playlist?list=PL4ZUlAlk7QidhS8XsVqnwGnJMMEdC5Qlp">Youtube-Videos</a>, und in Workshops unterrichtet.
Leider kann detectCores() einige unerwünschte Effekte nach sich ziehen. Glücklicherweise gibt es eine bessere Alternative:
parallelly::availableCores()
parallelly ist ein R-Paket von <a href="https://github.com/HenrikBengtsson">Henrik Bengtsson</a>, das nicht zu Base R gehört und somit separat installiert werden muss.
<div class="jetpack-video-wrapper"><iframe loading="lazy" class="youtube-player" width="840" height="473" src="https://www.youtube.com/embed/EYpuUKsGqPQ?version=3&rel=1&showsearch=0&showinfo=1&iv_load_policy=1&fs=1&hl=de-DE&autohide=2&wmode=transparent" allowfullscreen="true" style="border:0;" sandbox="allow-scripts allow-same-origin allow-popups allow-presentation allow-popups-to-escape-sandbox"></iframe></div>
<h2>Was kann mit detectCores() schief gehen?</h2>
detectCores() kann folgende unerwünschte Ergebnisse liefern:
<ol>
<li>einen Fehlwert;</li>
<li>den Wert 1: das ist problematisch, wenn man durch Subtraktion von 1 einen Kern für das Betriebssystem reservieren möchte;</li>
<li>zu viele Kerne</li>
<li>nicht die Anzahl „erlaubter“ Kerne – Details weiter unten</li>
</ol>
<h2>Parallelisierung in R: Dank an Henrik Bengtsson</h2>
R-Code parallel auf mehreren Kernen oder Arbeitern auszuführen, ist eng mit dem Namen <a href="https://statistik-dresden.de/archives/tag/henrik-bengtsson">Henrik Bengtsson</a> verbunden. Dieser Artikel basiert auf einem englischsprachigen Blogeintrag von Henrik: 
<a href="https://www.jottr.org/2022/12/05/avoid-detectcores/">Please avoid detectCores() in your R Packages</a>
Mehr von ihm:
<ul>
<li>Webseiten: 
<a href="https://jottr.org">https://jottr.org</a> 
<a href="https://futureverse.org">https://futureverse.org</a></li>
<li>Github: <a href="https://github.com/HenrikBengtsson">https://github.com/HenrikBengtsson</a></li>
<li>Twitter-Profil: <a href="https://twitter.com/henrikbengtsson">https://twitter.com/henrikbengtsson</a></li>
</ul>
R-Pakete von Henrik Bengtsson (unvollständige Auswahl):
<table style="border-collapse: collapse; width: 100%;" border="1">
<tbody>
<tr style="height: 28px;">
<td style="width: 34.5%; height: 28px;">Paket</td>
<td style="width: 65.5%; height: 28px;">Beschreibung</td>
</tr>
<tr style="height: 56px;">
<td style="width: 34.5%; height: 56px;">future</td>
<td style="width: 65.5%; height: 56px;">einheitliche Schnittstelle zu paralleler und verteilter Ausführung von R-Code</td>
</tr>
<tr style="height: 56px;">
<td style="width: 34.5%; height: 56px;">future.apply</td>
<td style="width: 65.5%; height: 56px;">Apply-Funktionen auf Basis des future-Frameworks</td>
</tr>
<tr style="height: 84px;">
<td style="width: 34.5%; height: 84px;">progressr</td>
<td style="width: 65.5%; height: 84px;">einheitliche Schnittstelle für Fortschritts-Infos in R-Code; hier ein <a href="https://youtu.be/AsaCfw66nZM">Video über Fortschrittsbalken</a> sowie ein <a href="https://statistik-dresden.de/fortschrittsbalken-anzeigen-und-code-parallelisieren-in-r-progressr-und-future/">Blogbeitrag</a></td>
</tr>
<tr style="height: 56px;">
<td style="width: 34.5%; height: 56px;">matrixStats</td>
<td style="width: 65.5%; height: 56px;">Methoden, die auf Zeilen und Spalten von Matrizen anwendbar sind (auch Vektoren)</td>
</tr>
<tr style="height: 28px;">
<td style="width: 34.5%; height: 28px;">parallelly</td>
<td style="width: 65.5%; height: 28px;">Erweiterungen des parallel-Pakets</td>
</tr>
</tbody>
</table>
Für weitere R-Pakete siehe seine Profile, insbesondere github.
<h2>1. detectCores() kann einen Fehlwert zurückgeben</h2>
Siehe help(„detectCores“, package = „parallel“):
Value: An integer, NA if the answer is unknown
Beispiel:
<pre>ncores <- detectCores()
workers <- parallel::makeCluster(ncores)</pre>
Error in makePSOCKcluster(names = spec, …) : 
numeric ‘names’ must be >= 1
Lösung: parallelly::availableCores()
<figure id="attachment_17902" aria-describedby="caption-attachment-17902" style="width: 838px" class="wp-caption aligncenter"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/12/thumbnail_why-not-detectCores.png?ssl=1"><img loading="lazy" decoding="async" class="size-full wp-image-17902" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/12/thumbnail_why-not-detectCores.png?resize=838%2C321&ssl=1" alt="parallelly::availableCores() statt parallel::detectCores()" width="838" height="321" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/12/thumbnail_why-not-detectCores.png?w=838&ssl=1 838w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/12/thumbnail_why-not-detectCores.png?resize=300%2C115&ssl=1 300w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/12/thumbnail_why-not-detectCores.png?resize=768%2C294&ssl=1 768w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17902" class="wp-caption-text">parallelly::availableCores() statt parallel::detectCores()</figcaption></figure>
<h2>2. detectCores() kann den Wert 1 zurückgeben</h2>
Somit scheitert diese übliche Anwendung:
<pre>ncores <- detectCores() - 1L # kann 0 werden</pre>
Lösungen:
<pre># Minimum = 1
parallelly::availableCores()
# Einen Kern frei lassen (fürs Betriebssystem), wenn möglich
# Minimum = 1
parallelly::availableCores(omit = 1)</pre>
<h2>3. detectCores() kann zu viele Kerne zurückgeben</h2>
<ul>
<li>R hat ein Limit für die Anzahl an Verbindungen (connections), die gleichzeitig geöffnet sein können</li>
<li>Bei R-Version 4.2.2 liegt das theoretische Limit bei 125 Verbindungen</li>
<li>Das tatsächliche Limit kann darunter liegen, da Verbindungen eventuell anderweitig genutzt werden</li>
</ul>
Beispiel für eine Maschine mit 192 Kernen:
<pre>cl <- parallel::makeCluster(detectCores())</pre>
Error in socketAccept(socket = socket, blocking = TRUE, open = “a+b”) : all connections are in use
<pre>cl <- parallelly::makeClusterPSOCK(detectCores())</pre>
Error: Cannot create 192 parallel PSOCK nodes. Each node needs one connection, but there are only 124 connections left out of the maximum 128 available on this R installation
Somit funktioniert der bisher bewährte Code nicht mehr auf modernen, leistungsfähigen Maschinen.
Lösung:
<pre>parallelly::availableCores(constraints = "connections")</pre>
Zudem kann man eine R-Option setzen, um den maximalen Rückgabewert von availableCores() zu steuern:
parallelly.availableCores.system
Auch eine Umgebungsvariable steht dafür zur Verfügung:
R_PARALLELLY_AVAILABLECORES_SYSTEM
Zum Beispiel: R_PARALLELLY_AVAILABLECORES_SYSTEM=120
<h2>detectCores() ermittelt nicht die Anzahl „erlaubter“ Kerne</h2>
<h3>a) Auf einem Personal Computer (PC)</h3>
Als Entwickler wissen wir nicht, wie viele Kerne der Anwender einsetzen möchte. Es ist besser, den Anwender entscheiden zu lassen, wie viele Kerne für welchen Zweck arbeiten sollen.
Wenn man mehrere R-Sessions gleichzeitig startet, kann detectCores() zu einem Mehrfachen von 100% Auslastung führen, was schnell sehr ineffizient wird!
<h3>b) Auf einer von mehreren Anwendern genutzten Maschine</h3>
Wenn man „einfach“ (als Voreinstellung, default) alle Kerne einer Maschine nutzt, verlangsamt man alle Prozesse für alle Nutzer. Der Nutzer, der dies verursachte, mag sich dessen gar nicht bewusst sein. Vielleicht hat er nur unseren Code ausgeführt. Möglicherweise ist die Ursache schwer nachvollziehbar und kostet Nerven und Zeit von Administratoren und anderen Usern.
Lösung:
<pre>parallelly::availableCores()</pre>
Ein Nutzer oder Systemadministrator kann die voreingestellte Anzahl an CPU-Kernen mit einer Umgebungsvariable steuern:
R_PARALLELLY_AVAILABLECORES_FALLBACK
Beispiel: R_PARALLELLY_AVAILABLECORES_FALLBACK=2
<h3>c) Gemeinsam genutzter Compute Cluster mit vielen Maschinen</h3>
High Perfomance Computer Clusters (HPC) nutzen Job Schedulers.
Slurm-Beispiel (Slurm = Simple Linux Utility for Resource Management):
<pre>sbatch --cpus-per-task=48 --mem=256G run_my_rscript.sh</pre>
detectCores() respektiert diese Einstellung von Job Schedulers nicht.
Lösung:
<pre>parallelly::availableCores()</pre>
<ul>
<li>respektiert Umgebungsvariablen von üblichen HPC Job Schedulers</li>
<li>Beispiele:</li>
<li>Fujitsu Technical Computing Suite (PJM), Grid Engine (SGE), Load Sharing Facility (LSF), PBS/Torque, Simple Linux Utility for Resource Management (Slurm)</li>
</ul>
<h3>d) R-Code in CGroups in einem Linux Container</h3>
CGroups = control groups: Ein Prozess erhält eine bestimmte Anzahl Kerne zugewiesen. Beispiel:
<pre>docker run --cpuset-cpus=0-2,8 oder
docker run --cpu=3.4</pre>
detectCores() gibt die CPUs der Hardware zurück, nicht der cgroup!
Beispiel: 96 Kerne, 8 Kerne pro cgroup: Das bedeutet, dass 96 Arbeiter um die Ressourcen von 8 Kernen kämpfen. Das wird schnell sehr ineffizient.
Das kann auch in der <a href="https://posit.cloud/">Posit Cloud</a> (früher RStudio Cloud) passieren!
Lösung:
<pre>parallelly::availableCores()</pre>
<h2>Henrik Bengtssons Empfehlung</h2>
<ul>
<li>Der sicherste Weg ist, R-Code und insbesondere <a href="https://statistik-dresden.de/r-schulungen/eigene-r-pakete-entwickeln">R-Pakete</a> so zu gestalten, dass sie in der Voreinstellung Code sequentiell ausführen.</li>
<li>Der Anwender sollte entscheiden, wie viele Arbeiter ggf. parallel eingesetzt werden.</li>
<li>Zweitbeste Alternative: detectCores() ersetzen durch parallelly::availableCores()</li>
</ul>
Weitere Details siehe <a href="https://parallelly.futureverse.org/">https://parallelly.futureverse.org/</a>
Alles Gute für Eure R-Projekte! Freue mich sehr über Erfahrungsberichte – lasst mir Kommentare da!
Hier geht’s zum früheren Beitrag <a href="https://statistik-dresden.de/r-code-parallelisieren-mit-parallelclusterapply/">R-Code parallelisieren mit parallel::clusterApply()</a>. Dort hatte ich noch detectCores() eingesetzt, aber bereits auf parallelly::availableCores() hingewiesen.
Und hier ein Beitrag über <a href="https://statistik-dresden.de/fortschrittsbalken-anzeigen-und-code-parallelisieren-in-r-progressr-und-future/">Fortschrittsbalken mit progressr und future</a>, R-Paketen von Henrik Bengtsson.The post <a href="https://statistik-dresden.de/warum-du-paralleldetectcores-in-r-nicht-verwenden-solltest/">Warum Du parallel::detectCores() in R NICHT verwenden solltest</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></content:encoded>
<wfw:commentRss>https://statistik-dresden.de/warum-du-paralleldetectcores-in-r-nicht-verwenden-solltest/feed/</wfw:commentRss>
<slash:comments>0</slash:comments>
<post-id xmlns="com-wordpress:feed-additions:1">17893</post-id> </item>
<item>
<title>Aus RStudio wurde Posit!</title>
<link>https://statistik-dresden.de/aus-rstudio-wurde-posit/</link>
<comments>https://statistik-dresden.de/aus-rstudio-wurde-posit/#comments</comments>
<dc:creator><![CDATA[Wolf Riepl]]></dc:creator>
<pubDate>Tue, 15 Nov 2022 13:12:24 +0000</pubDate>
<category><![CDATA[R-Programmierung]]></category>
<category><![CDATA[Hadley Wickham]]></category>
<category><![CDATA[Max Kuhn]]></category>
<category><![CDATA[Open Source]]></category>
<category><![CDATA[posit]]></category>
<category><![CDATA[Python]]></category>
<category><![CDATA[RStudio]]></category>
<category><![CDATA[Thomas Pedersen]]></category>
<guid isPermaLink="false">https://statistik-dresden.de/?p=17849</guid>
<description><![CDATA[RStudio, die vielleicht bekannteste Firma im R-Umfeld, hat sich in Posit umbenannt. Posit ist ein real existierendes Wort: es bedeutet, eine Idee zur Diskussion zu stellen. Das ist ein charakteristischer Bestandteil der Arbeit von Data Scientists (Hypothesen aufstellen und testen!) und reflektiert damit die Arbeit der datengetriebenen Open-Source-Gemeinschaft sowie den wissenschaftlichen Ehrgeiz, stets nach einem … <a href="https://statistik-dresden.de/aus-rstudio-wurde-posit/" class="more-link">„Aus RStudio wurde Posit!“ weiterlesen</a>
The post <a href="https://statistik-dresden.de/aus-rstudio-wurde-posit/">Aus RStudio wurde Posit!</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></description>
<content:encoded><![CDATA[RStudio, die vielleicht bekannteste Firma im R-Umfeld, hat sich in Posit umbenannt. Posit ist ein real existierendes Wort: es bedeutet, eine Idee zur Diskussion zu stellen. Das ist ein charakteristischer Bestandteil der Arbeit von Data Scientists (Hypothesen aufstellen und testen!) und reflektiert damit
<ul>
<li>die Arbeit der datengetriebenen Open-Source-Gemeinschaft sowie</li>
<li>den wissenschaftlichen Ehrgeiz, stets nach einem höheren Niveau an Wissen und Verständnis zu streben.</li>
</ul>
<h2>Verschwindet damit der Name RStudio von der Bildfläche?</h2>
Während RStudio als Firmenname Geschichte ist, bleibt der Name <a href="https://statistik-dresden.de/archives/tag/rstudio">RStudio</a> für die Entwicklungsumgebung für R erhalten. Die IDE (Integrated Development Environment) RStudio behält ihren bewährten Namen.
Andere Produkte von Posit sind allerdings von der Namensänderung betroffen:
<ul>
<li>RStudio Connect heißt jetzt Posit Connect</li>
<li>RStudio Workbench heißt jetzt Posit Workbench</li>
<li>RStudio Package Manager heißt jetzt Posit Package Manager</li>
</ul>
<h2>R bleibt Schwerpunkt, aber nicht ausschließlich – Python auch</h2>
Posit fühlt sich weiterhin der R-Gemeinschaft verpflichtet und verbunden. <a href="https://statistik-dresden.de/archives/tag/hadley-wickham">Hadley Wickham</a> sagte, er habe nicht vor, Python zu lernen. Allerdings reflektiert die Namensänderung etwas, das das Unternehmen schon seit einer Weile tut: Die oben genannten kommerziellen Produkte unterstützen bereits seit über zwei Jahren Python. Die Umbenennung zieht somit nur nach und macht deutlicher als bisher, dass es nicht ausschließlich um R geht. Das Posit / RStudio-Team unterstützt Python auch durch die aktive Entwicklung des reticulate-Pakets, mit dem man von R aus Python-Code ausführen kann, durch Syntax Highlighting in der RStudio IDE und durch das neue <a href="https://quarto.org/">Quarto-Format</a>. Mit Quarto kann man, wie mit Markdown, die Berichtserstellung automatisieren. Auch hier reflektiert der Name, dass es um mehr geht als nur R. Quarto ist ebenso gut mit Python und Julia nutzbar.
Neu ist zudem <a href="https://shiny.rstudio.com/py/">Shiny für Python</a>.
<h2>Interessante Firmenstruktur: Posit als Public Benefit Corporation</h2>
Posit, und davor RStudio seit Anfang 2020, firmiert als Public Benefit Corporation. Damit ist die Verpflichtung gegenüber der Open Source-Gemeinschaft, im Gegensatz zu der üblichen Verpflichtung eines Unternehmens gegenüber den Anteilseignern, in den Firmenstatuten festgeschrieben. Posit ist ein interessantes Beispiel dafür, wie der Spagat zwischen Open Source-Entwicklung und Rentabilität gelingen kann. Einige der hellsten Köpfe der R-Community arbeiten für Posit und verwenden einen Großteil ihrer Arbeitszeit auf Open Source-Entwicklung – zum Beispiel R-Pakete, die von R-Anwendern kostenlos nutzbar sind. Etliche Mitarbeiter sind vor ihrer Posit-Zeit bekannt geworden und wurden von anderen Positionen abgeworben – das heißt, dass Posit offenbar in der Lage ist, konkurrenzfähige Gehälter zu bezahlen. Beispiele sind:
<ul>
<li>Natürlich <a href="https://statistik-dresden.de/archives/tag/hadley-wickham">Hadley Wickham</a>, der vor seiner Anstellung bei RStudio / Posit (2013) bereits <a href="https://statistik-dresden.de/archives/tag/ggplot2">ggplot2</a> (2008) und weitere R-Pakete wie plyr (Vorgänger von dplyr) und reshape, reshape2 entwickelte;</li>
<li><a href="https://statistik-dresden.de/archives/tag/max-kuhn">Max Kuhn</a>, von 2005 bis 2016 bei Pfizer als Senior Director, Nonclinical Statistics, Autor des bekannten caret-Pakets für Machine Learning (Vorgänger der tidymodels-Paketsammlung, an der er jetzt arbeitet) und Buchautor: Applied Predictive Modeling;</li>
<li>Thomas Lin Pedersen, Spezialist für Datenvisualisierung, Autor zahlreicher R-Pakete, z. B. patchwork (Anordnung mehrerer Diagramme), <a href="https://statistik-dresden.de/archives/tag/gganimate">gganimate</a> (erweitert ggplot2 um Animationen), ggraph (Visualisierung relationaler Daten wie Netzwerke, Bäume), ggforce (ggplot2 beschleunigen), tidygraph, lime (local interpretable model-agnostic explanations) <a href="https://github.com/thomasp85?tab=repositories">und viele weitere, siehe sein github-Profil</a>. Er arbeitete für die Dänischen Steuerbehörden, als RStudio ihn 2018 abwarb. Pedersen hat von Hadley Wickham die Betreuung von ggplot2 als CRAN Maintainer (Verantwortlicher, an den Emails z. B. bei Kompatibilitätsproblemen mit anderen Paketen gehen) übernommen.</li>
</ul>
Disclaimer: Ich habe keine geschäftliche Beziehung zu Posit / RStudio und nutze bisher ausschließlich kostenlose Produkte. Eines, das vielleicht nicht so bekannt ist und das ich gern empfehlen kann, ist übrigens die RStudio Cloud, die weiterhin so heißt und die es ermöglicht, R und RStudio ganz ohne lokale Installation im Internetbrowser zu nutzen. Bei Schulungen habe ich meist eine Kursversion in der Cloud für Teilnehmer, die ansonsten an der Installation scheitern würden – sei es aufgrund fehlender Admin-Rechte oder aufgrund veralteter Software-Versionen.
Was haltet Ihr von der Umbenennung? Könnt Ihr Euch mit dem neuen Namen Posit anfreunden?
Weitere Infos:
<ul>
<li><a href="https://posit.co/blog/rstudio-is-becoming-posit/">RStudio is becoming Posit</a> – Blogbeitrag von Firmengründer JJ Allaire und Hadley Wickham</li>
<li><a href="https://posit.co/blog/rstudio-is-now-posit/">RStudio is now Posit!</a> – New Name, Same DNA</li>
<li>Zur Umfirmierung als Public Benefit Corporation: <a href="https://posit.co/blog/rstudio-pbc/">RStudio Inc becomes RStudio PBC, expands data science product focus with Python support</a></li>
<li><a href="https://rstudio.cloud/">RStudio Cloud</a></li>
</ul>The post <a href="https://statistik-dresden.de/aus-rstudio-wurde-posit/">Aus RStudio wurde Posit!</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></content:encoded>
<wfw:commentRss>https://statistik-dresden.de/aus-rstudio-wurde-posit/feed/</wfw:commentRss>
<slash:comments>2</slash:comments>
<post-id xmlns="com-wordpress:feed-additions:1">17849</post-id> </item>
<item>
<title>R und Shiny: Was ist Reaktivität / Reaktives Programmieren?</title>
<link>https://statistik-dresden.de/r-und-shiny-was-ist-reaktivitaet-reaktives-programmieren/</link>
<comments>https://statistik-dresden.de/r-und-shiny-was-ist-reaktivitaet-reaktives-programmieren/#respond</comments>
<dc:creator><![CDATA[Wolf Riepl]]></dc:creator>
<pubDate>Mon, 14 Nov 2022 15:55:18 +0000</pubDate>
<category><![CDATA[Praxisbeispiel]]></category>
<category><![CDATA[R-Programmierung]]></category>
<category><![CDATA[App]]></category>
<category><![CDATA[Excel]]></category>
<category><![CDATA[ggplot2]]></category>
<category><![CDATA[Hadley Wickham]]></category>
<category><![CDATA[plotly]]></category>
<category><![CDATA[Programmieren]]></category>
<category><![CDATA[Reaktives Programmieren]]></category>
<category><![CDATA[Reaktivität]]></category>
<category><![CDATA[shiny]]></category>
<guid isPermaLink="false">https://statistik-dresden.de/?p=17832</guid>
<description><![CDATA[Der Erfolg von Datenanalysen beruht nicht nur auf den Ergebnissen selbst, sondern zunehmend auch darauf, wie sie präsentiert und anderen zugänglich gemacht werden. R bietet mit Shiny ein großartiges Werkzeug, um interaktive Webapplikationen zu erstellen. Dazu sind weder HTML- noch CSS- oder Javascript-Kenntnisse erforderlich. Shiny: Umdenken von bisheriger R-Programmierung Wer bereits Erfahrungen mit der R-Programmierung … <a href="https://statistik-dresden.de/r-und-shiny-was-ist-reaktivitaet-reaktives-programmieren/" class="more-link">„R und Shiny: Was ist Reaktivität / Reaktives Programmieren?“ weiterlesen</a>
The post <a href="https://statistik-dresden.de/r-und-shiny-was-ist-reaktivitaet-reaktives-programmieren/">R und Shiny: Was ist Reaktivität / Reaktives Programmieren?</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></description>
<content:encoded><![CDATA[Der Erfolg von Datenanalysen beruht nicht nur auf den Ergebnissen selbst, sondern zunehmend auch darauf, wie sie präsentiert und anderen zugänglich gemacht werden. R bietet mit <a href="https://statistik-dresden.de/archives/tag/shiny">Shiny</a> ein großartiges Werkzeug, um interaktive Webapplikationen zu erstellen. Dazu sind weder HTML- noch CSS- oder Javascript-Kenntnisse erforderlich.
<h2>Shiny: Umdenken von bisheriger R-Programmierung</h2>
<figure id="attachment_17834" aria-describedby="caption-attachment-17834" style="width: 229px" class="wp-caption alignright"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/cover-mastering-shiny.png?ssl=1"><img loading="lazy" decoding="async" class="wp-image-17834 size-medium" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/cover-mastering-shiny.png?resize=229%2C300&ssl=1" alt="Mastering Shiny - Buch von Hadley Wickham" width="229" height="300" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/cover-mastering-shiny.png?resize=229%2C300&ssl=1 229w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/cover-mastering-shiny.png?w=500&ssl=1 500w" sizes="(max-width: 229px) 85vw, 229px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17834" class="wp-caption-text">Mastering Shiny von Hadley Wickham ist <a href="https://mastering-shiny.org/">online kostenlos zugänglich</a> und in Papierform zu kaufen</figcaption></figure>
Wer bereits Erfahrungen mit der <a href="https://statistik-dresden.de/archives/category/praxisbeispiel/r-rstudio">R-Programmierung</a> gesammelt hat, kann auch mit Shiny loslegen. <a href="https://statistik-dresden.de/archives/tag/shiny">Shiny</a> ist sehr gut dokumentiert, sowohl mit eigenem Webseitenbereich bei <a href="https://shiny.rstudio.com/">RStudio / Posit</a>, als auch mit Literatur, wie z. B. dem kostenlos online zugänglichen Buch von <a href="https://statistik-dresden.de/archives/tag/hadley-wickham">Hadley Wickham</a>: <a href="https://mastering-shiny.org/">Mastering Shiny</a>.
Eine Herausforderung liegt darin, dass man gegenüber herkömmlicher R-Programmierung umdenken muss. Neben etlichen technischen Details von Shiny-Funktionen geht es dabei zunächst um ein anderes Paradigma der Programmierung: Reaktivität.
<h2>Reaktives Programmieren / Reaktivität</h2>
Die gute Nachricht lautet: Jeder, der schon mal ein <a href="https://statistik-dresden.de/archives/tag/excel">Excel-Blatt</a> mit Formeln verwendet hat, ist bereits mit der Grundidee vertraut!
<figure id="attachment_17836" aria-describedby="caption-attachment-17836" style="width: 840px" class="wp-caption aligncenter"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/Excel-Reactivity.gif?ssl=1"><img loading="lazy" decoding="async" class="wp-image-17836 size-large" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/Excel-Reactivity.gif?resize=840%2C473&ssl=1" alt="Reaktivität am Beispiel einer Excel-Mappe mit simplen Formeln" width="840" height="473" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/Excel-Reactivity.gif?resize=1024%2C576&ssl=1 1024w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/Excel-Reactivity.gif?resize=300%2C169&ssl=1 300w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/Excel-Reactivity.gif?resize=768%2C432&ssl=1 768w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/Excel-Reactivity.gif?resize=1536%2C864&ssl=1 1536w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/Excel-Reactivity.gif?resize=1200%2C675&ssl=1 1200w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/Excel-Reactivity.gif?w=1680&ssl=1 1680w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 1362px) 62vw, 840px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17836" class="wp-caption-text">Reaktivität am Beispiel einer Excel-Mappe mit simplen Formeln. Die grünen Felder aktualisieren sich automatisch nach Änderungen in den grauen Feldern. Anklicken, um die Reaktivität in Aktion zu sehen.</figcaption></figure>
Hier im Beispiel reagieren die grünen Felder auf Änderungen in den grauen Feldern. Es geht um Verkaufszahlen einer fiktiven Firma, die in den grauen Feldern links nach Monaten erfasst werden. In der Mitte werden Quartalszahlen aufgelistet, die sich mittels simpler Summenformeln aus den jeweiligen Monaten speisen. Rechts kommt noch eine Gesamtsumme für das ganze Jahr hinzu. Die grünen Zellen werden bei jeder Änderung in einer grauen Zelle automatisch aktualisiert.
Genau das ist auch das Grundprinzip von Shiny.
Für die Programmierung heißt das: Das R-Skript, aus dem Shiny die App erzeugt (mit HTML-, CSS- und Javascript-Elementen) wird nicht der Reihe nach Zeile für Zeile ausgeführt, wie man es von sonstigen R-Skripten gewohnt ist. Stattdessen werden in der App zwei wesentliche Bausteine definiert:
<ul>
<li>eine Oberfläche für den Anwender, das User Interface (UI), sowie</li>
<li>eine Server-Funktion, die beschreibt, wie R auf die Eingaben des Anwenders reagieren soll.</li>
</ul>
So entstehen Abhängigkeiten zwischen Inputs und Outputs, Eingabe und Ausgabe, die Shiny automatisch handhabt.
<h2>Anwendungsbeispiel: Eine simple reaktive App</h2>
Hier eine recht simple App mit einem Drop-Down-Feld, mit dem man in der Seitenspalte links eine Band / einen Künstler auswählen kann. Shiny erstellt im Hauptbereich rechts eine dazu passende Grafik.
<figure id="attachment_17841" aria-describedby="caption-attachment-17841" style="width: 892px" class="wp-caption aligncenter"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/simple-dropdown.png?ssl=1"><img loading="lazy" decoding="async" class="size-full wp-image-17841" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/simple-dropdown.png?resize=840%2C493&ssl=1" alt="Shiny App mit Drop-Down und plotly-Grafik" width="840" height="493" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/simple-dropdown.png?w=892&ssl=1 892w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/simple-dropdown.png?resize=300%2C176&ssl=1 300w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/11/simple-dropdown.png?resize=768%2C451&ssl=1 768w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 1362px) 62vw, 840px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17841" class="wp-caption-text">Shiny App mit Drop-Down und plotly-Grafik (hier auf der Webseite nur als statisches Bild, da R nicht auf dem Server läuft)</figcaption></figure>
Die Vorbereitung:
<pre># Paket chartmusicdata von github installieren
# Diesen Teil nur ein Mal ausführen, kann dann auskommentiert / gelöscht werden
library(devtools)
remotes::install_github("fjodor/chartmusicdata")
# Pakete laden
library(chartmusicdata)
library(shiny)
library(tidyverse)
library(plotly)
# Daten aus dem chartmusicdata-Paket bereitstellen
data(songs2000)
# Die 10 am häufigsten vertretenen Künstler / Bands bereitstellen
artists <- songs2000 %>%
count(artist, sort = TRUE) %>%
slice_head(n = 10) %>%
pull(artist)
# Daten nach diesen 10 Künstlern / Bands filtern
songsdata <- songs2000 %>%
filter(artist %in% artists)
# Hilfsfunktion für die x-Achsen-Beschriftung
ntes_label <- function(n = 4) {
function(x) {x[c(TRUE, rep(FALSE, n - 1))]}
}</pre>
<h2>Das User Interface (UI) der Shiny-App</h2>
Nun können wir das User Interface (UI) definieren:
<pre>ui <- fluidPage(
titlePanel("Simple Reaktivität: Dropdown"),
sidebarLayout(
sidebarPanel(
selectInput(inputId = "bandname", label = "Künstler / Band auswählen",
choices = artists, selected = "Drake")
),
mainPanel(
h2("Daten aus songs2000"), # h2 ist eine Überschrift Ebene 2
plotlyOutput(outputId = "bandplot") # Platzhalter für Grafik
)
)
)</pre>
Mit ein paar simplen Shiny-Funktionen beschreiben wir das Layout der App: eine Seite mit Seitenspalte (sidebarPanel) und Hauptbereich (mainPanel). Der Nutzer interagiert mit der App über ein Drop-Down-Feld (selectInput). Die ID „bandname“ nutzen wir gleich in der Server-Funktion als Variable, um die Nutzereingabe zu verarbeiten. Es ist eine interaktive <a href="https://statistik-dresden.de/archives/tag/plotly">plotly-Grafik</a> vorgesehen (plotlyOutput), deren Erstellung in der Server-Funktion erfolgt.
<h2>Die Server-Funktion der Shiny-App</h2>
Und so sieht die Server-Funktion aus:
<pre>server <- function(input, output, session) {
output$bandplot <- renderPlotly({
p <- songsdata %>%
filter(artist == input$bandname) %>%
ggplot(aes(x = year_month, y = indicativerevenue, color = song, group = artist)) +
geom_point(size = 1.5) +
labs(title = paste("Songs von", input$bandname),
x = "Monat und Jahr",
y = "Indicative Revenue in USD") +
scale_x_discrete(breaks = ntes_label()) +
scale_y_continuous(labels = scales::label_dollar(scale = 1000)) +
theme_bw(base_size = 14) +
theme(axis.text.x = element_text(angle = 90),
legend.position = "none")
ggplotly(p)
})
}</pre>
<ul>
<li>Die Funktionsparameter input, output, session werden von Shiny verarbeitet</li>
<li>An zwei Stellen verarbeiten wir die Nutzereingabe, die Auswahl der Band. Der Zugriff erfolgt über die Variable input$bandname, wobei die ID „bandname“ im User Interface definiert wurde. 
Es wird nach der Band gefiltert und die Band im Diagrammtitel genannt.</li>
<li>Es handelt sich um ein <a href="https://statistik-dresden.de/archives/tag/ggplot2">ggplot2-Diagramm</a>.</li>
<li>Wir machen es interaktiv (sodass es auf den Mauszeiger reagiert und Details zum jeweiligen Song anzeigt) mit Hilfe des großartigen <a href="https://statistik-dresden.de/archives/tag/plotly">plotly-Pakets</a>.</li>
</ul>
Den Abschluss bildet die Funktion shinyApp, die als Argumente das User Interface und die Server-Funktion enthält:
<pre>shinyApp(ui = ui, server = server)</pre>
<h2>Reaktivität (fast) ohne Programmieraufwand!</h2>
Bei jeder neuen Auswahl einer Band / eines Künstlers im Drop-Down-Menü aktualisiert Shiny automatisch die Grafik. Und wir haben so gut wie nichts dafür tun müssen!
Bedingung ist lediglich, dass die Grafik innerhalb einer render()-Funktion erstellt wird; hier handelt es sich um renderPlotly(), passend zum „Platzhalter“ im User Interface: plotlyOutput(). Das genügt Shiny bereits, um alles, was die Reaktivität erfordert, im Hintergrund zu regeln!
<h2>Reaktives Programmieren mit Shiny: Zusammenfassung</h2>
<ul>
<li>Shiny-Apps bestehen aus User Interface und Server-Funktion</li>
<li>Ausgaben werden im User Interface mit output()-Funktionen angelegt; 
in unserem Beispiel: plotlyOutput()</li>
<li>Weitere Outputs: 
plotOutput() für statische Diagramme; 
tableOutput() für Tabellen; 
dataTableOutput() für interaktive Tabellen mit dem DT-Paket; 
textOutput() für reine Textausgaben</li>
<li>Die Reaktivität wird sichergestellt, indem die Ausgabe in der Server-Funktion über eine render()-Funktion erfolgt; 
in unserem Beispiel: renderPlotly()</li>
<li>Weitere Render-Funktionen entsprechend der obigen Aufzählung für die Outputs: 
renderPlot() für statische Diagramme; 
renderTable() für Tabellen; 
DT::renderDataTable() für interaktive Tabellen mit dem DT-Paket; 
renderText() für Textausgaben</li>
<li>Die App reagiert auf Nutzereingaben, indem die Server-Funktion auf input-Variablen zugreift; 
in unserem Beispiel: input$bandname, entsprechend der Id bandname in plotlyOutput()</li>
<li>Schnelle Funktionsübersicht: Siehe <a href="https://shiny.rstudio.com/articles/cheatsheet.html">Shiny Cheatsheet</a></li>
</ul>
Viel Erfolg mit Euren Shiny-Apps!
Gern unterstütze ich Euch mit einem <a href="https://statistik-dresden.de/r-schulungen/shiny-interaktive-webapplikationen-mit-r">Workshop</a>.
<a href="https://amzn.to/3TXhtMi">Hadley Wickham: Mastering Shiny</a>
<a href="https://amzn.to/41T2cxO">Storytelling mit Daten – Cole Nussbaumer Knaflic</a>The post <a href="https://statistik-dresden.de/r-und-shiny-was-ist-reaktivitaet-reaktives-programmieren/">R und Shiny: Was ist Reaktivität / Reaktives Programmieren?</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></content:encoded>
<wfw:commentRss>https://statistik-dresden.de/r-und-shiny-was-ist-reaktivitaet-reaktives-programmieren/feed/</wfw:commentRss>
<slash:comments>0</slash:comments>
<post-id xmlns="com-wordpress:feed-additions:1">17832</post-id> </item>
<item>
<title>Geht nicht, gibt´s nicht – Probability at Risk</title>
<link>https://statistik-dresden.de/geht-nicht-gibts-nicht-probability-at-risk/</link>
<comments>https://statistik-dresden.de/geht-nicht-gibts-nicht-probability-at-risk/#respond</comments>
<dc:creator><![CDATA[Tim Scheffczyk]]></dc:creator>
<pubDate>Mon, 05 Sep 2022 14:54:58 +0000</pubDate>
<category><![CDATA[Praxisbeispiel]]></category>
<category><![CDATA[Sport]]></category>
<category><![CDATA[Dimitrij Ovtcharov]]></category>
<category><![CDATA[Gewinnwahrscheinlichkeit]]></category>
<category><![CDATA[Henry Maske]]></category>
<category><![CDATA[odds at risk]]></category>
<category><![CDATA[probability at risk]]></category>
<category><![CDATA[relative Häufigkeit]]></category>
<category><![CDATA[Sportstudio]]></category>
<category><![CDATA[Wahrscheinlichkeit]]></category>
<guid isPermaLink="false">https://statistik-dresden.de/?p=17789</guid>
<description><![CDATA[0% - Dieser Wert steht in der Nachbetrachtung einer Versuchsreihe dafür, dass ein Ereignis nicht eingetreten ist. So weit, so gut. Prognostiziert man jedoch für ein zukünftiges Ereignis eine Auftretenswahrscheinlichkeit von 0%, würde man dieses Ereignis schlicht unmöglich klassifizieren. Das ist jedoch ein Trugschluss. Denn geht nicht, gibt’s nicht. Dies gilt auch in der Statistik. Die relative Häufigkeit von 0% ist daher als Schätzer der Wahrscheinlichkeit in diesem Fall ungeeignet. Anhand der Methodik der «Probability at Risk » kann eine Schätzung der Wahrscheinlichkeit vorgenommen werden, auch wenn das Ereignis bisher (noch) nicht eingetreten ist. Beispiele aus dem Sport & TV, sowie dem Gesundheitswesen sollen zum einen die Vielschichtigkeit dieser Problematik aufzeigen, wie gleichzeitig auch die Methodik anschaulich erläutern.
The post <a href="https://statistik-dresden.de/geht-nicht-gibts-nicht-probability-at-risk/">Geht nicht, gibt´s nicht – Probability at Risk</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></description>
<content:encoded><![CDATA[Karl Senne moderiert das aktuelle sportstudio, photographiert durch die Torwand, 30. August 1986. 
Quelle: Wikimedia Commons; Urheber: Elmar J. Lordemann; 
<a href="https://creativecommons.org/licenses/by-nc-nd/3.0/deed.de">Creative Commons Lizenz</a>
<h2>Gastbeitrag von Tim Scheffczyk</h2>
<h3>Wahrscheinlich unwahrscheinlich</h3>
Ein unwahrscheinliches Ereignis tritt per Definition (sehr) selten auf. Bei einer geringen Anzahl an Beobachtungen oder Versuchen ist es in solch einem Fall daher gut möglich, dass dieses Ereignis im Beobachtungszeitraum überhaupt gar nicht erst auftritt. Nimmt man die relative Häufigkeit des Auftretens als Schätzer für die zugrundeliegende Wahrscheinlichkeit, so würde man dem nicht aufgetretenen Ereignis 0% zuweisen. Solch ein Ereignis wäre demnach unmöglich. Dies ist jedoch ein Trugschluss. Denn aus Nicht-Eintreten des Ereignisses, lässt sich nicht rückschließen, dass es unmöglich ist.
Eine Urne sei mit Losen befüllt. Nun wissen wir nicht wieviel hiervon mit Nieten und Gewinnen versehen. Man kann anhand der gezogenen Lose den Anteil an Nieten und Gewinnen abschätzen. Doch wie schätzt man den Anteil, wenn man ausschliesslich Nieten zieht? Ist die Wahrscheinlichkeit für ein Gewinnlos dann 0 %? Nein.
Beginnen wir zunächst mit dem Ziehen eines Loses. Man erhält eine Niete. In der Statistik geht man davon aus, dass ein aufgetretenes Ereignis für eine bestimmte Hypothese noch als plausibel betrachtet werden kann, wenn es eine Wahrscheinlichkeit von mind. 5 % hatte. Auf das Beispiel übertragen müssen wir also noch davon ausgehen, dass die Urne 95 % Gewinnlose und nur 5 % aus Nieten enthält. Die höchste statistische Wahrscheinlichkeit für ein Gewinnlos, welche mit dem Ereignis zu vereinbaren ist, beträgt bei einer einmaligen Ziehung noch 95 %. Diese sei im Folgenden als Probability at Risk definiert. Das bedeutet, dass wir noch davon ausgehen müssen, dass wir das Pech hatten eine Niete zu ziehen, obwohl es eigentlich 95 % aller Lose Gewinne sind. Dies ändert sich jedoch, wenn die Zahl der Nieten sich erhöht ohne, dass ein Gewinn dabei ist. Wenn wir nämlich 2 Nieten nacheinander ziehen, kann man statistisch die Hypothese der 95 %-Gewinnwahrscheinlichkeit nicht mehr aufrechterhalten. Denn wenn dem so wäre, würde nur 5 % Nieten enthalten sein. Wäre diese Annahme korrekt, so läge die Wahrscheinlichkeit für 2 Nieten nacheinander bei 5 % x 5 % = 0.0025 bzw. 1/400. Diese Wahrscheinlichkeit ist so klein, dass wir die dahinter liegende Annahme schlicht nicht mehr glauben. Die Wahrscheinlichkeit muss also kleiner sein als 95 %. Tatsächlich liegt die für ein Gewinnlos bei maximal 77.6 %. Warum? Wenn die Gewinnloswahrscheinlichkeit bei 77.6 %, entspräche die Nietenwahrscheinlichkeit genau der Gegenwahrscheinlichkeit, also 22.4 %. Zwei Nieten nacheinander kommen unter dieser Annahme dann genau zu 5 % vor (22.4 % x 22.4 % = 5 %). Nach der gleichen Logik lässt sich die maximale Wahrscheinlichkeit für ein nicht eingetretenes Ereignis bei einer bestimmten Anzahl an Versuchen ermitteln. Diese Probability at Risk weist Parallelen mit dem finanzmathematischen Value at Risk auf. In Anlehnung an den Value at Risk gibt die Probability at Risk , diejenige Wahrscheinlichkeit für ein Event an mit der maximal trotz Nicht-Auftretens noch zu rechnen ist (siehe Tabellen 1 und 2).
<figure id="attachment_17791" aria-describedby="caption-attachment-17791" style="width: 325px" class="wp-caption alignleft"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/09/2022-08-31_Scheffczyk_Tab1.png?ssl=1"><img loading="lazy" decoding="async" class="size-full wp-image-17791" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/09/2022-08-31_Scheffczyk_Tab1.png?resize=325%2C507&ssl=1" alt="Probability / Odds at Risk nach Versuchsanzahl n (n = 1 - 20)" width="325" height="507" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/09/2022-08-31_Scheffczyk_Tab1.png?w=325&ssl=1 325w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/09/2022-08-31_Scheffczyk_Tab1.png?resize=192%2C300&ssl=1 192w" sizes="(max-width: 325px) 85vw, 325px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17791" class="wp-caption-text">Tabelle 1: Probability / Odds at Risk nach Versuchsanzahl n (n = 1 – 20)</figcaption></figure>
Wichtig hierbei ist, dass man die Verteilung innerhalb der Urne niemals genau kennen wird. Durch die Beobachtung der Nieten und Gewinne kann man jedoch bestimmte Hypothesen testen. Man trifft eine bestimmte Annahme (z.B. Anteil Gewinnlose 50 %) und berechnet wie wahrscheinlich dann das aufgetreten Ergebnis wäre. Ist die Wahrscheinlichkeit klein, so spricht diese gegen die Annahme, ist sie groß dann lässt sich die Annahme statistisch zumindest nicht widerlegen.
<figure id="attachment_17792" aria-describedby="caption-attachment-17792" style="width: 348px" class="wp-caption alignright"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/09/2022-08-31_Scheffczyk_Tab2.png?ssl=1"><img loading="lazy" decoding="async" class="size-full wp-image-17792" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/09/2022-08-31_Scheffczyk_Tab2.png?resize=348%2C504&ssl=1" alt="Probability / Odds at Risk nach Versuchsanzahl n (n = 50 - 1 Mio.)" width="348" height="504" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/09/2022-08-31_Scheffczyk_Tab2.png?w=348&ssl=1 348w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/09/2022-08-31_Scheffczyk_Tab2.png?resize=207%2C300&ssl=1 207w" sizes="(max-width: 348px) 85vw, 348px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17792" class="wp-caption-text">Tabelle 2: Probability / Odds at Risk nach Versuchsanzahl n (n = 50 – 1 Mio.)</figcaption></figure>
Behauptet beispielsweise der Betreiber einer Lotterie nach der Ziehung einer Niete, dass der Anteil der Gewinne bei 50 % liegt, ist das statistisch tatsächlich noch vertretbar (n=1 à Probability at Risk : 95 %). Tut er dies jedoch auch nach 5 Nieten nacheinander immer noch, so ist das statistisch nicht mehr vertretbar. Die Probability at Risk beträgt dann nämlich nur noch 45.1 %. Es lässt sich dann nicht mehr behaupten, dass Gewinne zu mehr als 50 % auftreten. Denn 50 % x 50 % x 50 % x 50 % x 50 % entspricht einer Wahrscheinlichkeit von 3.125 %. Diese Wahrscheinlichkeit ist kleiner als 5 % und damit statistisch als nicht mehr plausibel einzuschätzen.
<h2>Probability at Risk</h2>
Die Probability at Risk kann herangezogen werden, wenn es darum geht eine Risikoeinschätzung anzugeben. Ein einzelner erfolgloser Versuch (n=1) kann statistisch auch dann noch zutreffen, wenn die Event-Wahrscheinlichkeit bei 95 % liegt. Nach dem zweiten erfolglosen Versuch (n=2) reduziert sich die statistisch haltbare Event-Wahrscheinlichkeit auf 77.6 %. Das Nicht-Eintreten hat dann eine Wahrscheinlichkeit von 22.4 %. Die Wahrscheinlichkeit, dass das Event zweimal nicht eintritt beträgt dann 0.224 x 0.224 = 0.05 (Analog hierzu bei n=3: prob at risk: 63.2 % à 0.378 x 0.378 x 0.378 = 0.05) (siehe Tabelle 1).
Es lässt sich also festhalten, dass eine Wahrscheinlichkeit von 0 % auch nach sehr vielen Fehlversuchen nicht zutrifft. Es ist immer von einer gewissen Wahrscheinlichkeit auszugehen, die immer größer ist als 0 %. Je mehr Fehlversuche, desto kleiner wird die Probability at Risk. Der klassische Ansatz über die relative Häufigkeit berücksichtigt diesen Umstand nicht. Wird die Wahrscheinlichkeit direkt aus der relativen Häufigkeit abgeleitet, so erhalten zwei Versuchsreihen (A: 0 von 1; B 0 von 1’000) mit 0 % die gleiche Wahrscheinlichkeit, wohingegen die Probability at Risk Versuchsreihe A eine Probability at Risk in Höhe von 95 %, Versuchsreihe B 0.3 % zuweist.
<h2>Anwendungsfälle im Sport & TV</h2>
Nehmen wir ein reales Beispiel: Im ZDF-Sportstudio versuchen sich seit 1964 Prominente und Studiogäste an der Torwand. Seither ist niemandem ein perfektes Torwandschießen mit 6 Treffern gelungen. Die Torwand ist in ihren Maßen seit Jahrzehnten unverändert, sodass die Chance auf einen Treffer konstant bleibt.
Die genaue Anzahl der Schützen ist nicht bekannt. Es wurden bisher 2’265 Ausgaben des Sportstudios ausgestrahlt, die Torwand ein Jahr nach Sendebeginn erfunden. Pro Sendung gab es stets mind. einen Schützen, sodass man konservativ gerechnet von mind. 2’000 Schützen ausgehen kann. Nun haben wir den Fall, dass kein Schütze 6 Treffer erzielen konnte. Liegt die Wahrscheinlichkeit 6 Treffer zu erzielen bei 0%. Nein, denn es ist theoretisch möglich. Geht man einmal von 2’000 Schützen aus, so lässt sich statistisch zeigen, dass man auf einem Signifikanzniveau von 5 % noch von einer Erfolgswahrscheinlichkeit in Höhe von 0.15 % (Chance: 1 zu 667) ausgehen muss. Und in der Tat ist es außerhalb des ZDF-Sportstudios einem Eishockeyspieler im Jahr 1975 gelungen 6 Treffer zu erzielen. Die relative Häufigkeit ist daher in einem solchen Extremfall kein geeigneter Schätzer. Die Bestimmung einer maximalen Eintritts-Wahrscheinlichkeit mittels der Probability at Risk ist hier die bessere Wahl.
Nach der gleichen Logik sollte man Ereignisse mit einer absoluten Häufigkeit von 0 immer in Relation zur Anzahl an durchgeführten Versuchen setzen. Tritt ein Ereignis nach 100 Versuchen nicht ein, deutet das auf eine geringere Eintrittswahrscheinlichkeit hin, als wenn ein Ereignis «nur» 10-mal nicht eingetreten ist. Die relative Häufigkeit beträgt in beiden Fällen 0.
Es stellt sich nun die Frage, welche zugrundeliegende Wahrscheinlichkeit mit einer Beobachtung des Nicht-Eintretens nach 100 Versuchen noch in Einklang zu bringen ist. Hierzu soll die «Probability at Risk » definiert werden. Nach 100 erfolglosen Versuchen beträgt die Probability at Risk 2.95 %. Doch wie lässt sich die Probability at Risk interpretieren? Wenn ein Event eine Wahrscheinlichkeit in Höhe von 2.95 % aufweist, so wird es zu 5 % auch nach 100 Versuchen nicht auftreten. Der Zusatz «at risk» bezieht sich darauf, dass trotz des Nicht-Auftretens noch mit einer bestimmten Wahrscheinlichkeit zu rechnen ist. Erst nach 299 oder mehr erfolglosen Versuchen beträgt die «Probability at Risk » weniger als 1 %. Denn wenn ein Event auch nach 300 Versuchen nicht eingetreten ist, kann man (auf einem Signifikanzniveau von 5 %) davon ausgehen, dass die zugrundeliegende Wahrscheinlichkeit nicht größer ist als 1 %. Damit kann man jede Wahrscheinlichkeit von über 1 % statistisch ausschließen, denn dann wäre eine solche Beobachtung unwahrscheinlicher als 5 %. Zum Beispiel ist eine zugrundeliegende Event-Wahrscheinlichkeit von 2 % nicht mehr mit 300 erfolglosen Versuchen in Einklang zu bringen. Denn dieser Fall würde unter Annahme der 2%-igen Event-Wahrscheinlichkeit nur zu 0.2 % bzw. jedes 429. Mal auftreten.
Anhand der Tabellen 1 und 2 ist abzulesen, dass nach 10 Versuchen (n=10) die maximale Eintrittswahrscheinlichkeit (=Probability at Risk ) noch bei 25.9 % anzusiedeln ist. Denn das ein Ereignis, das im Mittel etwas häufiger als jedes vierte Mal auftritt ist nach 10 Durchgängen nie eintrifft entspricht 5 %. Diese maximale Eintrittswahrscheinlichkeit lässt sich nach 100 erfolglosen Versuchen statistisch nicht mehr in dieser Höhe rechtfertigen, stattdessen muss sie nach unten korrigiert werden. So liegt die Probability at Risk dann nur noch bei 2.95 % bzw. bei einer Quote von 1:33 (Odds at Risk).
Der Weltklasse-Tischtennisspieler Dimitrij Ovtcharov hatte gegen den chinesischen Olympiasieger Ma Long in 19 Partien an der Platte trotz teils knapper Spielverläufe immer das Nachsehen. Die Probability at Risk beträgt bei 19 misslungenen Versuchen immerhin noch 14.6 %. Bei einem künftigen Aufeinandertreffen der Beiden wären Ovtcharov zumindest auf Basis dieser Zahlen eine Siegwettquote von maximal 6.86 zu rechtfertigen.
Boxsportler Henry Maske wies vor seinem designierten letzten Profikampf gegen Virgil Hill einen Kampfrekord von 30:0 auf. Damit 30 Siegen in Folge möglich sind, ist davon auszugehen, dass die Siegwahrscheinlichkeit von Henry Maske für jeden Kampf sehr hoch gewesen sein muss. Geht man einmal von einer konstanten Siegwahrscheinlichkeit aus, muss diese mind. 90.5 % betragen haben. Seinem Gegner Virgil Hill waren daher noch maximal 9.5 %, bzw. ein Odds at Risk in Höhe von 10.52 zuzuschreiben. Diese Chance konnte Virgil Hill tatsächlich nutzen und fügte Henry Maske seine erste und einzige Niederlage bei den Profis zu. Mehr als zehn Jahre später revanchierte sich Maske im direkten Duell gegen Virgil Hill mit einem einstimmigen Punktsieg.
Nach der gleichen Logik sind einem Gegner des aktuellen Schwergewichtsweltmeister Oleksandr Usyk bei einem Kampfrekord von 20:0 noch bis zu 13.9 % zuzuschreiben.
<h2>Praxisbeispiel aus dem Gesundheitswesen</h2>
Nicht nur im Sport, sondern auch im Gesundheitswesen ist dieses Prinzip anwendbar. Möchte man statistisch belegbar zeigen, dass die Wahrscheinlichkeit für das Auftreten einer z.B. unerwünschten Nebenwirkung eines Medikamentes kleiner ist als 1/1000, so reicht es nicht aus, wenn diese bei 1’000 Probanden nicht aufgetreten ist. Warum eigentlich? Einmal angenommen die Wahrscheinlichkeit liegt genau bei 1/1000, dann ist zu erwarten, dass die Nebenwirkung im Mittel einmal auftritt. Die Wahrscheinlichkeit, dass bei keinem der 1 000 Probanden die Nebenwirkung auftritt, beträgt immer noch 36.7 %. Die These einer Wahrscheinlichkeit von mind. 1/1000 ist also dann noch haltbar. Dies ändert sich erst, wenn die Nebenwirkung bei mind. 2’994 Probanden nicht aufgetreten ist. Denn dann stellt man fest, dass es statistisch nicht mehr vertretbar ist zu behaupten das Risiko der Nebenwirkung beträgt 1/1000. Wäre das der Fall, würde nur jede 20. Studie mit 2’994 Probanden bei keinem der Studienprobanden die Nebenwirkung nachweisen. Und da die Statistik solche Ereignisse, welche nur jedes 20.Mal oder noch seltener auftreten nicht für glaubwürdig erachtet, ist die Annahme von 1/1000 als Wahrscheinlichkeit nicht mehr haltbar. Der Zusatz «<» im Sinne von «kleiner als» ist damit gerechtfertigt.
<figure id="attachment_17796" aria-describedby="caption-attachment-17796" style="width: 219px" class="wp-caption alignright"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/09/2022-08-31_Scheffczyk_Tab3.png?ssl=1"><img loading="lazy" decoding="async" class="size-full wp-image-17796" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/09/2022-08-31_Scheffczyk_Tab3.png?resize=219%2C272&ssl=1" alt="Notwendige Versuchsanzahl n für die Probability at Risk (0.1% - 1.0%)" width="219" height="272" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17796" class="wp-caption-text">Tabelle 3: Notwendige Versuchsanzahl n für die Probability at Risk (0.1% – 1.0%)</figcaption></figure>
Als Faustregel lässt sich merken, dass zwischen der (erfolglosen) Versuchsanzahl und den Odds at risk auf einem Signifikanzniveau von 5 % der Faktor 3 näherungsweise zutrifft. Will man z.B. eine Wahrscheinlichkeit von «< 1/500» nachweisen, so sind 1’496 Versuche notwendig (siehe Tabelle 3: Prob at Risk : 0.2 % à n=1’496).
<h2>0%, 0.0%, 0.00% oder 0.000% – der kleine, aber feine Unterschied</h2>
In der Realität liest man nun oft, dass ein Ereignis eine Wahrscheinlichkeit von 0 % oder 0.0 % hatte, weil es eben nie eigetreten ist. Ist dies denn dann statistisch zwangsläufig immer inkorrekt?. Die Antwort: Es kommt darauf an.
Zu behaupten das Ereignis hat eine Wahrscheinlichkeit von 0 % ist unter bestimmten Umständen tatsächlich legitim. Dies ist der Fall, wenn
1) die Zahl der Fehlversuche mindestens 598 beträgt, sowie 
2) dass die Anzeige von (weiteren) Nachkommastellen bereits vor dem Experiment nicht vorgesehen, d.h. nicht erst nachträglich auf Dezimalstellen verzichtet wurde und/oder 
3) technisch nicht möglich ist.
Weshalb ist das so?
Zu 1): Bei 598 Fehlversuchen beträgt die Probability at Risk weniger als 0.5 %. Ohne eine Dezimalstelle wird bei einer Rundung daraus 0 %. Bedingung 1) ist zwingend erforderlich.
Von den Bedingungen 2) und 3) muss lediglich mindestens eine zutreffen.
2) Wurde bereits vor dem Experiment festgelegt, dass zu den Kennzahlen keine Dezimalstellen angezeigt werden, so reicht es aus den Schwellwert der Probability at Risk in Höhe von 0.5 % zu unterschreiten, um bei einer Rundung auf 0 % zu kommen. Eine nachträgliche Rundung ohne Dezimalstelle ohne vorherige Vorgabe ist als nicht valide zu betrachten.
3) Wenn die technische Möglichkeit einer Rundung z.B. aus Platzmangel bei einer Tabelle auf einer Seite nicht gegeben ist.
Für die valide Wahrscheinlichkeit von 0% braucht es daher mind. 598 Fehlversuche, die vorherige Absprache, dass keine Dezimalstelle angegeben werden muss und/oder die technische Möglichkeit einer Dezimalstellenanzeige nicht gegeben ist. Bei der Anzeige einer Dezimalstelle, d.h. 0.0 % muss von den Bedingungen 2) und 3) unverändert mind. einer dieser beiden zutreffen. Für Bedingung 1) sind jedoch nun mind. 5’990 Fehlversuche von Nöten.
<figure id="attachment_17797" aria-describedby="caption-attachment-17797" style="width: 290px" class="wp-caption alignright"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/09/2022-08-31_Scheffczyk_Tab4.png?ssl=1"><img loading="lazy" decoding="async" class="size-full wp-image-17797" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/09/2022-08-31_Scheffczyk_Tab4.png?resize=290%2C132&ssl=1" alt="Valide gerundete Anzeige nach Versuchsanzahl n (0% - 0.000%)" width="290" height="132" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17797" class="wp-caption-text">Tabelle 4: Valide gerundete Anzeige nach Versuchsanzahl n (0% – 0.000%)</figcaption></figure>
Die Probability at Risk beträgt dann erst maximal 0.05 %, was bei einer Rundung auf eine Dezimalstelle zu 0.0 % führt). Für eine statistisch legitime Anzeige von 0.00 % bzw. 0.000 % werden analog hierzu 59’913 bzw. 599’145 erfolglose Versuche benötigt (siehe Tabelle 4).The post <a href="https://statistik-dresden.de/geht-nicht-gibts-nicht-probability-at-risk/">Geht nicht, gibt´s nicht – Probability at Risk</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></content:encoded>
<wfw:commentRss>https://statistik-dresden.de/geht-nicht-gibts-nicht-probability-at-risk/feed/</wfw:commentRss>
<slash:comments>0</slash:comments>
<post-id xmlns="com-wordpress:feed-additions:1">17789</post-id> </item>
<item>
<title>Die Achterbahnfahrt des SC Freiburg im DFB-Pokal 2021/22</title>
<link>https://statistik-dresden.de/die-achterbahnfahrt-des-sc-freiburg-im-dfb-pokal-2021-22/</link>
<comments>https://statistik-dresden.de/die-achterbahnfahrt-des-sc-freiburg-im-dfb-pokal-2021-22/#comments</comments>
<dc:creator><![CDATA[Tim Scheffczyk]]></dc:creator>
<pubDate>Tue, 09 Aug 2022 15:54:14 +0000</pubDate>
<category><![CDATA[Sport]]></category>
<category><![CDATA[Bayern München]]></category>
<category><![CDATA[DFB-Pokal]]></category>
<category><![CDATA[Fußball]]></category>
<category><![CDATA[Gesetz der kleinen Zahlen]]></category>
<category><![CDATA[Gewinnwahrscheinlichkeit]]></category>
<category><![CDATA[Poisson-Verteilung]]></category>
<category><![CDATA[Wahrscheinlichkeit]]></category>
<category><![CDATA[Zufall]]></category>
<guid isPermaLink="false">https://statistik-dresden.de/?p=17770</guid>
<description><![CDATA[Der Pokal hat seine eigenen Gesetze. Ein einziges Spiel entscheidet über Ausscheiden und Weiterkommen. David gegen Goliath. David schafft es im Fußball doch immer wieder Goliath zu bezwingen. Speziell im DFB-Pokal erscheint es so, dass es den unterklassigen Vereinen häufig gelingt die Top-Klubs zu ärgern. Wieso ist das so?
The post <a href="https://statistik-dresden.de/die-achterbahnfahrt-des-sc-freiburg-im-dfb-pokal-2021-22/">Die Achterbahnfahrt des SC Freiburg im DFB-Pokal 2021/22</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></description>
<content:encoded><![CDATA[<blockquote>„Oft grüßt der Zufall, ohne dass wir danken, öfter noch grüßen wir, ohne dass er dankt.“ </blockquote>
Emanuel Wertheim
Der Pokal hat seine eigenen Gesetze. Ein einziges Spiel entscheidet über Ausscheiden und Weiterkommen. David gegen Goliath. David schafft es im Fußball doch immer wieder Goliath zu bezwingen. Speziell im DFB-Pokal erscheint es so, dass es den unterklassigen Vereinen häufig gelingt die Top-Klubs zu ärgern. Wieso ist das so?
Dieses „Phänomen“ lässt sich vor allem durch die Spielregeln des DFB-Pokal erklären. Jede Begegnung hat den Charakter eines K.O.-Spiels. Zum einen treffen klare Favoriten hier sehr häufig auf klare Außenseiter. Dies führt schon einmal zu einer Vielzahl an Spielen mit potenziellen Sensationssiegen. Zum anderen muss der Außenseiter nur in einem einzigen Spiel den Favoriten besiegen. Während der Außenseiter bei mehreren Aufeinandertreffen nur sehr geringe Chancen auf ein Weiterkommen hätte, so ist die Wahrscheinlichkeit bei einem Treffen immer gegeben. Dieses sog. Gesetz der kleinen Zahlen lässt sich anhand eines Beispiels aus dem Tischtennis gut veranschaulichen. Spielt man gegen den besten deutschen Tischtennisprofi Timo Boll 1 Punkt, so hat auch ein Amateurspieler aus der Kreisliga ungefähr eine Wahrscheinlichkeit von rund 20 % diesen Punkt zu gewinnen. Für ein ganzes Match über 3-Gewinnsätze hingegen gleicht die Chance ungefähr einem 6er im Lotto. Unabhängig von der eigenen Spielstärke benötigt eine Mannschaft im DFB-Pokal zwangsläufig immer auch eine gewisse Portion Glück. Losglück für möglichst viele Heimspiele und leichte Gegner, aber auch vor allem Glück innerhalb der einzelnen Spiele. Ein unglücklich verlaufendes Spiel, bei dem eine drückende Überlegenheit nicht in Tore umgemünzt wird, kann nicht mehr wett gemacht werden und die Reise im Pokal ist dann beendet. Eine Niederlage gegen einen Außenseiter ist in der Bundesliga für den Favoriten über die weiteren Spiele zu kompensieren. Die Chance auf den Pokalsieg ist durch den Spielmodus auch für den <a href="https://statistik-dresden.de/archives/tag/bayern-munchen">FC Bayern München</a> kleiner als für den deutschen Meistertitel. Insgesamt konnte der Branchenprimus bis dato 32 Meisterschaften und „nur“ 20 Pokalsiege feiern. In den letzten 10 Jahren wurde der FC Bayern München immer Meister, im DFB-Pokal stehen im gleichen Zeitraum hingegen „nur“ 5 Erfolge zu Buche. Selbst der beste Klub Deutschlands blieb im Pokal nicht von Pokalsensationen- die zu seinem Ausscheiden führten-verschont (1990: FV 09 Weinheim, 1994: TSV Vestenbergsgreuth, 2000: 1. FC Magdeburg, 2021: Holstein Kiel).
<h2>Die Poisson-Verteilung</h2>
Im DFB-Pokal wird vor jeder Runde gelost. Diese zufällige Losung und der „David-gegen-Goliath-Effekt“, welcher durch das Heimrecht der unterklassigen Vereine in der ersten Runde begünstigt wird, lässt für jeden Teilnehmer die Wahrscheinlichkeit für das Weiterkommen in jeder Runde auf 50 % quantifizieren. Die Chance auf den Sieg in der jeweiligen Pokalrunde und den Pokalsieg lässt sich durch die sogenannte Poisson-Verteilung mit der Annahme, dass pro Spiel 3 Tore fallen (je 1,5 Tore pro Team), kalkulieren. Anhand der Poisson-Verteilung mit den beschriebenen Parametern, lässt sich ein Fußballspiel vor Spielbeginn prognostizieren und nach Spielende analysieren. Das häufigste Ergebnis ist demnach mit 11,2 % an theoretischer Wahrscheinlichkeit ein 1:1-Unentschieden – siehe Tabelle.
<figure id="attachment_17771" aria-describedby="caption-attachment-17771" style="width: 695px" class="wp-caption aligncenter"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab3.png?ssl=1"><img loading="lazy" decoding="async" class="size-full wp-image-17771" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab3.png?resize=695%2C358&ssl=1" alt="Ergebniswahrscheinlichkeiten für ein Fußballspiel über 90 Minuten" width="695" height="358" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab3.png?w=695&ssl=1 695w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab3.png?resize=300%2C155&ssl=1 300w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17771" class="wp-caption-text">Ergebniswahrscheinlichkeiten für ein Fußballspiel über 90 Minuten laut Poisson-Verteilung</figcaption></figure>
In der Praxis war das 1:1-Unentschieden in den elf Spielzeiten 2010/11-2020/21 tatsächlich in 10 von 11 Jahren das häufigste Ergebnis und der relative Anteil betrug 11,4%. Auch der Anteil an Unentschieden, welche bei theoretischen Poissonverteilung 24,3% beträgt, entsprach zwischen den Spielzeiten 2013/14 und 2021/22 auf genau jenen 24,3% mit einem Minimum von 20,9 % einem Maximum von 27,1%.
<figure id="attachment_17773" aria-describedby="caption-attachment-17773" style="width: 642px" class="wp-caption aligncenter"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab4.png?ssl=1"><img loading="lazy" decoding="async" class="size-full wp-image-17773" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab4.png?resize=642%2C368&ssl=1" alt="Wahrscheinlichkeiten für Tordifferenz nach 90 Minuten" width="642" height="368" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab4.png?w=642&ssl=1 642w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab4.png?resize=300%2C172&ssl=1 300w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17773" class="wp-caption-text">Wahrscheinlichkeiten für Tordifferenz nach 90 Minuten laut Poisson-Verteilung</figcaption></figure>
<h2>Die Pokalreise des SC Freiburg 2021/2022</h2>
Die Poissonverteilung stellt daher für Fußballspiele eine sehr gute theoretische Verteilung dar und kann somit für Prognosen und Analysen verwendet werden. Anhand den Pokalspielen des SC Freiburg in der Saison 2021/22 soll dies exemplarisch aufgezeigt werden. Die Siegwahrscheinlichkeiten in K.O-Spielen im Fußball nach Spielminuten können der folgenden Tabelle entnommen werden:
<figure id="attachment_17775" aria-describedby="caption-attachment-17775" style="width: 651px" class="wp-caption aligncenter"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab1a.png?ssl=1"><img loading="lazy" decoding="async" class="size-full wp-image-17775" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab1a.png?resize=651%2C545&ssl=1" alt="Siegwahrscheinlichkeiten für ein Fußball-K.O.-Spiel nach Tordifferenz und Minute - reguläre Spielzeit" width="651" height="545" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab1a.png?w=651&ssl=1 651w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab1a.png?resize=300%2C251&ssl=1 300w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17775" class="wp-caption-text">Siegwahrscheinlichkeiten für ein Fußball-K.O.-Spiel nach Tordifferenz und Minute – reguläre Spielzeit</figcaption></figure>
<figure id="attachment_17776" aria-describedby="caption-attachment-17776" style="width: 663px" class="wp-caption aligncenter"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab1b.png?ssl=1"><img loading="lazy" decoding="async" class="size-full wp-image-17776" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab1b.png?resize=663%2C233&ssl=1" alt="Siegwahrscheinlichkeiten für ein Fußball-K.O.-Spiel nach Tordifferenz und Minute - Verlängerung" width="663" height="233" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab1b.png?w=663&ssl=1 663w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab1b.png?resize=300%2C105&ssl=1 300w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17776" class="wp-caption-text">Siegwahrscheinlichkeiten für ein Fußball-K.O.-Spiel nach Tordifferenz und Minute – Verlängerung</figcaption></figure>
Die Pokalreise des SC Freiburg mit den analytischen Werten ist hier nachzulesen:
<figure id="attachment_17777" aria-describedby="caption-attachment-17777" style="width: 932px" class="wp-caption aligncenter"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab2.png?ssl=1"><img loading="lazy" decoding="async" class="wp-image-17777 size-full" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab2.png?resize=840%2C701&ssl=1" alt="Spiel- und Pokalsiegwahrscheinlichkeit und -quote nach Pokalrunde und Ereignis - SC Freiburg 2021/2022" width="840" height="701" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab2.png?w=932&ssl=1 932w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab2.png?resize=300%2C250&ssl=1 300w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab2.png?resize=768%2C641&ssl=1 768w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 1362px) 62vw, 840px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17777" class="wp-caption-text">Spiel- und Pokalsiegwahrscheinlichkeit und -quote nach Pokalrunde und Ereignis – SC Freiburg 2021/2022</figcaption></figure>
<h2>2. Runde: Das Osnabrück-Spiel</h2>
Der SC Freiburg und seine Fans haben in der Pokalsaison 2021/22 eine Achterbahnfahrt erlebt. In der zweiten Runde war man in der 119. Minute gegen den VfL Osnabrück bei einem Rückstand von 1:2 eigentlich schon so gut wie ausgeschieden. Die Chance auf das Weiterkommen in Runde 3 betrug zu diesem Zeitpunkt gerade einmal 0,8 %. Für den Pokalsieg standen sogar nur noch eine Chance von 1:1.951 zu Buche. Doch der SC Freiburg konnte sich durch das Tor von Keven Schlotterbeck tatsächlich noch ins Elfmeterschießen retten. Im Elfmeterschießen verfehlte Höler den ersten Elfmetertreffer. Die soeben noch auf 50%-ige Spielsiegchance (Pokalsieg: 3,1 %), sank hierdurch gleich wieder auf 29,1 % (Pokalsieg: 1,8 %). Das Elfmeterschießen konnte bekanntlich noch gewonnen werden, die Gefühlsachterbahn von Fans und Spieler wird durch die innert Minuten stark schwankenden Chancen gut widergespiegelt (siehe oben).
<h2>Achtelfinale: TSG Hoffenheim</h2>
Der 4:1-Achtelfinalsieg gegen die TSG Hoffenheim 1899 war souverän. Dieser Sieg mit einer Tordifferenz von mind. 3 Toren entspricht einem P-Value von 7,0 % (siehe unten), d.h. unter gleichstarken Mannschaften schafft es eine bestimmte Mannschaft nur jedes 14. Mal, eine positive Tordifferenz von 3 oder mehr Toren zu erzielen.
<figure id="attachment_17779" aria-describedby="caption-attachment-17779" style="width: 856px" class="wp-caption aligncenter"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab6.png?ssl=1"><img loading="lazy" decoding="async" class="size-full wp-image-17779" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab6.png?resize=840%2C480&ssl=1" alt="P-Values für Tordifferenzen für ein Fußballspiel über 90 Minuten" width="840" height="480" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab6.png?w=856&ssl=1 856w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab6.png?resize=300%2C171&ssl=1 300w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab6.png?resize=768%2C439&ssl=1 768w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 1362px) 62vw, 840px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17779" class="wp-caption-text">P-Values für Tordifferenzen für ein Fußballspiel über 90 Minuten</figcaption></figure>
Der Gegentreffer zum 1:2 in der 53.Spielminute reduzierte die Siegchancen nur kurzfristig auf 81,5 %, der Sieg blieb jedoch weitestgehend ungefährdet. Die 5 Tore in diesem Spiel sind zwar gemessen an der reinen Toranzahl überdurchschnittlich, jedoch tritt ein mindestens so torreiches Spiel doch noch jedes knapp sechste Mal auf (18,5 % gemäß folgender Tabelle).
<figure id="attachment_17780" aria-describedby="caption-attachment-17780" style="width: 661px" class="wp-caption aligncenter"><a href="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab5.png?ssl=1"><img loading="lazy" decoding="async" class="size-full wp-image-17780" src="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab5.png?resize=661%2C340&ssl=1" alt="Wahrscheinlichkeit für die Toranzahl nach 90 Minuten" width="661" height="340" srcset="https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab5.png?w=661&ssl=1 661w, https://i0.wp.com/statistik-dresden.de/wp-content/uploads/2022/08/2022-08-Scheffczyk_Tab5.png?resize=300%2C154&ssl=1 300w" sizes="(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px" data-recalc-dims="1" /></a><figcaption id="caption-attachment-17780" class="wp-caption-text">Wahrscheinlichkeit für die Toranzahl nach 90 Minuten</figcaption></figure>
<h2>Viertelfinale: VfL Bochum</h2>
Das Viertelfinale gegen den VfL Bochum bot hingegen durchgehend viel Spannung. Das 1:0 von Nils Petersen in der 51. Spielminute steigerte die Siegwahrscheinlichkeit für dieses Spiel auf 80,9 %, nur 13 Minuten später egalisierte Polter jedoch den Freiburger Führungstreffer. Das Spiel stand nach 64 Minuten daher ausgeglichen. Die Spannung des Spiels lag darin, dass der Führungstreffer für Freiburg oder Bochum die Siegchance zu diesem späten Zeitpunkt des Spiels auf mind. 86 % gesteigert hätte. Das Tor fiel und fiel jedoch nicht. Als sich (Fernseh-) Zuschauer, Spieler, Fans und Betreuer bereits auf das zweite Elfmeterschießen einstellen, erzielt Sallai in der letzten Minute der Verlängerung das entscheidende 2:1 und schießt den SC damit in das Halbfinale. Der Jubel war grenzenlos. Die Chance auf den Pokalsieg erschien auch durch das Fehlen von Bayern München und Borussia Dortmund nun tatsächlich möglich. Mit RB Leipzig und dem 1. FC Union Berlin standen jedoch noch zwei Bundesligisten und dem Hamburger SV als einzigen Zweitligisten noch bekannte und auch teilweise mindestens ebenbürtige Gegner im Wettbewerb.
<h2>Halbfinale: Hamburger SV</h2>
Der 3:1-Halbfinalsieg in Hamburg, bei dem wie schon in Bochum wieder zahlreiche Fans den Sportclub unterstützten, geriet nie ernsthaft in Gefahr. Bereits in der 11. Minute als Petersen auf 1:0 stellte, stieg die Siegchance auf 73,3 %, Höler stellte unmittelbar (17. Spielminute) auf 2:0 und damit auf 89,7 % Spielsiegchance, Vincenzo Grifo machte mit seinem 3:0 in der 35. Minute im Prinzip den Deckel drauf (Siegchance: 98,1 %). Der 1:3-Anschlusstreffer in der 88. Spielminute von Glatzel kam zu spät. Freiburg spielte zwar im Anschluss etwas weniger souverän, konnte den Vorsprung aber über die Zeit bringen.
<h2>DFB-Pokal-Finale 2022: SC Freiburg – RB Leipzig</h2>
„Berlin, Berlin wir fahren nach Berlin“ lautete von nun an die Parole der Freiburger Fans. Das Pokalfinale gegen RB Leipzig im Berliner Olympiastadion stand ein bisschen sinnbildlich für den bisherigen Verlauf des SC im diesjährigen Pokal. Es war eine Achterbahn der Gefühle. Aus Freiburger Sicht war das Glück dem SC nicht hold. Galt man vor dem Spiel als leichter Außenseiter, konnte man das Spiel schnell bestimmen. Das 1:0 durch Eggestein in der 19. Minute münzte diese Überlegenheit auch in Zählbares um. Die Chance auf den Pokalsieg stand mit 74,4 % nun erstmal in Wettbewerb tatsächlich über 50 %. Der SC Freiburg konnte das Spiel in der Folge weiterhin dominant gestalten und war dem so wichtigen zweiten Tor näher als Leipzig dem Ausgleich. Kurz vor Ende der ersten Halbzeit verpasste man nur äußerst knapp das 2:0 und damit die Chance, auf eine Siegchance von 94,0 % zu stellen. Durch den 1-Tore-Vorsprung spielte die fortschreitende Zeit dem SC natürlich in die Karten. Zum Zeitpunkt als Leipzig die Rote Karte gegen Halstenberg verkraften musste, stand die Siegchance dadurch bei 82,7 %. Im weiteren Verlauf konnten Freiburg und Leipzig bis zur 75. Minute kein Tor erzielen. Die für Leipzig damit knapper werdende Zeit erhöhte Freiburgs Chance dennoch auf 90,1 %. In Unterzahl konnte Leipzig jedoch in Person von Nkunku tatsächlich den 1:1-Ausgleich erzielen. Der Spielstand war ausgeglichen, Leipzig in der Folge druckvoller und dem Siegtreffer in der regulären Spielzeit näher. Der „Lucky Punch“ gelang jedoch keinem der Teams. Freiburg dominierte die Verlängerung und hatte durch mehrere Aluminiumtreffer kein Glück im Abschluss. Kein Tor sollte mehr fallen. Das Elfmeterschießen musste den DFB-Pokalsieg entscheiden. Für den SC Freiburg nach dem Spielverlauf, bei dem man nie eine Siegchance von unter 50 % hatte und gar mit bis zu 90,1 % dem Pokalsieg sehr nahe schien, war das bereits eine schnelle und drastische Reduktion der Siegchancen von 90,1 % auf 50 % innerhalb von 45 Minuten.
Leipzig begann das Elfmeterschießen. Torschütze Nkunku brachte Leipzig mit seinem Elfmetertor erstmals in Führung (Siegchance Freiburg: 43,0 %). Petersen und Orban trafen, Freiburgs Kapitän schoss seinen Elfmeter über das Tor. Die resultierende Siegchance lag nur noch bei 19,2 % und damit bereits leicht niedriger als nach Petersens 1:0-Führungstreffer in Bochum. Durch die folgenden Treffer von Olmo und Keven Schlotterbeck betrug die Chance nur noch 15,2 % und damit exakt so hoch wie nach Mesut Özils Fehlschuss im Elfmeterschießen im EM-Viertelfinale 2016 gegen Italien. Im Gegensatz zu der deutschen Nationalmannschaft gelang es Freiburg jedoch leider nicht, diese kleine Chance zu nutzen. Leipzig leistete sich keinen einzigen Fehlschuss und Demirovic hatte bei seinem Aluminiumtreffer kein Glück. Leipzig gewann den DFB-Pokal.
<h2>Fazit zur Achterbahnfahrt des SC Freiburg</h2>
Was bleibt von dieser turbulenten Pokalreise? Sicherlich die Erkenntnis, dass die Sympathien des Sportclubs in der Republik als Pokalsieger der Herzen nochmals gestiegen sind. Das stimmungsvolle Einstimmen der Freiburger Fans vor dem Pokalfinale und auch die hörbare Unterstützung im Olympiastadion hinterließen einen bleibenden und positiven Eindruck und waren für die Fans vor Ort ein Highlight.
Es bleibt aber auch die Erkenntnis, dass der Fußball und speziell der DFB-Pokal mit seinen „eigenen Gesetzen“ durch die große Portion Glück, die es in den K.O.-Spielen braucht sehr große Schwankungen der Siegchancen und damit auch der Gefühlslage mit sich bringt. Freiburg hatte vor allem in Runde 2 das Glück, welches den Einzug in das Pokalfinale erst ermöglichte. Dieses Glück verließ sie leider im Pokalfinale im Elfmeterschießen. Ein Pokalreise mit emotionalen Tiefen (119. Minute in der 2. Runde gegen den VfL Osnabrück mit einer Pokalsiegchance von 1:1951) und Höhen (Siege gegen TSG Hoffenheim 1899, VfL Bochum und den Hamburger SV in Achtel-,Viertel, und Halbfinale und einer 1:0 Führung inkl. Überzahl im Pokalfinale bis zur 75. Minute mit einer Pokalsiegchance von 90,1 % ) fand im verlorenen Elfmeterschießen ihr bitteres Ende. Statistisch gesehen sank die Siegchance innert 45 Minute von 90,1 % über 50 % vor dem Elfmeterschießen, dem ersten Elfmeterfehlschuss mit 19,2 % nach und nach auf 0 %. Für alle Anhänger des SC ist es eine sehr bittere Niederlage, stand man doch so nah wie nie zuvor vor dem Gewinn eines nationalen Titels. In Anbetracht der Tatsache, dass man im Finale lange auf der Siegerstraße stand, ist die so erfolgreiche Pokalsaison mit einem großen Wermutstropfen verbunden. Ruft man sich die zweite Runde in Erinnerung als man das Pokalaus auch mit Glück abwenden konnte, zeigt sich die Abhängigkeit des Fußballs vom Zufall.
Möchte man die Entwicklung der Pokalsiegchance des SC Freiburg nachvollziehen, so bietet sich hier das Beispiel eines Münzwurfexperimentes an. Der SC brauchte von Osnabrück aus 10-mal nacheinander „Kopf“ für das Erreichen des Pokalfinals, was ihm tatsächlich gelang. Für den Pokalsieg hätte es ein 11. Mal „Kopf“ gebraucht.
Tim Scheffczyk, Data Analyst (M. Sc. Volkswirtschaftslehre)The post <a href="https://statistik-dresden.de/die-achterbahnfahrt-des-sc-freiburg-im-dfb-pokal-2021-22/">Die Achterbahnfahrt des SC Freiburg im DFB-Pokal 2021/22</a> first appeared on <a href="https://statistik-dresden.de">Statistik Dresden</a>.]]></content:encoded>
<wfw:commentRss>https://statistik-dresden.de/die-achterbahnfahrt-des-sc-freiburg-im-dfb-pokal-2021-22/feed/</wfw:commentRss>
<slash:comments>1</slash:comments>
<post-id xmlns="com-wordpress:feed-additions:1">17770</post-id> </item>
</channel>
</rss>

If you would like to create a banner that links to this page (i.e. this validation result), do the following:

Download the "valid RSS" banner.
Upload the image to your own server. (This step is important. Please do not link directly to the image on this server.)
Add this HTML to your page (change the image src attribute if necessary):

<a href="http://validator.w3.org/feed/check.cgi?url=http%3A//statistik-dresden.de/feed"><img src="valid-rss-rogers.png" alt="[Valid RSS]" title="Validate my RSS feed" /></a>

If you would like to create a text link instead, here is the URL you can use:

http://validator.w3.org/feed/check.cgi?url=http%3A//statistik-dresden.de/feed

Feed Validation Service

Congratulations!

Recommendations

Source: http://statistik-dresden.de/feed