Warum Du parallel::detectCores() in R NICHT verwenden solltest

parallel::detectCores() zur Parallelisierung von R-Code ist populär, kann aber Probleme verursachen. Besser: parallelly::availableCores().

parallel::detectCores() zur Parallelisierung von R-Code ist populär, kann aber Probleme verursachen. Besser: parallelly::availableCores().

Aus RStudio wurde Posit!

RStudio, die vielleicht bekannteste Firma im R-Umfeld, hat sich in Posit umbenannt. Posit ist ein real existierendes Wort: es bedeutet, eine Idee zur Diskussion zu stellen. Das ist ein charakteristischer Bestandteil der Arbeit von Data Scientists (Hypothesen aufstellen und testen!) und reflektiert damit die Arbeit der datengetriebenen Open-Source-Gemeinschaft sowie den wissenschaftlichen Ehrgeiz, stets nach einem … „Aus RStudio wurde Posit!“ weiterlesen

R und Shiny: Was ist Reaktivität / Reaktives Programmieren?

Der Erfolg von Datenanalysen beruht nicht nur auf den Ergebnissen selbst, sondern zunehmend auch darauf, wie sie präsentiert und anderen zugänglich gemacht werden. R bietet mit Shiny ein großartiges Werkzeug, um interaktive Webapplikationen zu erstellen. Dazu sind weder HTML- noch CSS- oder Javascript-Kenntnisse erforderlich. Shiny: Umdenken von bisheriger R-Programmierung Wer bereits Erfahrungen mit der R-Programmierung … „R und Shiny: Was ist Reaktivität / Reaktives Programmieren?“ weiterlesen

Geht nicht, gibt´s nicht – Probability at Risk

0% – Dieser Wert steht in der Nachbetrachtung einer Versuchsreihe dafür, dass ein Ereignis nicht eingetreten ist. So weit, so gut. Prognostiziert man jedoch für ein zukünftiges Ereignis eine Auftretenswahrscheinlichkeit von 0%, würde man dieses Ereignis schlicht unmöglich klassifizieren. Das ist jedoch ein Trugschluss. Denn geht nicht, gibt’s nicht. Dies gilt auch in der Statistik. Die relative Häufigkeit von 0% ist daher als Schätzer der Wahrscheinlichkeit in diesem Fall ungeeignet. Anhand der Methodik der «Probability at Risk » kann eine Schätzung der Wahrscheinlichkeit vorgenommen werden, auch wenn das Ereignis bisher (noch) nicht eingetreten ist. Beispiele aus dem Sport & TV, sowie dem Gesundheitswesen sollen zum einen die Vielschichtigkeit dieser Problematik aufzeigen, wie gleichzeitig auch die Methodik anschaulich erläutern.

0% – Dieser Wert steht in der Nachbetrachtung einer Versuchsreihe dafür, dass ein Ereignis nicht eingetreten ist. So weit, so gut. Prognostiziert man jedoch für ein zukünftiges Ereignis eine Auftretenswahrscheinlichkeit von 0%, würde man dieses Ereignis schlicht unmöglich klassifizieren. Das ist jedoch ein Trugschluss. Denn geht nicht, gibt’s nicht. Dies gilt auch in der Statistik. Die relative Häufigkeit von 0% ist daher als Schätzer der Wahrscheinlichkeit in diesem Fall ungeeignet. Anhand der Methodik der «Probability at Risk » kann eine Schätzung der Wahrscheinlichkeit vorgenommen werden, auch wenn das Ereignis bisher (noch) nicht eingetreten ist. Beispiele aus dem Sport & TV, sowie dem Gesundheitswesen sollen zum einen die Vielschichtigkeit dieser Problematik aufzeigen, wie gleichzeitig auch die Methodik anschaulich erläutern.

SQL-Datenbanken mit R ansprechen: Drei Strategien

R bietet mehrere Möglichkeiten, mit Datenbanken zu kommunizieren. Dieser Artikel richtet sich sowohl an R-Anwender, die noch nicht von R aus mit Datenbanken gearbeitet haben, als auch an solche, die dies bereits tun, aber bisher nur eine Möglichkeit genutzt haben. So kann jedeR den Ansatz auswählen, der für den jeweiligen Anwendungsfall am besten passt. SQL … „SQL-Datenbanken mit R ansprechen: Drei Strategien“ weiterlesen

Fehlwerte visualisieren in R: Das naniar-Paket

Fehlwerte können große Herausforderungen in der Datenanalyse darstellen. Warum fehlen Datenpunkte? Welche Eigenschaften weisen diese Fälle auf im Vergleich zu Fällen, deren Daten vollständig vorliegen? Gibt es Muster, oder fehlen Daten „zufällig“? Visualisierung kann die Beantwortung solcher Fragen sehr vereinfachen. Das naniar-Paket von Nicholas Tierney bietet dafür sehr praktische Funktionen und ist eng mit dem … „Fehlwerte visualisieren in R: Das naniar-Paket“ weiterlesen

Balkendiagramme erstellen in Base R und mit ggplot2 – Gast-Video von Joachim Schork / Statistics Globe

Einfache Codebeispiele für Balkendiagramme in Base R und mit ggplot2, inkl. horizontaler Balken, Legende, gestapelte und gruppierte Balken. Beitrag basiert auf Gastvideo von Joachim Schork von Statistics Globe – Dank an Joachim!

Einfache Codebeispiele für Balkendiagramme in Base R und mit ggplot2, inkl. horizontaler Balken, Legende, gestapelte und gruppierte Balken. Beitrag basiert auf Gastvideo von Joachim Schork von Statistics Globe – Dank an Joachim!

Eigene R-Pakete erstellen: Gast-Video auf Statistics Globe

Vor kurzem erhielt ich eine Anfrage von Joachim Schork, ob ich mir eine Zusammenarbeit zwischen unseren Youtube-Kanälen Statistics Globe und StatistikinDD vorstellen kann. Darüber freute ich mich sehr – es wurde die erste Collab im Kontext meines Youtube-Kanals. In meinem Beitrag auf Statistics Globe geht es um die Erstellung eigener R-Pakete. Eigene R-Pakete erstellen: Warum … „Eigene R-Pakete erstellen: Gast-Video auf Statistics Globe“ weiterlesen

Statistik mit R leicht gemacht: Der R Commander – eine grafische Oberfläche

Wer neu mit Datenanalysen in R beginnt oder von anderen Statistik-Programmen kommt, mag es als Hürde empfinden, dass man nun Befehle kennen und eintippen muss. Doch es gibt Abhilfe in Form von grafischen Oberflächen. Eine davon ist der R Commander, mit dem man sich statistische Tests „zusammenklicken“ kann. Man erhält R-Code, mit dem man anschließend … „Statistik mit R leicht gemacht: Der R Commander – eine grafische Oberfläche“ weiterlesen

Statistische Gruppenvergleiche in R elegant visualisieren: ggstatsplot

Mit dem R-Paket ggstatsplot kann man sehr leicht Gruppenvergleiche mit statistischen Kennzahlen grafisch darstellen. Unterstützt werden Tests für abhängige und unabhängige Stichproben, parametrische und nichtparametrische Tests, robuste Tests sowie Bayes-Verfahren.

Mit dem R-Paket ggstatsplot kann man sehr leicht Gruppenvergleiche mit statistischen Kennzahlen grafisch darstellen. Unterstützt werden Tests für abhängige und unabhängige Stichproben, parametrische und nichtparametrische Tests, robuste Tests sowie Bayes-Verfahren.