In der Welt der Datenanalyse und Statistik gibt es eine Vielzahl von Metriken, die man verwendet, um die Qualität eines Modells zu bewerten. Eine der bekanntesten ist das Bestimmtheitsmaß, auch bekannt als R-squared. Doch was genau bedeutet dieses Maß, wie berechnet man es und wie sollte man es interpretieren? In diesem Beitrag tauchen wir in das Thema ein.

Was ist das Bestimmtheitsmaß?
Das Bestimmtheitsmaß ist ein statistisches Maß, das den Anteil der Varianz einer abhängigen Variablen erklärt, der durch ein unabhängiges Modell vorhergesagt werden kann. Mit anderen Worten, es zeigt, wie gut das Modell die Daten erklären kann.
Die Formel für das Bestimmtheitsmaß
Die Berechnung des Bestimmtheitsmaßes basiert auf der Gesamtvarianz (Gesamtquadratsumme) und der durch das Modell erklärten Varianz (Regressionquadratsumme). Die Formel lautet:
Hierbei bedeuten:
- SSR (Sum of Squared Residuals): Die Quadratsumme der Residuen.
- SST (Total Sum of Squares): Die Gesamtquadratsumme, die die gesamte Variabilität in den Daten darstellt.
Wie interpretiert man das Bestimmtheitsmaß?
Das Bestimmtheitsmaß ist ein Wert zwischen 0 und 1 (oder 0 % bis 100 %). Ein höherer Wert zeigt an, dass das Modell einen größeren Anteil der Varianz der abhängigen Variable erklärt. Eine Interpretation könnte wie folgt aussehen:
- R-squared = 0: Das Modell erklärt keine Varianz in den Daten.
- R-squared = 1: Das Modell erklärt 100 % der Varianz in den Daten (perfekte Anpassung).
- Zwischenwerte: Zeigen, wie viel der Gesamtvarianz erklärt wird. Zum Beispiel bedeutet R-squared = 0.85, dass 85 % der Varianz durch das Modell erklärt werden.
Wichtige Einschränkungen des Bestimmtheitsmaßes
Obwohl das Bestimmtheitsmaß ein nützliches Maß ist, hat es auch einige Einschränkungen:
- Ein hoher Wert garantiert nicht, dass das Modell gut ist. Es könnte überangepasst sein.
- Das Maß berücksichtigt nicht die Anzahl der unabhängigen Variablen. Eine modifizierte Version, das adjusted R-squared, behebt dieses Problem teilweise.
- Es misst nur die lineare Beziehung zwischen Variablen. Nicht-lineare Beziehungen kann man so übersehen.
Interaktive Anwendung zur Berechnung
Die nachfolgende interaktive Anwendung ermöglicht die Berechnung des R-squared-Wertes auf Grundlage der eingegebenen Werte für SSR (Sum of Squared Residuals) und SST (Total Sum of Squares). Im ersten Eingabefeld wird der Wert für SSR eingetragen, im zweiten der Wert für SST. Nach einem Klick auf den Berechnungsbutton kann man das Ergebnis direkt unterhalb der Eingabefelder ablesen. Die Anwendung erlaubt es, unterschiedliche Werte auszuprobieren, um den Zusammenhang zwischen den Quadratsummen und dem R-squared-Wert zu verdeutlichen.
Interaktive Berechnung von R-squared
Geben Sie die Werte für SSR und SST ein, um den R-squared-Wert zu berechnen:
R-squared:
Fazit
Das Bestimmtheitsmaß ist ein wertvolles Werkzeug, um die Güte eines Modells zu bewerten. Man sollte es jedoch immer im Kontext anderer Metriken und der spezifischen Problemstellung betrachten. Durch das Verständnis der Stärken und Schwächen dieses Maßes können Datenanalysten fundiertere Entscheidungen treffen und bessere Modelle entwickeln.