Statistik 1 Cheatsheet

Das hier ist eine semi-interaktive Formelsammlung über alle wichtigen Formeln der Statistik 1 Vorlesung. Zu den meisten Formeln und Tests sind entsprechende R Beispiele zur Berechnung beigefügt - diese am besten per Copy-Paste in RStudio einfügen und eigene Werte einsetzen. Folgende Pakete werden zum Ausführen der Codebeispiele benötigt:

install.packages(c("DescTools", "effsize", "MBESS", "pwr"))

Inhaltsverzeichnis

Deskriptive Statistik

Grundbegriffe

Absolute Häufigkeit

H(xj)H(x_j)

vec = c("A","A","B","A","C","B")
table(vec)

Absolute kummulierte Häufigkeit

Hkum(xk)=j=1kH(xj)H_{kum}(x_k) = \sum_{j=1}^{k} H(x_j)

vec = c("A","A","B","A","C","B")
cumsum(table(vec))

Relative Häufigkeit

h(xj)=H(xj)nh(x_j) = \frac{H(x_j)}{n}

vec = c("A","A","B","A","C","B")
prop.table(table(vec))

Relative kummulierte Häufigkeit

hkum(xk)=Hkum(xk)n=j=1kH(xj)nh_{kum}(x_k) = \frac{H_{kum}(x_{k})}{n} = \frac{\sum_{j=1}^{k} H(x_j)}{n}

vec = c("A","A","B","A","C","B")
cumsum(prop.table(table(vec)))

Modalwert

Die Messwertausprägung, die am häufigsten beobachtet wurde.

vec = c("A","A","B","A","C","B")
names(which.max(table(vec)))

Arithmetisches Mittel / Mean

Summe aller Messwerte geteilt durch Anzahl der Beobachtungen.

xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i

vec = c(1,2,3,4,5,6)
mean(vec)

Median

(Mindestend) 50% der Merkmalsträger haben einen Messwert, der kleiner oder gleich dem Median ist. Zur Berechnung müssen die Messwerte in aufsteigender Reihenfolge geordnet sein.

Md={x(n+12)falls n ungeradex(n2)+x(n2+1)2falls n geradeMd = \begin{cases} x_{(\frac{n+1}{2})} &\text{falls n ungerade} \\ \frac{x_{(\frac{n}{2})} + x_{(\frac{n}{2}+1)}}{2} &\text{falls n gerade} \end{cases}
vec = c(1,3,4,5,7)
median(vec)

Empirische Varianz

semp2=1ni=1n(xixˉ)2s_{emp}^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2

vec = c(1,2,3,4,5,6,7,10,12)
n = length(vec)
((n-1)/n)*var(vec)

Empirische Standardabweichung

semp=semp2=1ni=1n(xixˉ)2s_{emp} = \sqrt{s_{emp}^{2}} = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2}

vec = c(1,2,3,4,5,6,7,10,12)
n = length(vec)
sqrt(((n-1)/n)*var(vec))

Quantile

 
vec = c(1,2,3,4,5,6,7,8,9,10,11,12)
quantile(vec, probs=c(0.25,0.5,0.75))
 
 

Interquartilabstand

 
vec = c(1,2,3,4,5,6,7,8,9,10,11,12)
IQR(vec, type=6)
 
 

Barplot

vec = c(1,1,1,2,2,5,5,5,9)
barplot(table(vec))

Histogram

vec = c(0,1,1,1.5,2,2,3,5,5,5)
hist(vec)

Boxplot

vec = c(0,0,1,1,1,2,2,5,5,5,9,15)
boxplot(vec)

Kovarianz und Korrelation

Kovarianz (empirisch)

Richtung eines Zusammenhangs.

covemp(x,y)=1ni=1nLi=1ni=1n(xixˉ)(yiyˉ)\operatorname{cov}_{emp}(x, y)=\frac{1}{n} \sum_{i=1}^{n} L_{i}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)

Symmetrie:

covemp(x,y)=covemp(y,x)\operatorname{cov}_{emp}(x, y)= \operatorname{cov}_{emp}(y, x)

Kovarianz mit sich selbst ist gleich der empirischen Varianz.

covemp(x,x)=1ni=1n(xixˉ)(xixˉ)=1ni=1n(xixˉ)2=semp2\operatorname{cov}_{emp}(x, x)=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(x_{i}-\bar{x}\right)=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}=s_{emp}^{2}

Zusammenhang mit Steigung der Geraden durch das Streudiagram:

covemp(x,y)=bsxemp2\operatorname{cov}_{emp}(x, y)=b \cdot s_{xemp}^{2}
x = c(1,2,3,4,5,6)
y = c(7,8,9,10,11,12)
 
cov(x,y)

z-standardisierung

Die Transformation der z-Standardisierung ist für jeden Messwert so definiert:

zi=xixˉsempz_{i}=\frac{x_{i}-\bar{x}}{s_{emp}}

zˉ=0sempz=1\begin{aligned} \bar{z} &=0 \\ s_{empz} &=1 \end{aligned}
x = c(1,2,3,4,5,6)
(x-mean(x))/sqrt(((length(x)-1)/length(x))*var(x))

Pearson Korrelation

rxy=covemp(zx,zy)=1ni=1n(zxizˉx)(zyizˉy)=1ni=1nzxizyir_{x y}=\operatorname{cov}_{emp}\left(z_{x}, z_{y}\right)=\frac{1}{n} \sum_{i=1}^{n}\left(z_{x_{i}}-\bar{z}_{x}\right)\left(z_{y_{i}}-\bar{z}_{y}\right)=\frac{1}{n} \sum_{i=1}^{n} z_{x_{i}} \cdot z_{y_{i}} =1ni=1n(xixˉsempx)(yiyˉsempy)=1ni=1n(xixˉ)(yiyˉ)sempxsempy= \frac{1}{n} \sum_{i=1}^{n}\left(\frac{x_{i}-\bar{x}}{s_{emp x}}\right)\left(\frac{y_{i}-\bar{y}}{s_{emp y}}\right)=\frac{1}{n} \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{s_{emp x} \cdot s_{emp y}}

Symmetrie:

rxy=ryxr_{x y}=r_{y x}

Die Korrelation entspricht der Steigung der Gerade durch das Streudiagram

rxy=bzr_{x y}=b_{z}

Alternative Formel:

rxy=covemp(x,y)SempxSempyr_{x y}=\frac{\operatorname{cov}_{emp}(x, y)}{S_{emp x} \cdot S_{emp y}}
x = c(1,2,3,4,5,6)
y = c(7,8,9,10,11,12)
 
cor(x,y)

Wahrscheinlichkeitstheorie

Grundbegriffe WkT

Erwartungswert von Zufallsvariablen

E(X)=j=1mxjP(X=xj)=j=1mxjf(xj)E(X)=\sum_{j=1}^{m} x_{j} \cdot P\left(X=x_{j}\right)=\sum_{j=1}^{m} x_{j} \cdot f\left(x_{j}\right)

Falls die ZV stetig ist:

E(X)=+xf(x)dxE(X)=\int_{-\infty}^{+\infty} x \cdot f(x) d x

Rechenregeln für den Erwartungswert

E(a)=aE(X+a)=E(X)+aE(aX)=aE(X)E(X+Y)=E(X)+E(Y)E(i=1nXi)=i=1nE(Xi)\begin{array}{c} E(a)=a \\ E(X+a)=E(X)+a \\ E(a \cdot X)=a \cdot E(X) \\ E(X+Y)=E(X)+E(Y) \\ E\left(\sum_{i=1}^{n} X_{i}\right)=\sum_{i=1}^{n} E\left(X_{i}\right) \end{array}
# Erwartungswert aus gegebener diskreter Wahrscheinlichkeitsfunktion
x = c(-4,-3,-2,-1)
fx = c(0.3,0.1,0.4,0.2)
 
sum(x*fx)
# Erwartungswert aus gegebener diskreter Wahrscheinlichkeitsverteilung
x = c(-4,3,4,20,22)
Fx = c(0.1,0.2,0.3,0.8,1)
 
fx = c(Fx[[1]])
for(i in 2:length(Fx)){fx[i] = Fx[[i]]-Fx[[i-1]]}
 
sum(x*fx)

Varianz und Standardabweichung von Zufallsvariablen

Varianz:

Var(X)=j=1m(xjE(X))2P(X=xj)=j=1m(xjE(X))2f(xj)\operatorname{Var}(X)=\sum_{j=1}^{m}\left(x_{j}-E(X)\right)^{2} \cdot P\left(X=x_{j}\right)=\sum_{j=1}^{m}\left(x_{j}-E(X)\right)^{2} \cdot f\left(x_{j}\right)

Falls die ZV stetig ist:

Var(X)=+(xE(X))2f(x)dx\operatorname{Var}(X)=\int_{-\infty}^{+\infty}(x-E(X))^{2} \cdot f(x) d x

Standardabweichung:

SD(X)=Var(X)S D(X)=\sqrt{\operatorname{Var}(X)}

Rechenregeln für Varianz und Standardabweichung:

Var(X+a)=Var(X)SD(X+a)=SD(X)Var(aX)=a2Var(X)SD(aX)=aSD(X)\begin{array}{c} \operatorname{Var}(X+a)=\operatorname{Var}(X) \\ S D(X+a)=S D(X) \\ \operatorname{Var}(a \cdot X)=a^{2} \cdot \operatorname{Var}(X) \\ S D(a \cdot X)=a \cdot \operatorname{SD}(X) \end{array}
# Varianz, Standardabweichung aus gegebener diskreter Wahrscheinlichkeitsfunktion
x = c(-4,-3,-2,-1)
fx = c(0.3,0.1,0.4,0.2)
 
e = sum(x*fx)
varemp = sum((x-e)**2*fx)
 
varemp
sqrt(varemp)
 
# Varianz, Standardabweichung aus gegebener diskreter Wahrscheinlichkeitsverteilung
x = c(-4,3,4,20,22)
Fx = c(0.1,0.2,0.3,0.8,1)
 
fx = c(Fx[[1]])
for(i in 2:length(Fx)){fx[i] = Fx[[i]]-Fx[[i-1]]}
 
e = sum(x*fx)
varemp = sum((x-e)**2*fx)
 
varemp
sqrt(varemp)

z-standardisierung von Zufallsvariablen

Analog zur Deskriptivstatistik.

Z=XE(X)SD(X)Z=\frac{X-E(X)}{S D(X)} E(Z)=0SD(Z)=1\begin{array}{l} \mathrm{E}(Z)=0 \\ SD(Z)=1 \end{array}

Konkrete Wahrscheinlichkeitsfunktionen

Bernoulli Verteilung

XBe(π)X \sim \operatorname{Be}(\pi)

TX={0,1}T_{X}=\{0,1\}

Wahrscheinlichkeitsfunktion

f(0)=P(X=0)=1πf(1)=P(X=1)=π\begin{array}{l} f(0)=P(X=0)=1-\pi \\ f(1)=P(X=1)=\pi \end{array}

f(xj)=πxj(1π)1xjf\left(x_{j}\right)=\pi^{x_{j}}(1-\pi)^{1-x_{j}}

Verteilungsfunktion

F(0)=1πF(1)=1\begin{array}{c} F(0)=1-\pi \\ F(1)=1 \end{array}

Erwartungswert, Standardabweichung:

E(X)=πE(X)=\pi

SD(X)=π(1π)SD(X)=\sqrt{\pi(1-\pi)}

Binomialverteilung

XB(n,π)X \sim B(n, \pi)

TX={0,1,2,...,n}T_{X}=\{0,1,2,...,n\}

Voraussetzungen:

X1,X2,,XnX_{1}, X_{2}, \ldots, X_{n}

XiBe(π)X_{i} \sim Be(\pi)

X=i=1nXiX=\sum_{i=1}^{n} X_{i}

Exkurs: Binomialkoeffizient

(nk)=n!k!(nk)!\left(\begin{array}{l} n \\ k \end{array}\right)=\frac{n !}{k !(n-k) !}

Wahrscheinlichkeitsfunktion

f(xj)=(nxj)πxj(1π)nxjf\left(x_{j}\right)=\left(\begin{array}{l} n \\ x_{j} \end{array}\right) \pi^{x_{j}}(1-\pi)^{n-x_{j}}

Verteilungsfunktion:

F(xk)=j=1kf(xj)=j=1k(nxj)πxj(1π)nxjF\left(x_{k}\right)=\sum_{j=1}^{k} f\left(x_{j}\right)=\sum_{j=1}^{k}\left(\begin{array}{l} n \\ x_{j} \end{array}\right) \pi^{x_{j}}(1-\pi)^{n-x_{j}}

Erwartungswert, Standardabweichung:

E(X)=nπE(X)=n \pi

SD(X)=nπ(1π)S D(X)=\sqrt{n \pi(1-\pi)}

R Funktionen

p = 0.5
n = 100
 
dbinom(x=40, size=n, prob=p) # Wahrscheinlichkeitsfunktion
pbinom(q=70, size=n, prob=p) # Verteilungsfunktion
qbinom(p=0.25, size=n, prob=p) # Quantile
rbinom(n=20, size=n, prob=p) # Zufallsgeneration nach Binomialverteilung

Normalverteilung

XN(μ,σ2)X \sim N\left(\mu, \sigma^{2}\right)

TX=RT_{X}=\mathbb{R}

Wichtige Eigenschaften:

  • Ihre Dichtefunktion hat ihr Maximum an der Stelle x=μx = \mu
  • Ihre Dichtefunktion ist symmetrisch um μ\mu
    • f(μ+c)=f(μc)f(\mu+c)=f(\mu-c)
    • P(Xμc)=P(Xμ+c)P(X \leq \mu-c)=P(X \geq \mu+c)
    • P(Xμ)=0.5P(X \leq \mu)=0.5
  • Je weiler x von μ\mu entfernt ist, desto kleiner ist die Dichte

Wahrscheinlichkeitsdichtefunktion:

f(x)=12πσ2e(12(xμ)2σ2)f(x)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{(-\frac{1}{2} \cdot \frac{(x-\mu)^{2}}{\sigma^{2}})}

Erwartugnswert, Varianz, Standardabweichung:

E(X)=μE(X)=\mu

Var(X)=σ2Var(X)=\sigma^2

SD(X)=σSD(X)=\sigma

R Funktionen

mu = 3
sigma = 2
 
dnorm(x=3, mean = mu, sd = sigma) # Wahrscheinlichkeitsdichtefunktion
pnorm(q=0.5, mean = mu, sd = sigma) # Verteilungsfunktion
qnorm(p=0.25, mean = mu, sd = sigma) # Quantile
rnorm(n=20, mean = mu, sd = sigma) # Zufallsgeneration nach Normalverteilung

z-standardisierung (Standardnormalvcerteilung):

Z=XE(X)SD(X)=XμσZ=\frac{X-E(X)}{S D(X)}=\frac{X-\mu}{\sigma}

ZN(0,1)Z \sim N(0,1)

t-Verteilung

Tt(v)T \sim t(v)

TT=RT_{T}=\mathbb{R}

Erwartungswert (ν\nu > 1):

E(T)=0E(T)=0

Nützliche Eigenschaft:

t1α2=tα2t_{1-\frac{\alpha}{2}}=-t_{\frac{\alpha}{2}}

Bemerke: Für hohe n nähert sich die Kurve der t-Verteilung der der Standardnormalverteilung an.

R Funktionen

v = 24
 
 
pt(q=1.4, df=v) # Verteilungsfunktion
qt(p=0.25, df=v) # Quantile
 
dt(x=0.2, df=v) # Wahrscheinlichkeitsdichtefunktion - uninteressant
rt(n=20, df=v) # Zufallsgeneration nach Normalverteilung - uninteressant

Zentraler Grenzwertsatz

Seien X1,X2,,Xi,,XnX_{1}, X_{2}, \ldots, X_{i}, \ldots, X_{n} Zufallsvariablen mit Xi iid PX_{i} \stackrel{\text { iid }}{\sim} P, wobei P eine völlig beliebige Wahrscheinlichkeitsverteilung ist. Für

Z=XˉE(Xˉ)SD^(Xˉ)Z^{*}=\frac{\bar{X}-E(\bar{X})}{\widehat{S D}(\bar{X})} gilt dann

limnPZ=N(0,1)\lim _{n \rightarrow \infty} P_{Z^{*}}=N(0,1)

also für großes n

ZaN(0,1)Z^{*} \stackrel{\mathrm{a}}{\sim} N(0,1)

Parameterschätzung

Notation

Parameter

  • μ\mu, σ2\sigma^{2}, π\pi

Allgemeine Schätzfunktion

  • μ^\hat\mu, σ^2\hat\sigma^{2}, π^\hat\pi

Allgemeine Schätzwerte

  • μ^Wert\hat\mu_{Wert}, σ^Wert2\hat\sigma^{2}_{Wert}, π^Wert\hat\pi_{Wert}

Konkrete Schätzfunktionen

  • Xˉ\bar{X}, Semp2S_{emp}^{2}, S2S^{2}

Konkrete Schätzwerte

  • xˉ\bar{x}, semp2s_{emp}^{2}, s2s^{2}

Gütekriterien von Schätzfunktionen

Erwarungstreue E(θ^)=θE(\hat{\theta})=\theta

Standardfehler SE(θ^)=SD(θ^)S E(\hat{\theta})=S D(\hat{\theta})

Effizienz: Erwartungstreu und kleinsten Standardfehler aller erwartungstreuen Schätzfunktionen für den Parameter

Konsistenz: limnSE(θ^)=0\lim _{n \rightarrow \infty} SE(\hat{\theta})=0

Schätzung für π\pi einer Bernoulli-Verteilung

X1,X2,,XnmitXiiidBe(π)X_{1}, X_{2}, \ldots, X_{n} \operatorname{mit} X_{i} \stackrel{\mathrm{iid}}{\sim} \mathrm{Be}(\pi)

Punkt

Schätzfunktion:

π^=Xˉ=1ni=1nXi\hat{\pi}=\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} Erwartungswert:

E(π^)=E(Xˉ)=πE(\hat{\pi})=E(\bar{X}) = \pi

Standardfehler:

SE(π^)=π(1π)nS E(\hat{\pi})=\sqrt{\frac{\pi(1-\pi)}{n}}

π^=Xˉ\hat{\pi}=\bar{X} ist erwartungstreu, effizient und konsistent.

Konfidenzintervall

(Approximatives) Konfidenzintervall mit Konfidenzniveau 1α1-\alpha: I(X1,,Xn)=[U,O]=[Xˉz1α2Xˉ(1Xˉ)n,Xˉ+z1α2Xˉ(1Xˉ)n]I\left(X_{1}, \ldots, X_{n}\right)=[U, O]=\left[\bar{X}-z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\bar{X}(1-\bar{X})}{n}}, \bar{X}+z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\bar{X}(1-\bar{X})}{n}}\right] ZaN(0,1)Z^{*} \stackrel{\mathrm{a}}{\sim} N(0,1)

R Code

conf.level = 0.90
 
vec = c(1,1,1,0,0)
n = length(vec)
 
#Punktschaetzung
x_quer = mean(vec)
x_quer
 
# Konfidenzintervall von Hand
c = qnorm(1-((1-conf.level)/2), mean=0,sd=1) * sqrt(((x_quer*(1-x_quer))/n))
c(x_quer - c, x_quer + c)
 
# Konfidenzintervall mit R Funktion
library(DescTools)
BinomCI(x_quer*n,n,method='wald', conf.level = conf.level)

Schätzung für μ\mu einer Normalverteilung

X1,X2,,XnmitXiiidN(μ,σ2)X_{1}, X_{2}, \ldots, X_{n} \operatorname{mit} X_{i} \stackrel{\mathrm{iid}}{\sim} N\left(\mu, \sigma^{2}\right)

Punkt

Schätzfunktion:

μ^=Xˉ=1ni=1nXi\hat{\mu}=\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i}

Erwartungswert:

E(Xˉ)=μE(\bar{X}) = \mu

Standardfehler:

SE(Xˉ)=σ2nSE(\bar{X})=\sqrt{\frac{\sigma^{2}}{n}}

μ^=Xˉ\hat{\mu}=\bar{X} ist erwartungstreu, effizient und konsistent.

Konfidenzintervall

Wahrscheinlichkeitsverteilung von Xˉ\bar{X}

XˉN(μ,σ2n)\bar{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right)

Konfidenzintervall mit Konfidenzniveau 1α1-\alpha:

Beidseitig:

I(X1,,Xn)=[U,O]=[Xˉt1α2S2n,Xˉ+t1α2S2n]I\left(X_{1}, \ldots, X_{n}\right)=[U, O]=\left[\bar{X}-t_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{S^{2}}{n}}, \bar{X}+t_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{S^{2}}{n}}\right]

Rechtsseitig:

I(X1,,Xn)=[U,O]=[Xˉt1αS2n,[I\left(X_{1}, \ldots, X_{n}\right)=[U, O]=\left[\bar{X}-t_{1-\alpha} \cdot \sqrt{\frac{S^{2}}{n}}, \infty\right[

Linksseitig:

I(X1,,Xn)=[U,O]=],Xˉ+t1αS2n]I\left(X_{1}, \ldots, X_{n}\right)=[U, O]=\left]-\infty, \bar{X}+t_{1-\alpha} \cdot \sqrt{\frac{S^{2}}{n}}\right]

Tt(n1)T \sim t(n-1)

  • Falls Varianz bekannt, z-Quantile (ZN(0,1)Z \sim N(0,1)) statt t-Quantilen verwenden

R Code

conf.level = 0.95
 
vec = c(100,80,90,120)
n = length(vec)
 
#Punktschaetzung
x_quer = mean(vec)
x_quer
 
s2 = var(vec)
 
# Konfidenzintervall von Hand
c = qt(1-((1-conf.level)/2), df=n-1) * sqrt(s2/n)
c(x_quer-c, x_quer+c)
 
# Konfidenzintervall mit R Funktion
t.test(vec, conf.level=conf.level)

Schätzung für σ2\sigma^{2} einer Normalverteilung

X1,X2,,XnmitXiiidN(μ,σ2)X_{1}, X_{2}, \ldots, X_{n} \operatorname{mit} X_{i} \stackrel{\mathrm{iid}}{\sim} N\left(\mu, \sigma^{2}\right)

! Semp2S_{emp}^{2} ist nicht erwartungstreu für σ2\sigma^{2} !

Schätzfunktion:

σ^2=S2=1n1i=1n(XiXˉ)2\hat{\sigma}^{2}=S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}

Erwartungswert: E(S2)=σ2E\left(S^{2}\right)=\sigma^{2}

Standardfehler: SD(σ^2)=2σ4n1S D\left(\hat{\sigma}^{2}\right)=\sqrt{\frac{2 \sigma^{4}}{n-1}}

σ^2=S2\hat{\sigma}^{2}=S^{2} ist erwartungstreu, effizient und konsistent.

R Code

vec = c(100,80,90,120)
n = length(vec)
 
#Punktschaetzung
var(vec)

Schätzung für μ1μ2\mu_1 - \mu_2 einer Normalverteilung für unabhängige Stichproben

X11,X12,,X1n1mitX1iN(μ1,σ2)X_{11}, X_{12}, \ldots, X_{1 n_{1}} \operatorname{mit} X_{1 i} \sim N\left(\mu_{1}, \sigma^{2}\right) X21,X22,,X2n2 mit X2iN(μ2,σ2)X_{21}, X_{22}, \ldots, X_{2 n_{2}} \text { mit } X_{2 i} \sim N\left(\mu_{2}, \sigma^{2}\right)

Punkt

Schätzfunktion:

XˉDiff =Xˉ1Xˉ2\bar{X}_{\text {Diff }}=\bar{X}_{1}-\bar{X}_{2}

Erwartungswert:

E(XˉDiff )=E(Xˉ1Xˉ2)=μ1μ2E\left(\bar{X}_{\text {Diff }}\right)=E\left(\bar{X}_{1}-\bar{X}_{2}\right)=\mu_{1}-\mu_{2}

Standardfehler:

SE(XˉDiff)=σ2n1+σ2n2S E\left(\bar{X}_{D i f f}\right)=\sqrt{\frac{\sigma^{2}}{n_{1}}+\frac{\sigma^{2}}{n_{2}}}

XˉDiff\bar{X}_{Diff} ist erwartungstreu, effizient und konsistent (für n1 und n2n_{1} \rightarrow \infty \text { und } n_{2} \rightarrow \infty).

Gepoolte Varianz:

Spool 2=(n11)S12+(n21)S22n1+n22S_{\text {pool }}^{2}=\frac{\left(n_{1}-1\right) \cdot S_{1}^{2}+\left(n_{2}-1\right) \cdot S_{2}^{2}}{n_{1}+n_{2}-2}

Sonderfall für n1=n2n_{1}=n_{2}:

Spool 2=S12+S222S_{\text {pool }}^{2}=\frac{S_{1}^{2}+S_{2}^{2}}{2}

 
vec1 = c(-10,0,-20,-11,-22)
vec2 = c(0,-10,5)
 
# Wenn nur Werte und keine Daten vorliegen, diese Werte durch eigene ersetzen
n1 = length(vec1)
n2 = length(vec2)
 
s2_1 = var(vec1)
s2_2 = var(vec2)
 
((n1-1)*s2_1+(n2-1)*s2_2)/(n1+n2-2)

Konfidenzintervall

Beidseitig:

I(X1,,Xn)=[(Xˉ1Xˉ2)t1α2Spool 2n1+Spool 2n2,(Xˉ1Xˉ2)+t1α2Spool 2n1+Spool 2n2]I\left(X_{1}, \ldots, X_{n}\right)=\left[\left(\bar{X}_{1}-\bar{X}_{2}\right)-t_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{S_{\text {pool }}^{2}}{n_{1}}+\frac{S_{\text {pool }}^{2}}{n_{2}}},\left(\bar{X}_{1}-\bar{X}_{2}\right)+t_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{S_{\text {pool }}^{2}}{n_{1}}+\frac{S_{\text {pool }}^{2}}{n_{2}}}\right]

Rechtsseitig:

I(X1,,Xn)=[(Xˉ1Xˉ2)t1αSpool 2n1+Spool 2n2,[I\left(X_{1}, \ldots, X_{n}\right)=\left[\left(\bar{X}_{1}-\bar{X}_{2}\right)-t_{1-\alpha} \cdot \sqrt{\frac{S_{\text {pool }}^{2}}{n_{1}}+\frac{S_{\text {pool }}^{2}}{n_{2}}}, \infty \right[

Linksseitig:

I(X1,,Xn)=],(Xˉ1Xˉ2)+t1αSpool 2n1+Spool 2n2]I\left(X_{1}, \ldots, X_{n}\right)=\left] -\infty,\left(\bar{X}_{1}-\bar{X}_{2}\right)+t_{1-\alpha} \cdot \sqrt{\frac{S_{\text {pool }}^{2}}{n_{1}}+\frac{S_{\text {pool }}^{2}}{n_{2}}}\right]

Tt(n1+n22)T \sim t\left(n_{1}+n_{2}-2\right)

  • Falls Varianz bekannt, z-Quantile (ZN(0,1)Z \sim N(0,1)) statt t-Quantilen verwenden

R Code

conf.level = 0.99
 
vec1 = c(-10,0,-20,-11,-22)
vec2 = c(0,-10,5)
 
x_quer1 = mean(vec1)
x_quer2 = mean(vec2)
 
n1 = length(vec1)
n2 = length(vec2)
 
# Punktschaetzung
xdiff_quer = mean(vec1)-mean(vec2)
xdiff_quer
 
# Konfidenzintervall von Hand
s2_1 = var(vec1)
s2_2 = var(vec2)
s2pool = ((n1-1)*s2_1+(n2-1)*s2_2)/(n1+n2-2)
 
c = qt(1-((1-conf.level)/2), df = n1+n2-2) * sqrt(s2pool/n1 + s2pool/n2)
 
c(xdiff_quer-c, xdiff_quer+c)
 
# Konfidenzintervall mit R Funktion
t.test(vec1,vec2,paired=FALSE,var.equal = TRUE,conf.level=conf.level)

Schätzung für μ1μ2\mu_1 - \mu_2 einer Normalverteilung für abhängige Stichproben

Xi Diff =Xi1Xi2X_{i \text { Diff }}=X_{i 1}-X_{i 2}

Xi Diff iidN(μ1μ2,σDiff 2)X_{i \text { Diff }} \stackrel{\mathrm{iid}}{\sim} N\left(\mu_{1}-\mu_{2}, \sigma_{\text {Diff }}^{2}\right)

Punkt

Schätzfunktion:

XˉDiff =Xˉ1Xˉ2\bar{X}_{\text {Diff }}=\bar{X}_{1}-\bar{X}_{2}

Erwartungswert:

E(XˉDiff )=E(Xˉ1Xˉ2)=μ1μ2E\left(\bar{X}_{\text {Diff }}\right)=E\left(\bar{X}_{1}-\bar{X}_{2}\right)=\mu_{1}-\mu_{2}

Standardfehler:

SE(XˉDiff )=σDiff 2nS E\left(\bar{X}_{\text {Diff }}\right)=\sqrt{\frac{\sigma_{\text {Diff }}^{2}}{n}}

XˉDiff\bar{X}_{Diff} ist erwartungstreu, effizient und konsistent (für nn\rightarrow\infty ).

Konfidenzintervall

Beidseitig:

I(X1,,Xn)=[XˉDifft1α2SDiff2n,XˉDiff+t1α2SDiff2n]I\left(X_{1}, \ldots, X_{n}\right)=\left[\bar{X}_{Diff}-t_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{S_{D i f f}^{2}}{n}},\bar{X}_{Diff}+t_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{S_{D i f f}^{2}}{n}}\right]

Rechtsseitig:

I(X1,,Xn)=[XˉDifft1αSDiff2n,[I\left(X_{1}, \ldots, X_{n}\right)=\left[\bar{X}_{Diff}-t_{1-\alpha} \cdot \sqrt{\frac{S_{D i f f}^{2}}{n}},\infty\right[

Linksseitig:

I(X1,,Xn)=],XˉDiff+t1αSDiff2n]I\left(X_{1}, \ldots, X_{n}\right)=\left]-\infty ,\bar{X}_{Diff}+t_{1-\alpha} \cdot \sqrt{\frac{S_{D i f f}^{2}}{n}}\right]

Tt(n1)T \sim t(n-1)

  • Falls Varianz bekannt, z-Quantile (ZN(0,1)Z \sim N(0,1)) statt t-Quantilen verwenden

R Code

conf.level = 0.99
 
# Muessen gleiche Laenge haben
vec1 = c(3,5,7,-9,-3)
vec2 = c(-3,-3,-4,-1,0)
n = length(vec1)
 
#Punkschaetzung
xdiff_quer = mean(vec1)-mean(vec2)
xdiff_quer
 
# Konfidenzintervall von Hand
s2diff = var(vec1-vec2)
c = qt(1-((1-conf.level)/2), df = n-1) * sqrt(s2diff/n)
c(xdiff_quer - c, xdiff_quer + c)
 
# Konfidenzintervall mit R Funktion
t.test(vec1,vec2,paired=TRUE,var.equal = TRUE,conf.level=conf.level)

Hypothesentests

  • H0{H_0} ist wahr, für H1{H_1} entschieden: Fehler erster Art
  • H1{H_1} ist wahr, für H0{H_0} entschieden: Fehler zweiter Art

Formulierung: [Ein/Zwei]stichproben [t-/Binomial]test (für [abhängige/unabhängige] Stichproben) über Parameter [μ\mu / π\pi /μ1μ2/\mu_1 - \mu_2] für [gerichtete/ungerichtete] Hypothesen

t-Wert berechnen: Punktschätzwerte bestimmen und in die jeweilige Teststatistik einsetzen

Kritischen Bereich bestimmen:

  • ungerichtet:
    • P(Ttkritlinks )=F(tkritlinks )=α2P(T \leq t_{\text {kritlinks }})=F(t_{\text {kritlinks }})=\frac{\alpha}{2}
      • klinks = qt(alpha/2,df)
    • P(Ttkritrechts )=1F(tkritrechts )=α2P(T \geq t_{\text {kritrechts }})=1-F(t_{\text {kritrechts }})=\frac{\alpha}{2}
      • krechts = qt(1-(alpha/2),df)
  • linksseitig:
    • P(Ttkrit)=F(tkrit)=αP\left(T \leq t_{k r i t}\right)=F\left(t_{k r i t}\right)=\alpha
      • qt(alpha,df)
  • rechtsseitig:
    • P(Ttkrit )=1F(tkrit )=αP\left(T \geq t_{\text {krit }}\right)=1-F\left(t_{\text {krit }}\right)=\alpha
      • qt(1-alpha,df)

p-Wert berechnen: t-Wert berechnen und

  • linksseitig: P(Tt)=F(t)P(T \leq t) = F(t)

    • pt(t, df)
  • rechtsseitig: P(Tt)=1F(t)P(T \geq t) = 1 - F(t)

    • 1-pt(t, df)
  • ungerichtet: 2P(Tt) falls t0 ist, 2P(Tt) falls t>0 ist. \begin{array}{l} 2 \cdot P(T \leq t) \text { falls } t\leq0 \text { ist, } \\ 2 \cdot P(T \leq-t) \text { falls } t>0 \text { ist. } \end{array}

    • if(t <= 0) 2*pt(t, df) else 2*pt(-t, df)

Parameter μ\mu

Teststatistik

T=Xˉμ0S2nH0t(n1)T=\frac{\bar{X}-\mu_{0}}{\sqrt{\frac{S^{2}}{n}}} \stackrel{H_{0}}{\sim} t(n-1)

Einstichprobe μ\mu ungerichtet

H0:μ=μ0H1:μμ0\begin{array}{l} H_{0}: \mu=\mu_{0} \\ H_{1}: \mu \neq \mu_{0} \end{array}

KT=],tkritlinks][tkritrechts,+[K_{T}=\left]-\infty, t_{\text{kritlinks}}\right] \cup \left[t_{\text{kritrechts}},+\infty\right[

 
alpha = 0.005
data = c(-20,-30,-70,-10,-50)
mu0 = -10
 
 
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n = length(data)
x_quer = mean(data)
s2 = var(data)
 
klinks = qt(alpha/2,df=n-1)
krechts = qt(1-(alpha/2),df=n-1)
paste("Krit. Bereich: ]-INF;", klinks,"] [", krechts, "; INF[", sep="")
 
t = (x_quer-mu0)/sqrt(s2/n)
t
 
p = if(t <= 0) 2*pt(t, n-1) else 2*pt(-t, n-1)
p
 
if(p <= alpha) print("H1 annehmen") else print("H0 annehmen")
 
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test(data, mu = mu0, alternative = 'two.sided')

Einstichprobe μ\mu linksgerichtet

H0:μμ0H1:μ<μ0\begin{array}{l} H_{0}: \mu \geq \mu_{0} \\ H_{1}: \mu<\mu_{0} \end{array}

KT=],tkrit]\left.\left.K_{T}=\right]-\infty, t_{k r i t}\right]

alpha = 0.005
data = c(-20,-30,-70,-10,-50)
mu0 = -10
 
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n = length(data)
x_quer = mean(data)
s2 = var(data)
 
klinks = qt(alpha,df=n-1)
paste("Krit. Bereich: ] -INF;", klinks,"]", sep="")
 
t = (x_quer-mu0)/sqrt(s2/n)
t
 
p = pt(t, n-1)
p
 
if(p <= alpha) print("H1 annehmen") else print("H0 annehmen")
 
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test(data, mu = mu0, alternative = 'less')
 

Einstichprobe μ\mu rechtsgerichtet

H0:μμ0H1:μ>μ0\begin{array}{l} H_{0}: \mu \leq \mu_{0} \\ H_{1}: \mu>\mu_{0} \end{array}

KT=[tkrit ,+[K_{T}=\left[t_{\text {krit }},+\infty[\right.

alpha = 0.005
data = c(-2,3,0,-3,1)
mu0 = 3
 
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n = length(data)
x_quer = mean(data)
s2 = var(data)
 
krechts = qt(1-alpha,df=n-1)
paste("Krit. Bereich: [", krechts,";INF[", sep="")
 
t = (x_quer-mu0)/sqrt(s2/n)
t
 
p = 1-pt(t, n-1)
p
 
if(p <= alpha) print("H1 annehmen") else print("H0 annehmen")
 
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test(data, mu = mu0, alternative = 'greater')

Parameter π\pi

Teststatistik

T=i=1nXiH0Bin(n,π0)T=\sum_{i=1}^{n} X_{i}\stackrel{H_{0}}{\sim} Bin(n,\pi_0)

Einstichprobe π\pi ungerichtet

H0:π=π0H1:ππ0\begin{array}{l} H_{0}: \pi=\pi_{0} \\ H_{1}: \pi \neq \pi_{0} \end{array}
hits = 43
n = 100
pi0 = 0.5
 
binom.test(x=hits, n=n, p=pi0, alternative='two.sided')
Einstichprobe π\pi linksseitig
H0:ππ0H1:π<π0\begin{array}{l} H_{0}: \pi \geq \pi_{0} \\ H_{1}: \pi<\pi_{0} \end{array}
hits = 43
n = 100
pi0 = 0.5
 
binom.test(x=hits, n=n, p=pi0, alternative='less')

Einstichprobe π\pi rechtsseitig

H0:ππ0H1:π>π0\begin{array}{l} H_{0}: \pi \leq \pi_{0} \\ H_{1}: \pi>\pi_{0} \end{array}

Besonderheit p-Wert Berechnung:

p=P(Tt)=1P(T<t)=1P(Tt1)=1F(t1)p = P(T \geq t)=1-P(T<t)=1-P(T \leq t-1)=1-F(t-1)

hits = 66
n = 100
pi0 = 0.5
 
binom.test(x=hits, n=n, p=pi0, alternative='greater')

Parameterdifferenz μ1μ2\mu_1 - \mu_2 unabhängig

Teststatistik

T=(Xˉ1Xˉ2)μ0Spool2n1+Spool2n2H0t(n1+n22)T=\frac{\left(\bar{X}_{1}-\bar{X}_{2}\right)-\mu_{0}}{\sqrt{\frac{S_{p o o l}^{2}}{n_{1}}+\frac{S_{p o o l}^{2}}{n_{2}}}}\stackrel{H_{0}}{\sim} t(n_1+n_2-2)

Zweistichprobe μ1μ2\mu_1 - \mu_2 unabhängig ungerichtet

H0:μ1μ2=μ0H1:μ1μ2μ0\begin{array}{l} H_{0}: \mu_{1}-\mu_{2}=\mu_{0} \\ H_{1}: \mu_{1}-\mu_{2} \neq \mu_{0} \end{array}

KT=],tkritlinks ][tkritrechts ,+[\left.\left.K_{T}=\right]-\infty, t_{\text {kritlinks }}\right] \cup\left[t_{\text {kritrechts }},+\infty[\right.

alpha = 0.005
data1 = c(-1,-4,-4,-3,-3)
data2 = c(-2,-4,-6)
mu0 = 0
 
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n1 = length(data1)
n2 = length(data2)
xdiff_quer = mean(data1)-mean(data2)
s2_1 = var(data1)
s2_2 = var(data2)
s2pool = ((n1-1)*s2_1+(n2-1)*s2_2)/(n1+n2-2)
 
klinks = qt(alpha/2,df=n1+n2-2)
krechts = qt(1-alpha/2,df=n1+n2-2)
paste("Krit. Bereich: ]-INF;", klinks,"] [", krechts, "; INF[", sep="")
 
t = (xdiff_quer-mu0)/sqrt(s2pool/n1 + s2pool/n2)
t
 
p = if(t <= 0) 2*pt(t, n1+n2-2) else 2*pt(-t, n1+n2-2)
p
 
if(p <= alpha) print("H1 annehmen") else print("H0 annehmen")
 
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test(data1, data2, mu = mu0, alternative = 'two.sided', paired = FALSE, var.equal= TRUE)
 

Zweistichprobe μ1μ2\mu_1 - \mu_2 unabhängig linksgerichtet

H0:μ1μ2μ0H1:μ1μ2<μ0\begin{array}{l} H_{0}: \mu_{1}-\mu_{2} \geq \mu_{0} \\ H_{1}: \mu_{1}-\mu_{2}<\mu_{0} \end{array}

KT=],tkrit]\left.\left.K_{T}=\right]-\infty, t_{k r i t}\right]

alpha = 0.005
data1 = c(-1,0,-2,-1,-4)
data2 = c(2,3,1,3,3)
mu0 = 1
 
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n1 = length(data1)
n2 = length(data2)
xdiff_quer = mean(data1)-mean(data2)
s2_1 = var(data1)
s2_2 = var(data2)
s2pool = ((n1-1)*s2_1+(n2-1)*s2_2)/(n1+n2-2)
 
klinks = qt(alpha,df=n1+n2-2)
paste("Krit. Bereich: ] -INF;", klinks,"]", sep="")
 
t = (xdiff_quer-mu0)/sqrt(s2pool/n1 + s2pool/n2)
t
 
p = pt(t, n1+n2-2)
p
 
if(p <= alpha) print("H1 annehmen") else print("H0 annehmen")
 
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test(data1, data2, mu = mu0, alternative = 'less', paired = FALSE, var.equal= TRUE)
 

Zweistichprobe μ1μ2\mu_1 - \mu_2 unabhängig rechtsgerichtet

H0:μ1μ2μ0H1:μ1μ2>μ0\begin{array}{l} H_{0}: \mu_{1}-\mu_{2} \leq \mu_{0} \\ H_{1}: \mu_{1}-\mu_{2}>\mu_{0} \end{array}

KT=[tkrit ,+[K_{T}=\left[t_{\text {krit }},+\infty[\right.

alpha = 0.005
data1 = c(100,200,100,200)
data2 = c(102,202,102,202,152)
mu0 = -2
 
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n1 = length(data1)
n2 = length(data2)
xdiff_quer = mean(data1)-mean(data2)
s2_1 = var(data1)
s2_2 = var(data2)
s2pool = ((n1-1)*s2_1+(n2-1)*s2_2)/(n1+n2-2)
 
krechts = qt(1-alpha,df=n1+n2-2)
paste("Krit. Bereich: [", krechts,";INF[", sep="")
 
t = (xdiff_quer-mu0)/sqrt(s2pool/n1 + s2pool/n2)
t
 
p = 1-pt(t, n1+n2-2)
p
 
if(p <= alpha) print("H1 annehmen") else print("H0 annehmen")
 
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test(data1, data2, mu = mu0, alternative = 'greater', paired = FALSE, var.equal= TRUE)

Parameterdifferenz μ1μ2\mu_1 - \mu_2 abhängig

Teststatistik

T=(Xˉdiff)μ0SDiff2nH0t(n1)T=\frac{(\bar{X}_{diff})-\mu_{0}}{\sqrt{\frac{S_{D i f f}^{2}}{n}}}\stackrel{H_{0}}{\sim} t(n-1)

Zweistichprobe μ1μ2\mu_1 - \mu_2 abhängig ungerichtet

H0:μ1μ2=μ0H1:μ1μ2μ0\begin{array}{l} H_{0}: \mu_{1}-\mu_{2}=\mu_{0} \\ H_{1}: \mu_{1}-\mu_{2} \neq \mu_{0} \end{array}

KT=],tkritlinks ][tkritrechts ,+[\left.\left.K_{T}=\right]-\infty, t_{\text {kritlinks }}\right] \cup\left[t_{\text {kritrechts }},+\infty[\right.

alpha = 0.005
data1 = c(-0.3,-0.4,0.2,0.5,0.7)
data2 = c(-0.3,0.3,0.4,0,0)
mu0 = 0
 
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n = length(data1)
xdiff_quer = mean(data1)-mean(data2)
s2diff = var(data1-data2)
 
 
klinks = qt(alpha/2,df=n-1)
krechts = qt(1-alpha/2,df=n-1)
paste("Krit. Bereich: ]-INF;", klinks,"] [", krechts, "; INF[", sep="")
 
t = (xdiff_quer-mu0)/sqrt(s2diff/n)
t
 
p = if(t <= 0) 2*pt(t, n-1) else 2*pt(-t, n-1)
p
 
if(p <= alpha) print("H1 annehmen") else print("H0 annehmen")
 
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test(data1, data2, mu = mu0, alternative = 'two.sided', paired = TRUE, var.equal= TRUE)

Zweistichprobe μ1μ2\mu_1 - \mu_2 abhängig linksgerichtet

H0:μ1μ2μ0H1:μ1μ2<μ0\begin{array}{l} H_{0}: \mu_{1}-\mu_{2} \geq \mu_{0} \\ H_{1}: \mu_{1}-\mu_{2}<\mu_{0} \end{array}

KT=],tkrit]\left.\left.K_{T}=\right]-\infty, t_{k r i t}\right]

alpha = 0.005
data1 = c(-10,-20,-20,-15,-8)
data2 = c(-20,-50,-70,-80,-90)
mu0 = 10
 
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n = length(data1)
xdiff_quer = mean(data1)-mean(data2)
s2diff = var(data1-data2)
 
klinks = qt(alpha,df=n-1)
paste("Krit. Bereich: ] -INF;", klinks,"]", sep="")
 
t = (xdiff_quer-mu0)/sqrt(s2diff/n)
t
 
p = pt(t, n-1)
p
 
if(p <= alpha) print("H1 annehmen") else print("H0 annehmen")
 
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test(data1, data2, mu = mu0, alternative = 'less', paired = TRUE, var.equal= TRUE)

Zweistichprobe μ1μ2\mu_1 - \mu_2 abhängig rechtsgerichtet

H0:μ1μ2μ0H1:μ1μ2>μ0\begin{array}{l} H_{0}: \mu_{1}-\mu_{2} \leq \mu_{0} \\ H_{1}: \mu_{1}-\mu_{2}>\mu_{0} \end{array}

KT=[tkrit ,+[K_{T}=\left[t_{\text {krit }},+\infty[\right.

alpha = 0.005
data1 = c(11,35,14,12,2)
data2 = c(10,40,30,10,15)
mu0 = 0
 
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n = length(data1)
xdiff_quer = mean(data1)-mean(data2)
s2diff = var(data1-data2)
 
krechts = qt(1-alpha,df=n-1)
paste("Krit. Bereich: [", krechts,";INF[", sep="")
 
t = (xdiff_quer-mu0)/sqrt(s2diff/n)
t
 
p = 1-pt(t, n-1)
p
 
if(p <= alpha) print("H1 annehmen") else print("H0 annehmen")
 
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test(data1, data2, mu = mu0, alternative = 'greater', paired = TRUE, var.equal= TRUE)

Effektstärke und Power

Cohen’s δ\delta (delta)

Unabhängige Stichproben:

δ=μ1μ2σ2\delta=\frac{\mu_{1}-\mu_{2}}{\sqrt{\sigma^{2}}} δ^Wert=xˉ1xˉ2spool 2\hat{\delta}_{W e r t}=\frac{\bar{x}_{1}-\bar{x}_{2}}{\sqrt{s_{\text {pool }}^{2}}}

data1 = c(0,0,-1)
data2 = c(2,0,1)
 
# Cohens Delta von Hand
n1 = length(data1)
n2 = length(data2)
xdiff_quer = mean(data1)-mean(data2)
s2_1 = var(data1)
s2_2 = var(data2)
s2pool = ((n1-1)*s2_1+(n2-1)*s2_2)/(n1+n2-2)
 
xdiff_quer/sqrt(s2pool)
 
# Cohens Delta mit R Funktion
library(effsize)
cohen.d(data1, data2)

Abhängige Stichproben - unkorrigiert:

δ=μ1μ2σDiff2\delta=\frac{\mu_{1}-\mu_{2}}{\sqrt{\sigma_{\text Diff}^{2}}}

δ^Wert=xˉ1xˉ2sDiff2\hat{\delta}_{W e r t}=\frac{\bar{x}_{1}-\bar{x}_{2}}{\sqrt{s_{D i f f}^{2}}}

Abhängige Stichproben - korrigiert:

δ=μ1μ2σDiff22(1ρX1X2)\delta=\frac{\mu_{1}-\mu_{2}}{\sqrt{\frac{\sigma_{\text Diff}^{2}}{2\cdot(1-\rho_{X_{1}X_{2}})}}}

δ^Wert=xˉ1xˉ2sDiff22(1rX1X2)\hat{\delta}_{W e r t}=\frac{\bar{x}_{1}-\bar{x}_{2}}{\sqrt{\frac{s_{\text Diff}^{2}}{2\cdot(1-r_{X_{1}X_{2}})}}}

data1 = c(-10,-20,-20,-15,-80)
data2 = c(-20,-50,-70,-80,-90)
 
# Cohens Delta mit R Funktion
library(effsize)
cohen.d(data1, data2, paired=TRUE)

Größen:

δ\delta0.20.50.8
Interpretationkleiner Effektmittlerer Effektgroßer Effekt

Konfidenzintervall für Cohen’s δ\delta

library(MBESS)
d_est = -0.54
n1 = 18
n2 = 18
 
ci.smd(smd=d_est,n.1=n1,n.2=n2,conf.level = 0.95)

Stichprobenplanung für Cohens’s δ\delta (Anzahl pro Gruppe)

library(MBESS)
 
d_guess = 0.5
conf.level = 0.95
width = 0.29
 
 
ss.aipe.smd(d_guess, conf.level, width)

Power

Wahrscheinlichkeit, dass sich die Teststatistik im kritischen Bereich realisiert, falls die H1H_1 gilt.

  • Je größer das Signifikanzniveau, desto größer die Power.
  • Je größer die Stichprobe, desto größer die Power.
  • Je größer der wahre Effekt, desto größer die Power.

4 Faktoren wirken aufeinander: Power (1β1-\beta), Signifikanzniveau (α\alpha), Effekt (δ\delta) und Stichprobengröße (n). 3 dieser Werte bestimmen jeweils den 4.

Power von Hypothesentest berechnen

Für die Berechnung der Power brauchen wir: Signifikanzniveau (α\alpha), (kleinst annehmbaren) Effekt (δ\delta) und Stichprobengröße (n).

library(pwr)
n = 1000 # Anzahl pro Gruppe
effect = -0.2
alpha = 0.005
 
type = 'one.sample' # oder 'two.sample' oder 'paired'
alternative = 'less' # oder 'greater' oder 'two.sided'
 
pwr.t.test(n=n,d=effect,sig.level=alpha, type=type, alternative=alternative)

Stichprobenplanung für Hypothesentest

Für die Planung der Stichprobengröße brauchen wir: Gewünschte Power (1β1-\beta), Signifikanzniveau (α\alpha), Effekt (δ\delta)

(n ist die Anzahl an Personen pro Gruppe)

library(pwr)
desired_power = 0.8
effect = -0.2
alpha = 0.005
 
 
type = 'one.sample' # oder 'two.sample' oder 'paired' - Typ des Hypothesentests
alternative = 'less' # oder 'greater' oder 'two.sided' - Richtung der H1
 
 
pwr.t.test(power=desired_power,d=effect,sig.level=alpha, type=type, alternative=alternative)

False Discovery Rate

  • Es werden N Studien betrachtet.
  • Alle führen statistische Hypothesentests mit dem Signifikanzniveau α\alpha durch
  • ρ\rho ist der Anteil der Studien, in denen die H0H_0 wahr ist. (Basisrate)
  • Alle Hypothesentests haben eine Power von (1β)(1-\beta)

Anzahl falsch positiver Entscheidungen

fp=αρNf p=\alpha \cdot \rho \cdot N

Anzahl richtig positiver Entscheidungen

rp=(1β)(1ρ)Nr p=(1-\beta) \cdot(1-\rho) \cdot N

False Discovery Rate

FDR=fpgp=fpfp+rp=αρNαρN+(1β)(1ρ)N=αραρ+(1β)(1ρ)F D R=\frac{f p}{g p}=\frac{f p}{f p+r p}=\frac{\alpha \cdot \rho \cdot N}{\alpha \cdot \rho \cdot N+(1-\beta) \cdot(1-\rho) \cdot N}=\frac{\alpha \cdot \rho}{\alpha \cdot \rho+(1-\beta) \cdot(1-\rho)}

R Code

alpha = 0.005
power = 0.95
baserate = 0.6
 
FDR = (alpha*baserate)/((alpha*baserate)+(power)*(1-baserate))
FDR
 
 
 
# Anzahl der false positives und right positives unter Angabe eines N
N = 10
fp = alpha*baserate*N
fp
 
rp = power*(1-baserate)*N
rp

Einflussgrößen

  • FDR umso niedriger ist, je kleiner das Signifikanzniveau α\alpha ist.
  • FDR umso niedriger ist, je höher die Power 1β1-\beta ist.
  • FDR umso höher ist, je höher die Basisrate ρ\rho ist.

Annahmen Inferenzstatistik

Relative Häufigkeit einer Messwertausprägung einer diskreten Variable in einer Population.

  • Annahmen: keine
  • Verfahren:
    • Intervallschätzung für π\pi
    • Hypothesentests: Binomialtest

Mittelwert einer metrischen Variable in einer Population

  • Annahmen:
    • Das Histogramm der interessierenden Variable in der Population kann durch die Dichtefunktion einer Normalverteilung approximiert werden.
  • Verfahren:
    • Intervallschätzung für μ\mu
    • Hypothesentests: Einstichproben t-Test

Differenz der Mittelwerte einer metrischen Variable in zwei Population. (unabhängig)

  • Annahmen:
    • Das Histogramm der interessierenden Variable kann in beiden Populationen durch die Dichtefunktion einer Normalverteilung approximiert werden. *Die empirische Varianz der interessierenden Variable ist in beiden Populationen gleich groß.
  • Verfahren:
    • Intervallschätzung: Konfidenzintervall für μ1μ2\mu_1 - \mu_2 bei unabhängigen Stichproben
    • Hypothesentests: Zweistichproben t-Test für unabhängige Stichproben

Differenz der Mittelwerte einer metrischen Variable in zwei Population. (abhängig)

  • Annahmen:
    • Das Histogramm der interessierenden Variable kann in beiden Populationen durch die Dichtefunktion einer Normalverteilung approximiert werden.
  • Verfahren:
    • Intervallschätzung: Konfidenzintervall für μ1μ2\mu_1 - \mu_2 bei abhängigen Stichproben
    • Hypothesentests: Zweistichproben t-Test für abhängige Stichproben

Bei großen Stichproben können Verletzungen der Annahmen vernachlässigt werden!

.