Statistik 1 Cheatsheet Das hier ist eine semi-interaktive Formelsammlung über alle wichtigen Formeln der Statistik 1 Vorlesung. Zu den meisten Formeln und Tests sind entsprechende R Beispiele zur Berechnung beigefügt - diese am besten per Copy-Paste in RStudio einfügen und eigene Werte einsetzen. Folgende Pakete werden zum Ausführen der Codebeispiele benötigt:
install.packages ( c ( "DescTools" , "effsize" , "MBESS" , "pwr" ))
Inhaltsverzeichnis Deskriptive Statistik Grundbegriffe Absolute Häufigkeit H ( x j ) H(x_j) H ( x j )
vec = c ( "A" , "A" , "B" , "A" , "C" , "B" )
table (vec)
Absolute kummulierte Häufigkeit H k u m ( x k ) = ∑ j = 1 k H ( x j ) H_{kum}(x_k) = \sum_{j=1}^{k} H(x_j) H k u m ( x k ) = ∑ j = 1 k H ( x j )
vec = c ( "A" , "A" , "B" , "A" , "C" , "B" )
cumsum ( table (vec))
Relative Häufigkeit h ( x j ) = H ( x j ) n h(x_j) = \frac{H(x_j)}{n} h ( x j ) = n H ( x j )
vec = c ( "A" , "A" , "B" , "A" , "C" , "B" )
prop.table ( table (vec))
Relative kummulierte Häufigkeit h k u m ( x k ) = H k u m ( x k ) n = ∑ j = 1 k H ( x j ) n h_{kum}(x_k) = \frac{H_{kum}(x_{k})}{n} = \frac{\sum_{j=1}^{k} H(x_j)}{n} h k u m ( x k ) = n H k u m ( x k ) = n ∑ j = 1 k H ( x j )
vec = c ( "A" , "A" , "B" , "A" , "C" , "B" )
cumsum ( prop.table ( table (vec)))
Modalwert Die Messwertausprägung, die am häufigsten beobachtet wurde.
vec = c ( "A" , "A" , "B" , "A" , "C" , "B" )
names ( which.max ( table (vec)))
Arithmetisches Mittel / Mean Summe aller Messwerte geteilt durch Anzahl der Beobachtungen.
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i x ˉ = n 1 ∑ i = 1 n x i
vec = c ( 1 , 2 , 3 , 4 , 5 , 6 )
mean (vec)
(Mindestend) 50% der Merkmalsträger haben einen Messwert, der kleiner oder gleich dem Median ist. Zur Berechnung müssen die Messwerte in aufsteigender Reihenfolge geordnet sein.
M d = { x ( n + 1 2 ) falls n ungerade x ( n 2 ) + x ( n 2 + 1 ) 2 falls n gerade Md = \begin{cases} x_{(\frac{n+1}{2})} &\text{falls n ungerade} \\ \frac{x_{(\frac{n}{2})} + x_{(\frac{n}{2}+1)}}{2} &\text{falls n gerade} \end{cases} M d = { x ( 2 n + 1 ) 2 x ( 2 n ) + x ( 2 n + 1 ) falls n ungerade falls n gerade vec = c ( 1 , 3 , 4 , 5 , 7 )
median (vec)
Empirische Varianz s e m p 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s_{emp}^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2 s e m p 2 = n 1 ∑ i = 1 n ( x i − x ˉ ) 2
vec = c ( 1 , 2 , 3 , 4 , 5 , 6 , 7 , 10 , 12 )
n = length (vec)
((n - 1 ) / n) * var (vec)
Empirische Standardabweichung s e m p = s e m p 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s_{emp} = \sqrt{s_{emp}^{2}} = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2} s e m p = s e m p 2 = n 1 ∑ i = 1 n ( x i − x ˉ ) 2
vec = c ( 1 , 2 , 3 , 4 , 5 , 6 , 7 , 10 , 12 )
n = length (vec)
sqrt (((n - 1 ) / n) * var (vec))
Quantile
vec = c ( 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 )
quantile (vec, probs = c ( 0.25 , 0.5 , 0.75 ))
Interquartilabstand
vec = c ( 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 )
IQR (vec, type = 6 )
Barplot vec = c ( 1 , 1 , 1 , 2 , 2 , 5 , 5 , 5 , 9 )
barplot ( table (vec))
Histogram vec = c ( 0 , 1 , 1 , 1.5 , 2 , 2 , 3 , 5 , 5 , 5 )
hist (vec)
Boxplot vec = c ( 0 , 0 , 1 , 1 , 1 , 2 , 2 , 5 , 5 , 5 , 9 , 15 )
boxplot (vec)
Kovarianz und Korrelation Kovarianz (empirisch) Richtung eines Zusammenhangs.
cov e m p ( x , y ) = 1 n ∑ i = 1 n L i = 1 n ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \operatorname{cov}_{emp}(x, y)=\frac{1}{n} \sum_{i=1}^{n} L_{i}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right) cov e m p ( x , y ) = n 1 i = 1 ∑ n L i = n 1 i = 1 ∑ n ( x i − x ˉ ) ( y i − y ˉ ) Symmetrie:
cov e m p ( x , y ) = cov e m p ( y , x ) \operatorname{cov}_{emp}(x, y)= \operatorname{cov}_{emp}(y, x) cov e m p ( x , y ) = cov e m p ( y , x ) Kovarianz mit sich selbst ist gleich der empirischen Varianz.
cov e m p ( x , x ) = 1 n ∑ i = 1 n ( x i − x ˉ ) ( x i − x ˉ ) = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 = s e m p 2 \operatorname{cov}_{emp}(x, x)=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(x_{i}-\bar{x}\right)=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}=s_{emp}^{2} cov e m p ( x , x ) = n 1 i = 1 ∑ n ( x i − x ˉ ) ( x i − x ˉ ) = n 1 i = 1 ∑ n ( x i − x ˉ ) 2 = s e m p 2 Zusammenhang mit Steigung der Geraden durch das Streudiagram:
cov e m p ( x , y ) = b ⋅ s x e m p 2 \operatorname{cov}_{emp}(x, y)=b \cdot s_{xemp}^{2} cov e m p ( x , y ) = b ⋅ s x e m p 2 x = c ( 1 , 2 , 3 , 4 , 5 , 6 )
y = c ( 7 , 8 , 9 , 10 , 11 , 12 )
cov (x,y)
z-standardisierung Die Transformation der z-Standardisierung ist für jeden Messwert so definiert:
z i = x i − x ˉ s e m p z_{i}=\frac{x_{i}-\bar{x}}{s_{emp}} z i = s e m p x i − x ˉ
z ˉ = 0 s e m p z = 1 \begin{aligned} \bar{z} &=0 \\ s_{empz} &=1 \end{aligned} z ˉ s e m p z = 0 = 1 x = c ( 1 , 2 , 3 , 4 , 5 , 6 )
(x - mean (x)) / sqrt ((( length (x) - 1 ) / length (x)) * var (x))
Pearson Korrelation r x y = cov e m p ( z x , z y ) = 1 n ∑ i = 1 n ( z x i − z ˉ x ) ( z y i − z ˉ y ) = 1 n ∑ i = 1 n z x i ⋅ z y i r_{x y}=\operatorname{cov}_{emp}\left(z_{x}, z_{y}\right)=\frac{1}{n} \sum_{i=1}^{n}\left(z_{x_{i}}-\bar{z}_{x}\right)\left(z_{y_{i}}-\bar{z}_{y}\right)=\frac{1}{n} \sum_{i=1}^{n} z_{x_{i}} \cdot z_{y_{i}} r x y = cov e m p ( z x , z y ) = n 1 i = 1 ∑ n ( z x i − z ˉ x ) ( z y i − z ˉ y ) = n 1 i = 1 ∑ n z x i ⋅ z y i = 1 n ∑ i = 1 n ( x i − x ˉ s e m p x ) ( y i − y ˉ s e m p y ) = 1 n ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) s e m p x ⋅ s e m p y = \frac{1}{n} \sum_{i=1}^{n}\left(\frac{x_{i}-\bar{x}}{s_{emp x}}\right)\left(\frac{y_{i}-\bar{y}}{s_{emp y}}\right)=\frac{1}{n} \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{s_{emp x} \cdot s_{emp y}} = n 1 i = 1 ∑ n ( s e m p x x i − x ˉ ) ( s e m p y y i − y ˉ ) = n 1 s e m p x ⋅ s e m p y ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) Symmetrie:
r x y = r y x r_{x y}=r_{y x} r x y = r y x Die Korrelation entspricht der Steigung der Gerade durch das Streudiagram
r x y = b z r_{x y}=b_{z} r x y = b z Alternative Formel:
r x y = cov e m p ( x , y ) S e m p x ⋅ S e m p y r_{x y}=\frac{\operatorname{cov}_{emp}(x, y)}{S_{emp x} \cdot S_{emp y}} r x y = S e m p x ⋅ S e m p y cov e m p ( x , y ) x = c ( 1 , 2 , 3 , 4 , 5 , 6 )
y = c ( 7 , 8 , 9 , 10 , 11 , 12 )
cor (x,y)
Wahrscheinlichkeitstheorie Grundbegriffe WkT Erwartungswert von Zufallsvariablen E ( X ) = ∑ j = 1 m x j ⋅ P ( X = x j ) = ∑ j = 1 m x j ⋅ f ( x j ) E(X)=\sum_{j=1}^{m} x_{j} \cdot P\left(X=x_{j}\right)=\sum_{j=1}^{m} x_{j} \cdot f\left(x_{j}\right) E ( X ) = j = 1 ∑ m x j ⋅ P ( X = x j ) = j = 1 ∑ m x j ⋅ f ( x j ) Falls die ZV stetig ist:
E ( X ) = ∫ − ∞ + ∞ x ⋅ f ( x ) d x E(X)=\int_{-\infty}^{+\infty} x \cdot f(x) d x E ( X ) = ∫ − ∞ + ∞ x ⋅ f ( x ) d x Rechenregeln für den Erwartungswert
E ( a ) = a E ( X + a ) = E ( X ) + a E ( a ⋅ X ) = a ⋅ E ( X ) E ( X + Y ) = E ( X ) + E ( Y ) E ( ∑ i = 1 n X i ) = ∑ i = 1 n E ( X i ) \begin{array}{c} E(a)=a \\ E(X+a)=E(X)+a \\ E(a \cdot X)=a \cdot E(X) \\ E(X+Y)=E(X)+E(Y) \\ E\left(\sum_{i=1}^{n} X_{i}\right)=\sum_{i=1}^{n} E\left(X_{i}\right) \end{array} E ( a ) = a E ( X + a ) = E ( X ) + a E ( a ⋅ X ) = a ⋅ E ( X ) E ( X + Y ) = E ( X ) + E ( Y ) E ( ∑ i = 1 n X i ) = ∑ i = 1 n E ( X i ) # Erwartungswert aus gegebener diskreter Wahrscheinlichkeitsfunktion
x = c ( - 4 , - 3 , - 2 , - 1 )
fx = c ( 0.3 , 0.1 , 0.4 , 0.2 )
sum (x * fx)
# Erwartungswert aus gegebener diskreter Wahrscheinlichkeitsverteilung
x = c ( - 4 , 3 , 4 , 20 , 22 )
Fx = c ( 0.1 , 0.2 , 0.3 , 0.8 , 1 )
fx = c (Fx[[ 1 ]])
for (i in 2 : length (Fx)){fx[i] = Fx[[i]] - Fx[[i - 1 ]]}
sum (x * fx)
Varianz und Standardabweichung von Zufallsvariablen Varianz:
Var ( X ) = ∑ j = 1 m ( x j − E ( X ) ) 2 ⋅ P ( X = x j ) = ∑ j = 1 m ( x j − E ( X ) ) 2 ⋅ f ( x j ) \operatorname{Var}(X)=\sum_{j=1}^{m}\left(x_{j}-E(X)\right)^{2} \cdot P\left(X=x_{j}\right)=\sum_{j=1}^{m}\left(x_{j}-E(X)\right)^{2} \cdot f\left(x_{j}\right) Var ( X ) = j = 1 ∑ m ( x j − E ( X ) ) 2 ⋅ P ( X = x j ) = j = 1 ∑ m ( x j − E ( X ) ) 2 ⋅ f ( x j ) Falls die ZV stetig ist:
Var ( X ) = ∫ − ∞ + ∞ ( x − E ( X ) ) 2 ⋅ f ( x ) d x \operatorname{Var}(X)=\int_{-\infty}^{+\infty}(x-E(X))^{2} \cdot f(x) d x Var ( X ) = ∫ − ∞ + ∞ ( x − E ( X ) ) 2 ⋅ f ( x ) d x Standardabweichung:
S D ( X ) = Var ( X ) S D(X)=\sqrt{\operatorname{Var}(X)} S D ( X ) = Var ( X ) Rechenregeln für Varianz und Standardabweichung:
Var ( X + a ) = Var ( X ) S D ( X + a ) = S D ( X ) Var ( a ⋅ X ) = a 2 ⋅ Var ( X ) S D ( a ⋅ X ) = a ⋅ SD ( X ) \begin{array}{c} \operatorname{Var}(X+a)=\operatorname{Var}(X) \\ S D(X+a)=S D(X) \\ \operatorname{Var}(a \cdot X)=a^{2} \cdot \operatorname{Var}(X) \\ S D(a \cdot X)=a \cdot \operatorname{SD}(X) \end{array} Var ( X + a ) = Var ( X ) S D ( X + a ) = S D ( X ) Var ( a ⋅ X ) = a 2 ⋅ Var ( X ) S D ( a ⋅ X ) = a ⋅ SD ( X ) # Varianz, Standardabweichung aus gegebener diskreter Wahrscheinlichkeitsfunktion
x = c ( - 4 , - 3 , - 2 , - 1 )
fx = c ( 0.3 , 0.1 , 0.4 , 0.2 )
e = sum (x * fx)
varemp = sum ((x - e) ** 2 * fx)
varemp
sqrt (varemp)
# Varianz, Standardabweichung aus gegebener diskreter Wahrscheinlichkeitsverteilung
x = c ( - 4 , 3 , 4 , 20 , 22 )
Fx = c ( 0.1 , 0.2 , 0.3 , 0.8 , 1 )
fx = c (Fx[[ 1 ]])
for (i in 2 : length (Fx)){fx[i] = Fx[[i]] - Fx[[i - 1 ]]}
e = sum (x * fx)
varemp = sum ((x - e) ** 2 * fx)
varemp
sqrt (varemp)
z-standardisierung von Zufallsvariablen Analog zur Deskriptivstatistik.
Z = X − E ( X ) S D ( X ) Z=\frac{X-E(X)}{S D(X)} Z = S D ( X ) X − E ( X ) E ( Z ) = 0 S D ( Z ) = 1 \begin{array}{l} \mathrm{E}(Z)=0 \\ SD(Z)=1 \end{array} E ( Z ) = 0 S D ( Z ) = 1 Konkrete Wahrscheinlichkeitsfunktionen Bernoulli Verteilung X ∼ Be ( π ) X \sim \operatorname{Be}(\pi) X ∼ Be ( π )
T X = { 0 , 1 } T_{X}=\{0,1\} T X = { 0 , 1 }
Wahrscheinlichkeitsfunktion
f ( 0 ) = P ( X = 0 ) = 1 − π f ( 1 ) = P ( X = 1 ) = π \begin{array}{l} f(0)=P(X=0)=1-\pi \\ f(1)=P(X=1)=\pi \end{array} f ( 0 ) = P ( X = 0 ) = 1 − π f ( 1 ) = P ( X = 1 ) = π f ( x j ) = π x j ( 1 − π ) 1 − x j f\left(x_{j}\right)=\pi^{x_{j}}(1-\pi)^{1-x_{j}} f ( x j ) = π x j ( 1 − π ) 1 − x j
Verteilungsfunktion
F ( 0 ) = 1 − π F ( 1 ) = 1 \begin{array}{c} F(0)=1-\pi \\ F(1)=1 \end{array} F ( 0 ) = 1 − π F ( 1 ) = 1 Erwartungswert, Standardabweichung:
E ( X ) = π E(X)=\pi E ( X ) = π
S D ( X ) = π ( 1 − π ) SD(X)=\sqrt{\pi(1-\pi)} S D ( X ) = π ( 1 − π )
Binomialverteilung X ∼ B ( n , π ) X \sim B(n, \pi) X ∼ B ( n , π )
T X = { 0 , 1 , 2 , . . . , n } T_{X}=\{0,1,2,...,n\} T X = { 0 , 1 , 2 , ... , n }
Voraussetzungen:
X 1 , X 2 , … , X n X_{1}, X_{2}, \ldots, X_{n} X 1 , X 2 , … , X n
X i ∼ B e ( π ) X_{i} \sim Be(\pi) X i ∼ B e ( π )
X = ∑ i = 1 n X i X=\sum_{i=1}^{n} X_{i} X = ∑ i = 1 n X i
Exkurs: Binomialkoeffizient
( n k ) = n ! k ! ( n − k ) ! \left(\begin{array}{l} n \\ k \end{array}\right)=\frac{n !}{k !(n-k) !} ( n k ) = k ! ( n − k )! n ! Wahrscheinlichkeitsfunktion
f ( x j ) = ( n x j ) π x j ( 1 − π ) n − x j f\left(x_{j}\right)=\left(\begin{array}{l} n \\ x_{j} \end{array}\right) \pi^{x_{j}}(1-\pi)^{n-x_{j}} f ( x j ) = ( n x j ) π x j ( 1 − π ) n − x j Verteilungsfunktion:
F ( x k ) = ∑ j = 1 k f ( x j ) = ∑ j = 1 k ( n x j ) π x j ( 1 − π ) n − x j F\left(x_{k}\right)=\sum_{j=1}^{k} f\left(x_{j}\right)=\sum_{j=1}^{k}\left(\begin{array}{l} n \\ x_{j} \end{array}\right) \pi^{x_{j}}(1-\pi)^{n-x_{j}} F ( x k ) = j = 1 ∑ k f ( x j ) = j = 1 ∑ k ( n x j ) π x j ( 1 − π ) n − x j Erwartungswert, Standardabweichung:
E ( X ) = n π E(X)=n \pi E ( X ) = nπ
S D ( X ) = n π ( 1 − π ) S D(X)=\sqrt{n \pi(1-\pi)} S D ( X ) = nπ ( 1 − π )
R Funktionen
p = 0.5
n = 100
dbinom (x = 40 , size = n, prob = p) # Wahrscheinlichkeitsfunktion
pbinom (q = 70 , size = n, prob = p) # Verteilungsfunktion
qbinom (p = 0.25 , size = n, prob = p) # Quantile
rbinom (n = 20 , size = n, prob = p) # Zufallsgeneration nach Binomialverteilung
Normalverteilung X ∼ N ( μ , σ 2 ) X \sim N\left(\mu, \sigma^{2}\right) X ∼ N ( μ , σ 2 )
T X = R T_{X}=\mathbb{R} T X = R
Wichtige Eigenschaften:
Ihre Dichtefunktion hat ihr Maximum an der Stelle x = μ x = \mu x = μ Ihre Dichtefunktion ist symmetrisch um μ \mu μ f ( μ + c ) = f ( μ − c ) f(\mu+c)=f(\mu-c) f ( μ + c ) = f ( μ − c ) P ( X ≤ μ − c ) = P ( X ≥ μ + c ) P(X \leq \mu-c)=P(X \geq \mu+c) P ( X ≤ μ − c ) = P ( X ≥ μ + c ) P ( X ≤ μ ) = 0.5 P(X \leq \mu)=0.5 P ( X ≤ μ ) = 0.5 Je weiler x von μ \mu μ entfernt ist, desto kleiner ist die Dichte Wahrscheinlichkeitsdichtefunktion:
f ( x ) = 1 2 π σ 2 e ( − 1 2 ⋅ ( x − μ ) 2 σ 2 ) f(x)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{(-\frac{1}{2} \cdot \frac{(x-\mu)^{2}}{\sigma^{2}})} f ( x ) = 2 π σ 2 1 e ( − 2 1 ⋅ σ 2 ( x − μ ) 2 )
Erwartugnswert, Varianz, Standardabweichung:
E ( X ) = μ E(X)=\mu E ( X ) = μ
V a r ( X ) = σ 2 Var(X)=\sigma^2 Va r ( X ) = σ 2
S D ( X ) = σ SD(X)=\sigma S D ( X ) = σ
R Funktionen
mu = 3
sigma = 2
dnorm (x = 3 , mean = mu, sd = sigma) # Wahrscheinlichkeitsdichtefunktion
pnorm (q = 0.5 , mean = mu, sd = sigma) # Verteilungsfunktion
qnorm (p = 0.25 , mean = mu, sd = sigma) # Quantile
rnorm (n = 20 , mean = mu, sd = sigma) # Zufallsgeneration nach Normalverteilung
z-standardisierung (Standardnormalvcerteilung):
Z = X − E ( X ) S D ( X ) = X − μ σ Z=\frac{X-E(X)}{S D(X)}=\frac{X-\mu}{\sigma} Z = S D ( X ) X − E ( X ) = σ X − μ
Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z ∼ N ( 0 , 1 )
t-Verteilung T ∼ t ( v ) T \sim t(v) T ∼ t ( v )
T T = R T_{T}=\mathbb{R} T T = R
Erwartungswert (ν \nu ν > 1):
E ( T ) = 0 E(T)=0 E ( T ) = 0
Nützliche Eigenschaft:
t 1 − α 2 = − t α 2 t_{1-\frac{\alpha}{2}}=-t_{\frac{\alpha}{2}} t 1 − 2 α = − t 2 α
Bemerke: Für hohe n nähert sich die Kurve der t-Verteilung der der Standardnormalverteilung an.
R Funktionen
v = 24
pt (q = 1.4 , df = v) # Verteilungsfunktion
qt (p = 0.25 , df = v) # Quantile
dt (x = 0.2 , df = v) # Wahrscheinlichkeitsdichtefunktion - uninteressant
rt (n = 20 , df = v) # Zufallsgeneration nach Normalverteilung - uninteressant
Zentraler Grenzwertsatz Seien X 1 , X 2 , … , X i , … , X n X_{1}, X_{2}, \ldots, X_{i}, \ldots, X_{n} X 1 , X 2 , … , X i , … , X n Zufallsvariablen mit X i ∼ iid P X_{i} \stackrel{\text { iid }}{\sim} P X i ∼ iid P , wobei P eine völlig beliebige Wahrscheinlichkeitsverteilung ist. Für
Z ∗ = X ˉ − E ( X ˉ ) S D ^ ( X ˉ ) Z^{*}=\frac{\bar{X}-E(\bar{X})}{\widehat{S D}(\bar{X})} Z ∗ = S D ( X ˉ ) X ˉ − E ( X ˉ ) gilt dann
lim n → ∞ P Z ∗ = N ( 0 , 1 ) \lim _{n \rightarrow \infty} P_{Z^{*}}=N(0,1) lim n → ∞ P Z ∗ = N ( 0 , 1 )
also für großes n
Z ∗ ∼ a N ( 0 , 1 ) Z^{*} \stackrel{\mathrm{a}}{\sim} N(0,1) Z ∗ ∼ a N ( 0 , 1 )
Parameterschätzung Notation Parameter
μ \mu μ , σ 2 \sigma^{2} σ 2 , π \pi π Allgemeine Schätzfunktion
μ ^ \hat\mu μ ^ , σ ^ 2 \hat\sigma^{2} σ ^ 2 , π ^ \hat\pi π ^ Allgemeine Schätzwerte
μ ^ W e r t \hat\mu_{Wert} μ ^ W er t , σ ^ W e r t 2 \hat\sigma^{2}_{Wert} σ ^ W er t 2 , π ^ W e r t \hat\pi_{Wert} π ^ W er t Konkrete Schätzfunktionen
X ˉ \bar{X} X ˉ , S e m p 2 S_{emp}^{2} S e m p 2 , S 2 S^{2} S 2 Konkrete Schätzwerte
x ˉ \bar{x} x ˉ , s e m p 2 s_{emp}^{2} s e m p 2 , s 2 s^{2} s 2 Gütekriterien von Schätzfunktionen Erwarungstreue E ( θ ^ ) = θ E(\hat{\theta})=\theta E ( θ ^ ) = θ
Standardfehler S E ( θ ^ ) = S D ( θ ^ ) S E(\hat{\theta})=S D(\hat{\theta}) SE ( θ ^ ) = S D ( θ ^ )
Effizienz: Erwartungstreu und kleinsten Standardfehler aller erwartungstreuen Schätzfunktionen für den Parameter
Konsistenz: lim n → ∞ S E ( θ ^ ) = 0 \lim _{n \rightarrow \infty} SE(\hat{\theta})=0 lim n → ∞ SE ( θ ^ ) = 0
Schätzung für π \pi π einer Bernoulli-Verteilung X 1 , X 2 , … , X n mit X i ∼ i i d B e ( π ) X_{1}, X_{2}, \ldots, X_{n} \operatorname{mit} X_{i} \stackrel{\mathrm{iid}}{\sim} \mathrm{Be}(\pi) X 1 , X 2 , … , X n mit X i ∼ iid Be ( π )
Punkt Schätzfunktion:
π ^ = X ˉ = 1 n ∑ i = 1 n X i \hat{\pi}=\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} π ^ = X ˉ = n 1 ∑ i = 1 n X i Erwartungswert:
E ( π ^ ) = E ( X ˉ ) = π E(\hat{\pi})=E(\bar{X}) = \pi E ( π ^ ) = E ( X ˉ ) = π
Standardfehler:
S E ( π ^ ) = π ( 1 − π ) n S E(\hat{\pi})=\sqrt{\frac{\pi(1-\pi)}{n}} SE ( π ^ ) = n π ( 1 − π )
π ^ = X ˉ \hat{\pi}=\bar{X} π ^ = X ˉ ist erwartungstreu, effizient und konsistent.
Konfidenzintervall (Approximatives) Konfidenzintervall mit Konfidenzniveau 1 − α 1-\alpha 1 − α : I ( X 1 , … , X n ) = [ U , O ] = [ X ˉ − z 1 − α 2 ⋅ X ˉ ( 1 − X ˉ ) n , X ˉ + z 1 − α 2 ⋅ X ˉ ( 1 − X ˉ ) n ] I\left(X_{1}, \ldots, X_{n}\right)=[U, O]=\left[\bar{X}-z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\bar{X}(1-\bar{X})}{n}}, \bar{X}+z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\bar{X}(1-\bar{X})}{n}}\right] I ( X 1 , … , X n ) = [ U , O ] = [ X ˉ − z 1 − 2 α ⋅ n X ˉ ( 1 − X ˉ ) , X ˉ + z 1 − 2 α ⋅ n X ˉ ( 1 − X ˉ ) ] Z ∗ ∼ a N ( 0 , 1 ) Z^{*} \stackrel{\mathrm{a}}{\sim} N(0,1) Z ∗ ∼ a N ( 0 , 1 )
R Code conf.level = 0.90
vec = c ( 1 , 1 , 1 , 0 , 0 )
n = length (vec)
#Punktschaetzung
x_quer = mean (vec)
x_quer
# Konfidenzintervall von Hand
c = qnorm ( 1 - (( 1 - conf.level) / 2 ), mean = 0 ,sd = 1 ) * sqrt (((x_quer * ( 1 - x_quer)) / n))
c (x_quer - c, x_quer + c)
# Konfidenzintervall mit R Funktion
library (DescTools)
BinomCI( x_quer * n,n,method = 'wald' , conf.level = conf.level )
Schätzung für μ \mu μ einer Normalverteilung X 1 , X 2 , … , X n mit X i ∼ i i d N ( μ , σ 2 ) X_{1}, X_{2}, \ldots, X_{n} \operatorname{mit} X_{i} \stackrel{\mathrm{iid}}{\sim} N\left(\mu, \sigma^{2}\right) X 1 , X 2 , … , X n mit X i ∼ iid N ( μ , σ 2 )
Punkt Schätzfunktion:
μ ^ = X ˉ = 1 n ∑ i = 1 n X i \hat{\mu}=\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} μ ^ = X ˉ = n 1 ∑ i = 1 n X i
Erwartungswert:
E ( X ˉ ) = μ E(\bar{X}) = \mu E ( X ˉ ) = μ
Standardfehler:
S E ( X ˉ ) = σ 2 n SE(\bar{X})=\sqrt{\frac{\sigma^{2}}{n}} SE ( X ˉ ) = n σ 2
μ ^ = X ˉ \hat{\mu}=\bar{X} μ ^ = X ˉ ist erwartungstreu, effizient und konsistent.
Konfidenzintervall Wahrscheinlichkeitsverteilung von X ˉ \bar{X} X ˉ
X ˉ ∼ N ( μ , σ 2 n ) \bar{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right) X ˉ ∼ N ( μ , n σ 2 )
Konfidenzintervall mit Konfidenzniveau 1 − α 1-\alpha 1 − α :
Beidseitig:
I ( X 1 , … , X n ) = [ U , O ] = [ X ˉ − t 1 − α 2 ⋅ S 2 n , X ˉ + t 1 − α 2 ⋅ S 2 n ] I\left(X_{1}, \ldots, X_{n}\right)=[U, O]=\left[\bar{X}-t_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{S^{2}}{n}}, \bar{X}+t_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{S^{2}}{n}}\right] I ( X 1 , … , X n ) = [ U , O ] = [ X ˉ − t 1 − 2 α ⋅ n S 2 , X ˉ + t 1 − 2 α ⋅ n S 2 ]
Rechtsseitig:
I ( X 1 , … , X n ) = [ U , O ] = [ X ˉ − t 1 − α ⋅ S 2 n , ∞ [ I\left(X_{1}, \ldots, X_{n}\right)=[U, O]=\left[\bar{X}-t_{1-\alpha} \cdot \sqrt{\frac{S^{2}}{n}}, \infty\right[ I ( X 1 , … , X n ) = [ U , O ] = [ X ˉ − t 1 − α ⋅ n S 2 , ∞ [
Linksseitig:
I ( X 1 , … , X n ) = [ U , O ] = ] − ∞ , X ˉ + t 1 − α ⋅ S 2 n ] I\left(X_{1}, \ldots, X_{n}\right)=[U, O]=\left]-\infty, \bar{X}+t_{1-\alpha} \cdot \sqrt{\frac{S^{2}}{n}}\right] I ( X 1 , … , X n ) = [ U , O ] = ] − ∞ , X ˉ + t 1 − α ⋅ n S 2 ]
T ∼ t ( n − 1 ) T \sim t(n-1) T ∼ t ( n − 1 )
Falls Varianz bekannt, z-Quantile (Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z ∼ N ( 0 , 1 ) ) statt t-Quantilen verwenden R Code conf.level = 0.95
vec = c ( 100 , 80 , 90 , 120 )
n = length (vec)
#Punktschaetzung
x_quer = mean (vec)
x_quer
s2 = var (vec)
# Konfidenzintervall von Hand
c = qt ( 1 - (( 1 - conf.level) / 2 ), df = n - 1 ) * sqrt (s2 / n)
c (x_quer - c, x_quer + c)
# Konfidenzintervall mit R Funktion
t.test (vec, conf.level = conf.level)
Schätzung für σ 2 \sigma^{2} σ 2 einer Normalverteilung X 1 , X 2 , … , X n mit X i ∼ i i d N ( μ , σ 2 ) X_{1}, X_{2}, \ldots, X_{n} \operatorname{mit} X_{i} \stackrel{\mathrm{iid}}{\sim} N\left(\mu, \sigma^{2}\right) X 1 , X 2 , … , X n mit X i ∼ iid N ( μ , σ 2 )
! S e m p 2 S_{emp}^{2} S e m p 2 ist nicht erwartungstreu für σ 2 \sigma^{2} σ 2 !
Schätzfunktion:
σ ^ 2 = S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 \hat{\sigma}^{2}=S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} σ ^ 2 = S 2 = n − 1 1 ∑ i = 1 n ( X i − X ˉ ) 2
Erwartungswert: E ( S 2 ) = σ 2 E\left(S^{2}\right)=\sigma^{2} E ( S 2 ) = σ 2
Standardfehler: S D ( σ ^ 2 ) = 2 σ 4 n − 1 S D\left(\hat{\sigma}^{2}\right)=\sqrt{\frac{2 \sigma^{4}}{n-1}} S D ( σ ^ 2 ) = n − 1 2 σ 4
σ ^ 2 = S 2 \hat{\sigma}^{2}=S^{2} σ ^ 2 = S 2 ist erwartungstreu, effizient und konsistent.
R Code vec = c ( 100 , 80 , 90 , 120 )
n = length (vec)
#Punktschaetzung
var (vec)
Schätzung für μ 1 − μ 2 \mu_1 - \mu_2 μ 1 − μ 2 einer Normalverteilung für unabhängige Stichproben X 11 , X 12 , … , X 1 n 1 mit X 1 i ∼ N ( μ 1 , σ 2 ) X_{11}, X_{12}, \ldots, X_{1 n_{1}} \operatorname{mit} X_{1 i} \sim N\left(\mu_{1}, \sigma^{2}\right) X 11 , X 12 , … , X 1 n 1 mit X 1 i ∼ N ( μ 1 , σ 2 ) X 21 , X 22 , … , X 2 n 2 mit X 2 i ∼ N ( μ 2 , σ 2 ) X_{21}, X_{22}, \ldots, X_{2 n_{2}} \text { mit } X_{2 i} \sim N\left(\mu_{2}, \sigma^{2}\right) X 21 , X 22 , … , X 2 n 2 mit X 2 i ∼ N ( μ 2 , σ 2 )
Punkt Schätzfunktion:
X ˉ Diff = X ˉ 1 − X ˉ 2 \bar{X}_{\text {Diff }}=\bar{X}_{1}-\bar{X}_{2} X ˉ Diff = X ˉ 1 − X ˉ 2
Erwartungswert:
E ( X ˉ Diff ) = E ( X ˉ 1 − X ˉ 2 ) = μ 1 − μ 2 E\left(\bar{X}_{\text {Diff }}\right)=E\left(\bar{X}_{1}-\bar{X}_{2}\right)=\mu_{1}-\mu_{2} E ( X ˉ Diff ) = E ( X ˉ 1 − X ˉ 2 ) = μ 1 − μ 2
Standardfehler:
S E ( X ˉ D i f f ) = σ 2 n 1 + σ 2 n 2 S E\left(\bar{X}_{D i f f}\right)=\sqrt{\frac{\sigma^{2}}{n_{1}}+\frac{\sigma^{2}}{n_{2}}} SE ( X ˉ D i ff ) = n 1 σ 2 + n 2 σ 2
X ˉ D i f f \bar{X}_{Diff} X ˉ D i ff ist erwartungstreu, effizient und konsistent (für n 1 → ∞ und n 2 → ∞ n_{1} \rightarrow \infty \text { und } n_{2} \rightarrow \infty n 1 → ∞ und n 2 → ∞ ).
Gepoolte Varianz:
S pool 2 = ( n 1 − 1 ) ⋅ S 1 2 + ( n 2 − 1 ) ⋅ S 2 2 n 1 + n 2 − 2 S_{\text {pool }}^{2}=\frac{\left(n_{1}-1\right) \cdot S_{1}^{2}+\left(n_{2}-1\right) \cdot S_{2}^{2}}{n_{1}+n_{2}-2} S pool 2 = n 1 + n 2 − 2 ( n 1 − 1 ) ⋅ S 1 2 + ( n 2 − 1 ) ⋅ S 2 2
Sonderfall für n 1 = n 2 n_{1}=n_{2} n 1 = n 2 :
S pool 2 = S 1 2 + S 2 2 2 S_{\text {pool }}^{2}=\frac{S_{1}^{2}+S_{2}^{2}}{2} S pool 2 = 2 S 1 2 + S 2 2
vec1 = c ( - 10 , 0 , - 20 , - 11 , - 22 )
vec2 = c ( 0 , - 10 , 5 )
# Wenn nur Werte und keine Daten vorliegen, diese Werte durch eigene ersetzen
n1 = length (vec1)
n2 = length (vec2)
s2_1 = var (vec1)
s2_2 = var (vec2)
((n1 - 1 ) * s2_1 + (n2 - 1 ) * s2_2) / (n1 + n2 - 2 )
Konfidenzintervall Beidseitig:
I ( X 1 , … , X n ) = [ ( X ˉ 1 − X ˉ 2 ) − t 1 − α 2 ⋅ S pool 2 n 1 + S pool 2 n 2 , ( X ˉ 1 − X ˉ 2 ) + t 1 − α 2 ⋅ S pool 2 n 1 + S pool 2 n 2 ] I\left(X_{1}, \ldots, X_{n}\right)=\left[\left(\bar{X}_{1}-\bar{X}_{2}\right)-t_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{S_{\text {pool }}^{2}}{n_{1}}+\frac{S_{\text {pool }}^{2}}{n_{2}}},\left(\bar{X}_{1}-\bar{X}_{2}\right)+t_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{S_{\text {pool }}^{2}}{n_{1}}+\frac{S_{\text {pool }}^{2}}{n_{2}}}\right] I ( X 1 , … , X n ) = [ ( X ˉ 1 − X ˉ 2 ) − t 1 − 2 α ⋅ n 1 S pool 2 + n 2 S pool 2 , ( X ˉ 1 − X ˉ 2 ) + t 1 − 2 α ⋅ n 1 S pool 2 + n 2 S pool 2 ]
Rechtsseitig:
I ( X 1 , … , X n ) = [ ( X ˉ 1 − X ˉ 2 ) − t 1 − α ⋅ S pool 2 n 1 + S pool 2 n 2 , ∞ [ I\left(X_{1}, \ldots, X_{n}\right)=\left[\left(\bar{X}_{1}-\bar{X}_{2}\right)-t_{1-\alpha} \cdot \sqrt{\frac{S_{\text {pool }}^{2}}{n_{1}}+\frac{S_{\text {pool }}^{2}}{n_{2}}}, \infty \right[ I ( X 1 , … , X n ) = [ ( X ˉ 1 − X ˉ 2 ) − t 1 − α ⋅ n 1 S pool 2 + n 2 S pool 2 , ∞ [
Linksseitig:
I ( X 1 , … , X n ) = ] − ∞ , ( X ˉ 1 − X ˉ 2 ) + t 1 − α ⋅ S pool 2 n 1 + S pool 2 n 2 ] I\left(X_{1}, \ldots, X_{n}\right)=\left] -\infty,\left(\bar{X}_{1}-\bar{X}_{2}\right)+t_{1-\alpha} \cdot \sqrt{\frac{S_{\text {pool }}^{2}}{n_{1}}+\frac{S_{\text {pool }}^{2}}{n_{2}}}\right] I ( X 1 , … , X n ) = ] − ∞ , ( X ˉ 1 − X ˉ 2 ) + t 1 − α ⋅ n 1 S pool 2 + n 2 S pool 2 ]
T ∼ t ( n 1 + n 2 − 2 ) T \sim t\left(n_{1}+n_{2}-2\right) T ∼ t ( n 1 + n 2 − 2 )
Falls Varianz bekannt, z-Quantile (Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z ∼ N ( 0 , 1 ) ) statt t-Quantilen verwenden R Code conf.level = 0.99
vec1 = c ( - 10 , 0 , - 20 , - 11 , - 22 )
vec2 = c ( 0 , - 10 , 5 )
x_quer1 = mean (vec1)
x_quer2 = mean (vec2)
n1 = length (vec1)
n2 = length (vec2)
# Punktschaetzung
xdiff_quer = mean (vec1) - mean (vec2)
xdiff_quer
# Konfidenzintervall von Hand
s2_1 = var (vec1)
s2_2 = var (vec2)
s2pool = ((n1 - 1 ) * s2_1 + (n2 - 1 ) * s2_2) / (n1 + n2 - 2 )
c = qt ( 1 - (( 1 - conf.level) / 2 ), df = n1 + n2 - 2 ) * sqrt (s2pool / n1 + s2pool / n2)
c (xdiff_quer - c, xdiff_quer + c)
# Konfidenzintervall mit R Funktion
t.test (vec1,vec2,paired = FALSE ,var.equal = TRUE ,conf.level = conf.level)
Schätzung für μ 1 − μ 2 \mu_1 - \mu_2 μ 1 − μ 2 einer Normalverteilung für abhängige Stichproben X i Diff = X i 1 − X i 2 X_{i \text { Diff }}=X_{i 1}-X_{i 2} X i Diff = X i 1 − X i 2
X i Diff ∼ i i d N ( μ 1 − μ 2 , σ Diff 2 ) X_{i \text { Diff }} \stackrel{\mathrm{iid}}{\sim} N\left(\mu_{1}-\mu_{2}, \sigma_{\text {Diff }}^{2}\right) X i Diff ∼ iid N ( μ 1 − μ 2 , σ Diff 2 )
Punkt Schätzfunktion:
X ˉ Diff = X ˉ 1 − X ˉ 2 \bar{X}_{\text {Diff }}=\bar{X}_{1}-\bar{X}_{2} X ˉ Diff = X ˉ 1 − X ˉ 2
Erwartungswert:
E ( X ˉ Diff ) = E ( X ˉ 1 − X ˉ 2 ) = μ 1 − μ 2 E\left(\bar{X}_{\text {Diff }}\right)=E\left(\bar{X}_{1}-\bar{X}_{2}\right)=\mu_{1}-\mu_{2} E ( X ˉ Diff ) = E ( X ˉ 1 − X ˉ 2 ) = μ 1 − μ 2
Standardfehler:
S E ( X ˉ Diff ) = σ Diff 2 n S E\left(\bar{X}_{\text {Diff }}\right)=\sqrt{\frac{\sigma_{\text {Diff }}^{2}}{n}} SE ( X ˉ Diff ) = n σ Diff 2
X ˉ D i f f \bar{X}_{Diff} X ˉ D i ff ist erwartungstreu, effizient und konsistent (für n → ∞ n\rightarrow\infty n → ∞ ).
Konfidenzintervall Beidseitig:
I ( X 1 , … , X n ) = [ X ˉ D i f f − t 1 − α 2 ⋅ S D i f f 2 n , X ˉ D i f f + t 1 − α 2 ⋅ S D i f f 2 n ] I\left(X_{1}, \ldots, X_{n}\right)=\left[\bar{X}_{Diff}-t_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{S_{D i f f}^{2}}{n}},\bar{X}_{Diff}+t_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{S_{D i f f}^{2}}{n}}\right] I ( X 1 , … , X n ) = [ X ˉ D i ff − t 1 − 2 α ⋅ n S D i ff 2 , X ˉ D i ff + t 1 − 2 α ⋅ n S D i ff 2 ]
Rechtsseitig:
I ( X 1 , … , X n ) = [ X ˉ D i f f − t 1 − α ⋅ S D i f f 2 n , ∞ [ I\left(X_{1}, \ldots, X_{n}\right)=\left[\bar{X}_{Diff}-t_{1-\alpha} \cdot \sqrt{\frac{S_{D i f f}^{2}}{n}},\infty\right[ I ( X 1 , … , X n ) = [ X ˉ D i ff − t 1 − α ⋅ n S D i ff 2 , ∞ [
Linksseitig:
I ( X 1 , … , X n ) = ] − ∞ , X ˉ D i f f + t 1 − α ⋅ S D i f f 2 n ] I\left(X_{1}, \ldots, X_{n}\right)=\left]-\infty ,\bar{X}_{Diff}+t_{1-\alpha} \cdot \sqrt{\frac{S_{D i f f}^{2}}{n}}\right] I ( X 1 , … , X n ) = ] − ∞ , X ˉ D i ff + t 1 − α ⋅ n S D i ff 2 ]
T ∼ t ( n − 1 ) T \sim t(n-1) T ∼ t ( n − 1 )
Falls Varianz bekannt, z-Quantile (Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z ∼ N ( 0 , 1 ) ) statt t-Quantilen verwenden R Code conf.level = 0.99
# Muessen gleiche Laenge haben
vec1 = c ( 3 , 5 , 7 , - 9 , - 3 )
vec2 = c ( - 3 , - 3 , - 4 , - 1 , 0 )
n = length (vec1)
#Punkschaetzung
xdiff_quer = mean (vec1) - mean (vec2)
xdiff_quer
# Konfidenzintervall von Hand
s2diff = var (vec1 - vec2)
c = qt ( 1 - (( 1 - conf.level) / 2 ), df = n - 1 ) * sqrt (s2diff / n)
c (xdiff_quer - c, xdiff_quer + c)
# Konfidenzintervall mit R Funktion
t.test (vec1,vec2,paired = TRUE ,var.equal = TRUE ,conf.level = conf.level)
Hypothesentests H 0 {H_0} H 0 ist wahr, für H 1 {H_1} H 1 entschieden: Fehler erster ArtH 1 {H_1} H 1 ist wahr, für H 0 {H_0} H 0 entschieden: Fehler zweiter ArtFormulierung : [Ein/Zwei]stichproben [t-/Binomial]test (für [abhängige/unabhängige] Stichproben) über Parameter [μ \mu μ / π \pi π / μ 1 − μ 2 /\mu_1 - \mu_2 / μ 1 − μ 2 ] für [gerichtete/ungerichtete] Hypothesen
t-Wert berechnen : Punktschätzwerte bestimmen und in die jeweilige Teststatistik einsetzen
Kritischen Bereich bestimmen:
ungerichtet:P ( T ≤ t kritlinks ) = F ( t kritlinks ) = α 2 P(T \leq t_{\text {kritlinks }})=F(t_{\text {kritlinks }})=\frac{\alpha}{2} P ( T ≤ t kritlinks ) = F ( t kritlinks ) = 2 α P ( T ≥ t kritrechts ) = 1 − F ( t kritrechts ) = α 2 P(T \geq t_{\text {kritrechts }})=1-F(t_{\text {kritrechts }})=\frac{\alpha}{2} P ( T ≥ t kritrechts ) = 1 − F ( t kritrechts ) = 2 α krechts = qt(1-(alpha/2),df)
linksseitig:P ( T ≤ t k r i t ) = F ( t k r i t ) = α P\left(T \leq t_{k r i t}\right)=F\left(t_{k r i t}\right)=\alpha P ( T ≤ t k r i t ) = F ( t k r i t ) = α rechtsseitig:P ( T ≥ t krit ) = 1 − F ( t krit ) = α P\left(T \geq t_{\text {krit }}\right)=1-F\left(t_{\text {krit }}\right)=\alpha P ( T ≥ t krit ) = 1 − F ( t krit ) = α p-Wert berechnen: t-Wert berechnen und
linksseitig: P ( T ≤ t ) = F ( t ) P(T \leq t) = F(t) P ( T ≤ t ) = F ( t )
rechtsseitig: P ( T ≥ t ) = 1 − F ( t ) P(T \geq t) = 1 - F(t) P ( T ≥ t ) = 1 − F ( t )
ungerichtet: 2 ⋅ P ( T ≤ t ) falls t ≤ 0 ist, 2 ⋅ P ( T ≤ − t ) falls t > 0 ist. \begin{array}{l} 2 \cdot P(T \leq t) \text { falls } t\leq0 \text { ist, } \\ 2 \cdot P(T \leq-t) \text { falls } t>0 \text { ist. } \end{array} 2 ⋅ P ( T ≤ t ) falls t ≤ 0 ist, 2 ⋅ P ( T ≤ − t ) falls t > 0 ist.
if(t <= 0) 2*pt(t, df) else 2*pt(-t, df)
Parameter μ \mu μ Teststatistik T = X ˉ − μ 0 S 2 n ∼ H 0 t ( n − 1 ) T=\frac{\bar{X}-\mu_{0}}{\sqrt{\frac{S^{2}}{n}}} \stackrel{H_{0}}{\sim} t(n-1) T = n S 2 X ˉ − μ 0 ∼ H 0 t ( n − 1 )
Einstichprobe μ \mu μ ungerichtet H 0 : μ = μ 0 H 1 : μ ≠ μ 0 \begin{array}{l} H_{0}: \mu=\mu_{0} \\ H_{1}: \mu \neq \mu_{0} \end{array} H 0 : μ = μ 0 H 1 : μ = μ 0 K T = ] − ∞ , t kritlinks ] ∪ [ t kritrechts , + ∞ [ K_{T}=\left]-\infty, t_{\text{kritlinks}}\right] \cup \left[t_{\text{kritrechts}},+\infty\right[ K T = ] − ∞ , t kritlinks ] ∪ [ t kritrechts , + ∞ [
alpha = 0.005
data = c ( - 20 , - 30 , - 70 , - 10 , - 50 )
mu0 = - 10
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n = length (data)
x_quer = mean (data)
s2 = var (data)
klinks = qt (alpha / 2 ,df = n - 1 )
krechts = qt ( 1 - (alpha / 2 ),df = n - 1 )
paste ( "Krit. Bereich: ]-INF;" , klinks, "] [" , krechts, "; INF[" , sep = "" )
t = (x_quer - mu0) / sqrt (s2 / n)
t
p = if (t <= 0 ) 2 * pt (t, n - 1 ) else 2 * pt ( - t, n - 1 )
p
if (p <= alpha) print ( "H1 annehmen" ) else print ( "H0 annehmen" )
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test (data, mu = mu0, alternative = 'two.sided' )
Einstichprobe μ \mu μ linksgerichtet H 0 : μ ≥ μ 0 H 1 : μ < μ 0 \begin{array}{l} H_{0}: \mu \geq \mu_{0} \\ H_{1}: \mu<\mu_{0} \end{array} H 0 : μ ≥ μ 0 H 1 : μ < μ 0 K T = ] − ∞ , t k r i t ] \left.\left.K_{T}=\right]-\infty, t_{k r i t}\right] K T = ] − ∞ , t k r i t ]
alpha = 0.005
data = c ( - 20 , - 30 , - 70 , - 10 , - 50 )
mu0 = - 10
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n = length (data)
x_quer = mean (data)
s2 = var (data)
klinks = qt (alpha,df = n - 1 )
paste ( "Krit. Bereich: ] -INF;" , klinks, "]" , sep = "" )
t = (x_quer - mu0) / sqrt (s2 / n)
t
p = pt (t, n - 1 )
p
if (p <= alpha) print ( "H1 annehmen" ) else print ( "H0 annehmen" )
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test (data, mu = mu0, alternative = 'less' )
Einstichprobe μ \mu μ rechtsgerichtet H 0 : μ ≤ μ 0 H 1 : μ > μ 0 \begin{array}{l} H_{0}: \mu \leq \mu_{0} \\ H_{1}: \mu>\mu_{0} \end{array} H 0 : μ ≤ μ 0 H 1 : μ > μ 0 K T = [ t krit , + ∞ [ K_{T}=\left[t_{\text {krit }},+\infty[\right. K T = [ t krit , + ∞ [
alpha = 0.005
data = c ( - 2 , 3 , 0 , - 3 , 1 )
mu0 = 3
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n = length (data)
x_quer = mean (data)
s2 = var (data)
krechts = qt ( 1 - alpha,df = n - 1 )
paste ( "Krit. Bereich: [" , krechts, ";INF[" , sep = "" )
t = (x_quer - mu0) / sqrt (s2 / n)
t
p = 1 - pt (t, n - 1 )
p
if (p <= alpha) print ( "H1 annehmen" ) else print ( "H0 annehmen" )
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test (data, mu = mu0, alternative = 'greater' )
Parameter π \pi π Teststatistik T = ∑ i = 1 n X i ∼ H 0 B i n ( n , π 0 ) T=\sum_{i=1}^{n} X_{i}\stackrel{H_{0}}{\sim} Bin(n,\pi_0) T = ∑ i = 1 n X i ∼ H 0 B in ( n , π 0 )
Einstichprobe π \pi π ungerichtet H 0 : π = π 0 H 1 : π ≠ π 0 \begin{array}{l} H_{0}: \pi=\pi_{0} \\ H_{1}: \pi \neq \pi_{0} \end{array} H 0 : π = π 0 H 1 : π = π 0 hits = 43
n = 100
pi0 = 0.5
binom.test (x = hits, n = n, p = pi0, alternative = 'two.sided' )
Einstichprobe π \pi π linksseitig H 0 : π ≥ π 0 H 1 : π < π 0 \begin{array}{l} H_{0}: \pi \geq \pi_{0} \\ H_{1}: \pi<\pi_{0} \end{array} H 0 : π ≥ π 0 H 1 : π < π 0 hits = 43
n = 100
pi0 = 0.5
binom.test (x = hits, n = n, p = pi0, alternative = 'less' )
Einstichprobe π \pi π rechtsseitig H 0 : π ≤ π 0 H 1 : π > π 0 \begin{array}{l} H_{0}: \pi \leq \pi_{0} \\ H_{1}: \pi>\pi_{0} \end{array} H 0 : π ≤ π 0 H 1 : π > π 0 Besonderheit p-Wert Berechnung:
p = P ( T ≥ t ) = 1 − P ( T < t ) = 1 − P ( T ≤ t − 1 ) = 1 − F ( t − 1 ) p = P(T \geq t)=1-P(T<t)=1-P(T \leq t-1)=1-F(t-1) p = P ( T ≥ t ) = 1 − P ( T < t ) = 1 − P ( T ≤ t − 1 ) = 1 − F ( t − 1 )
hits = 66
n = 100
pi0 = 0.5
binom.test (x = hits, n = n, p = pi0, alternative = 'greater' )
Parameterdifferenz μ 1 − μ 2 \mu_1 - \mu_2 μ 1 − μ 2 unabhängig Teststatistik T = ( X ˉ 1 − X ˉ 2 ) − μ 0 S p o o l 2 n 1 + S p o o l 2 n 2 ∼ H 0 t ( n 1 + n 2 − 2 ) T=\frac{\left(\bar{X}_{1}-\bar{X}_{2}\right)-\mu_{0}}{\sqrt{\frac{S_{p o o l}^{2}}{n_{1}}+\frac{S_{p o o l}^{2}}{n_{2}}}}\stackrel{H_{0}}{\sim} t(n_1+n_2-2) T = n 1 S p oo l 2 + n 2 S p oo l 2 ( X ˉ 1 − X ˉ 2 ) − μ 0 ∼ H 0 t ( n 1 + n 2 − 2 )
Zweistichprobe μ 1 − μ 2 \mu_1 - \mu_2 μ 1 − μ 2 unabhängig ungerichtet H 0 : μ 1 − μ 2 = μ 0 H 1 : μ 1 − μ 2 ≠ μ 0 \begin{array}{l} H_{0}: \mu_{1}-\mu_{2}=\mu_{0} \\ H_{1}: \mu_{1}-\mu_{2} \neq \mu_{0} \end{array} H 0 : μ 1 − μ 2 = μ 0 H 1 : μ 1 − μ 2 = μ 0 K T = ] − ∞ , t kritlinks ] ∪ [ t kritrechts , + ∞ [ \left.\left.K_{T}=\right]-\infty, t_{\text {kritlinks }}\right] \cup\left[t_{\text {kritrechts }},+\infty[\right. K T = ] − ∞ , t kritlinks ] ∪ [ t kritrechts , + ∞ [
alpha = 0.005
data1 = c ( - 1 , - 4 , - 4 , - 3 , - 3 )
data2 = c ( - 2 , - 4 , - 6 )
mu0 = 0
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n1 = length (data1)
n2 = length (data2)
xdiff_quer = mean (data1) - mean (data2)
s2_1 = var (data1)
s2_2 = var (data2)
s2pool = ((n1 - 1 ) * s2_1 + (n2 - 1 ) * s2_2) / (n1 + n2 - 2 )
klinks = qt (alpha / 2 ,df = n1 + n2 - 2 )
krechts = qt ( 1 - alpha / 2 ,df = n1 + n2 - 2 )
paste ( "Krit. Bereich: ]-INF;" , klinks, "] [" , krechts, "; INF[" , sep = "" )
t = (xdiff_quer - mu0) / sqrt (s2pool / n1 + s2pool / n2)
t
p = if (t <= 0 ) 2 * pt (t, n1 + n2 - 2 ) else 2 * pt ( - t, n1 + n2 - 2 )
p
if (p <= alpha) print ( "H1 annehmen" ) else print ( "H0 annehmen" )
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test (data1, data2, mu = mu0, alternative = 'two.sided' , paired = FALSE , var.equal = TRUE )
Zweistichprobe μ 1 − μ 2 \mu_1 - \mu_2 μ 1 − μ 2 unabhängig linksgerichtet H 0 : μ 1 − μ 2 ≥ μ 0 H 1 : μ 1 − μ 2 < μ 0 \begin{array}{l} H_{0}: \mu_{1}-\mu_{2} \geq \mu_{0} \\ H_{1}: \mu_{1}-\mu_{2}<\mu_{0} \end{array} H 0 : μ 1 − μ 2 ≥ μ 0 H 1 : μ 1 − μ 2 < μ 0 K T = ] − ∞ , t k r i t ] \left.\left.K_{T}=\right]-\infty, t_{k r i t}\right] K T = ] − ∞ , t k r i t ]
alpha = 0.005
data1 = c ( - 1 , 0 , - 2 , - 1 , - 4 )
data2 = c ( 2 , 3 , 1 , 3 , 3 )
mu0 = 1
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n1 = length (data1)
n2 = length (data2)
xdiff_quer = mean (data1) - mean (data2)
s2_1 = var (data1)
s2_2 = var (data2)
s2pool = ((n1 - 1 ) * s2_1 + (n2 - 1 ) * s2_2) / (n1 + n2 - 2 )
klinks = qt (alpha,df = n1 + n2 - 2 )
paste ( "Krit. Bereich: ] -INF;" , klinks, "]" , sep = "" )
t = (xdiff_quer - mu0) / sqrt (s2pool / n1 + s2pool / n2)
t
p = pt (t, n1 + n2 - 2 )
p
if (p <= alpha) print ( "H1 annehmen" ) else print ( "H0 annehmen" )
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test (data1, data2, mu = mu0, alternative = 'less' , paired = FALSE , var.equal = TRUE )
Zweistichprobe μ 1 − μ 2 \mu_1 - \mu_2 μ 1 − μ 2 unabhängig rechtsgerichtet H 0 : μ 1 − μ 2 ≤ μ 0 H 1 : μ 1 − μ 2 > μ 0 \begin{array}{l} H_{0}: \mu_{1}-\mu_{2} \leq \mu_{0} \\ H_{1}: \mu_{1}-\mu_{2}>\mu_{0} \end{array} H 0 : μ 1 − μ 2 ≤ μ 0 H 1 : μ 1 − μ 2 > μ 0 K T = [ t krit , + ∞ [ K_{T}=\left[t_{\text {krit }},+\infty[\right. K T = [ t krit , + ∞ [
alpha = 0.005
data1 = c ( 100 , 200 , 100 , 200 )
data2 = c ( 102 , 202 , 102 , 202 , 152 )
mu0 = - 2
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n1 = length (data1)
n2 = length (data2)
xdiff_quer = mean (data1) - mean (data2)
s2_1 = var (data1)
s2_2 = var (data2)
s2pool = ((n1 - 1 ) * s2_1 + (n2 - 1 ) * s2_2) / (n1 + n2 - 2 )
krechts = qt ( 1 - alpha,df = n1 + n2 - 2 )
paste ( "Krit. Bereich: [" , krechts, ";INF[" , sep = "" )
t = (xdiff_quer - mu0) / sqrt (s2pool / n1 + s2pool / n2)
t
p = 1 - pt (t, n1 + n2 - 2 )
p
if (p <= alpha) print ( "H1 annehmen" ) else print ( "H0 annehmen" )
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test (data1, data2, mu = mu0, alternative = 'greater' , paired = FALSE , var.equal = TRUE )
Parameterdifferenz μ 1 − μ 2 \mu_1 - \mu_2 μ 1 − μ 2 abhängig Teststatistik T = ( X ˉ d i f f ) − μ 0 S D i f f 2 n ∼ H 0 t ( n − 1 ) T=\frac{(\bar{X}_{diff})-\mu_{0}}{\sqrt{\frac{S_{D i f f}^{2}}{n}}}\stackrel{H_{0}}{\sim} t(n-1) T = n S D i ff 2 ( X ˉ d i ff ) − μ 0 ∼ H 0 t ( n − 1 )
Zweistichprobe μ 1 − μ 2 \mu_1 - \mu_2 μ 1 − μ 2 abhängig ungerichtet H 0 : μ 1 − μ 2 = μ 0 H 1 : μ 1 − μ 2 ≠ μ 0 \begin{array}{l} H_{0}: \mu_{1}-\mu_{2}=\mu_{0} \\ H_{1}: \mu_{1}-\mu_{2} \neq \mu_{0} \end{array} H 0 : μ 1 − μ 2 = μ 0 H 1 : μ 1 − μ 2 = μ 0 K T = ] − ∞ , t kritlinks ] ∪ [ t kritrechts , + ∞ [ \left.\left.K_{T}=\right]-\infty, t_{\text {kritlinks }}\right] \cup\left[t_{\text {kritrechts }},+\infty[\right. K T = ] − ∞ , t kritlinks ] ∪ [ t kritrechts , + ∞ [
alpha = 0.005
data1 = c ( - 0.3 , - 0.4 , 0.2 , 0.5 , 0.7 )
data2 = c ( - 0.3 , 0.3 , 0.4 , 0 , 0 )
mu0 = 0
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n = length (data1)
xdiff_quer = mean (data1) - mean (data2)
s2diff = var (data1 - data2)
klinks = qt (alpha / 2 ,df = n - 1 )
krechts = qt ( 1 - alpha / 2 ,df = n - 1 )
paste ( "Krit. Bereich: ]-INF;" , klinks, "] [" , krechts, "; INF[" , sep = "" )
t = (xdiff_quer - mu0) / sqrt (s2diff / n)
t
p = if (t <= 0 ) 2 * pt (t, n - 1 ) else 2 * pt ( - t, n - 1 )
p
if (p <= alpha) print ( "H1 annehmen" ) else print ( "H0 annehmen" )
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test (data1, data2, mu = mu0, alternative = 'two.sided' , paired = TRUE , var.equal = TRUE )
Zweistichprobe μ 1 − μ 2 \mu_1 - \mu_2 μ 1 − μ 2 abhängig linksgerichtet H 0 : μ 1 − μ 2 ≥ μ 0 H 1 : μ 1 − μ 2 < μ 0 \begin{array}{l} H_{0}: \mu_{1}-\mu_{2} \geq \mu_{0} \\ H_{1}: \mu_{1}-\mu_{2}<\mu_{0} \end{array} H 0 : μ 1 − μ 2 ≥ μ 0 H 1 : μ 1 − μ 2 < μ 0 K T = ] − ∞ , t k r i t ] \left.\left.K_{T}=\right]-\infty, t_{k r i t}\right] K T = ] − ∞ , t k r i t ]
alpha = 0.005
data1 = c ( - 10 , - 20 , - 20 , - 15 , - 8 )
data2 = c ( - 20 , - 50 , - 70 , - 80 , - 90 )
mu0 = 10
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n = length (data1)
xdiff_quer = mean (data1) - mean (data2)
s2diff = var (data1 - data2)
klinks = qt (alpha,df = n - 1 )
paste ( "Krit. Bereich: ] -INF;" , klinks, "]" , sep = "" )
t = (xdiff_quer - mu0) / sqrt (s2diff / n)
t
p = pt (t, n - 1 )
p
if (p <= alpha) print ( "H1 annehmen" ) else print ( "H0 annehmen" )
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test (data1, data2, mu = mu0, alternative = 'less' , paired = TRUE , var.equal = TRUE )
Zweistichprobe μ 1 − μ 2 \mu_1 - \mu_2 μ 1 − μ 2 abhängig rechtsgerichtet H 0 : μ 1 − μ 2 ≤ μ 0 H 1 : μ 1 − μ 2 > μ 0 \begin{array}{l} H_{0}: \mu_{1}-\mu_{2} \leq \mu_{0} \\ H_{1}: \mu_{1}-\mu_{2}>\mu_{0} \end{array} H 0 : μ 1 − μ 2 ≤ μ 0 H 1 : μ 1 − μ 2 > μ 0 K T = [ t krit , + ∞ [ K_{T}=\left[t_{\text {krit }},+\infty[\right. K T = [ t krit , + ∞ [
alpha = 0.005
data1 = c ( 11 , 35 , 14 , 12 , 2 )
data2 = c ( 10 , 40 , 30 , 10 , 15 )
mu0 = 0
# Hypothesentest von Hand - Wenn nur Werte gegeben sind und keine Daten, diese Variablen durch eigene Werte ersetzen
n = length (data1)
xdiff_quer = mean (data1) - mean (data2)
s2diff = var (data1 - data2)
krechts = qt ( 1 - alpha,df = n - 1 )
paste ( "Krit. Bereich: [" , krechts, ";INF[" , sep = "" )
t = (xdiff_quer - mu0) / sqrt (s2diff / n)
t
p = 1 - pt (t, n - 1 )
p
if (p <= alpha) print ( "H1 annehmen" ) else print ( "H0 annehmen" )
# Hypothesentest mit R Funktion - basierend auf den Datenvektoren (ignorieren, falls eigene Werte verwendet werden)
t.test (data1, data2, mu = mu0, alternative = 'greater' , paired = TRUE , var.equal = TRUE )
Effektstärke und Power Cohen’s δ \delta δ (delta) Unabhängige Stichproben:
δ = μ 1 − μ 2 σ 2 \delta=\frac{\mu_{1}-\mu_{2}}{\sqrt{\sigma^{2}}} δ = σ 2 μ 1 − μ 2 δ ^ W e r t = x ˉ 1 − x ˉ 2 s pool 2 \hat{\delta}_{W e r t}=\frac{\bar{x}_{1}-\bar{x}_{2}}{\sqrt{s_{\text {pool }}^{2}}} δ ^ W er t = s pool 2 x ˉ 1 − x ˉ 2
data1 = c ( 0 , 0 , - 1 )
data2 = c ( 2 , 0 , 1 )
# Cohens Delta von Hand
n1 = length (data1)
n2 = length (data2)
xdiff_quer = mean (data1) - mean (data2)
s2_1 = var (data1)
s2_2 = var (data2)
s2pool = ((n1 - 1 ) * s2_1 + (n2 - 1 ) * s2_2) / (n1 + n2 - 2 )
xdiff_quer / sqrt (s2pool)
# Cohens Delta mit R Funktion
library (effsize)
cohen.d( data1, data2 )
Abhängige Stichproben - unkorrigiert:
δ = μ 1 − μ 2 σ D i f f 2 \delta=\frac{\mu_{1}-\mu_{2}}{\sqrt{\sigma_{\text Diff}^{2}}} δ = σ D i ff 2 μ 1 − μ 2
δ ^ W e r t = x ˉ 1 − x ˉ 2 s D i f f 2 \hat{\delta}_{W e r t}=\frac{\bar{x}_{1}-\bar{x}_{2}}{\sqrt{s_{D i f f}^{2}}} δ ^ W er t = s D i ff 2 x ˉ 1 − x ˉ 2
Abhängige Stichproben - korrigiert:
δ = μ 1 − μ 2 σ D i f f 2 2 ⋅ ( 1 − ρ X 1 X 2 ) \delta=\frac{\mu_{1}-\mu_{2}}{\sqrt{\frac{\sigma_{\text Diff}^{2}}{2\cdot(1-\rho_{X_{1}X_{2}})}}} δ = 2 ⋅ ( 1 − ρ X 1 X 2 ) σ D i ff 2 μ 1 − μ 2
δ ^ W e r t = x ˉ 1 − x ˉ 2 s D i f f 2 2 ⋅ ( 1 − r X 1 X 2 ) \hat{\delta}_{W e r t}=\frac{\bar{x}_{1}-\bar{x}_{2}}{\sqrt{\frac{s_{\text Diff}^{2}}{2\cdot(1-r_{X_{1}X_{2}})}}} δ ^ W er t = 2 ⋅ ( 1 − r X 1 X 2 ) s D i ff 2 x ˉ 1 − x ˉ 2
data1 = c ( - 10 , - 20 , - 20 , - 15 , - 80 )
data2 = c ( - 20 , - 50 , - 70 , - 80 , - 90 )
# Cohens Delta mit R Funktion
library (effsize)
cohen.d( data1, data2, paired = TRUE )
Größen:
δ \delta δ 0.2 0.5 0.8 Interpretation kleiner Effekt mittlerer Effekt großer Effekt
Konfidenzintervall für Cohen’s δ \delta δ library (MBESS)
d_est = - 0.54
n1 = 18
n2 = 18
ci.smd( smd = d_est,n.1 = n1,n.2 = n2,conf.level = 0.95 )
Stichprobenplanung für Cohens’s δ \delta δ (Anzahl pro Gruppe ) library (MBESS)
d_guess = 0.5
conf.level = 0.95
width = 0.29
ss.aipe.smd( d_guess, conf.level, width )
Power Wahrscheinlichkeit, dass sich die Teststatistik im kritischen Bereich realisiert, falls die H 1 H_1 H 1 gilt.
Je größer das Signifikanzniveau, desto größer die Power. Je größer die Stichprobe, desto größer die Power. Je größer der wahre Effekt, desto größer die Power. 4 Faktoren wirken aufeinander: Power (1 − β 1-\beta 1 − β ), Signifikanzniveau (α \alpha α ), Effekt (δ \delta δ ) und Stichprobengröße (n). 3 dieser Werte bestimmen jeweils den 4.
Power von Hypothesentest berechnen Für die Berechnung der Power brauchen wir: Signifikanzniveau (α \alpha α ), (kleinst annehmbaren) Effekt (δ \delta δ ) und Stichprobengröße (n).
library (pwr)
n = 1000 # Anzahl pro Gruppe
effect = - 0.2
alpha = 0.005
type = 'one.sample' # oder 'two.sample' oder 'paired'
alternative = 'less' # oder 'greater' oder 'two.sided'
pwr.t.test( n = n,d = effect,sig.level = alpha, type = type, alternative = alternative )
Stichprobenplanung für Hypothesentest Für die Planung der Stichprobengröße brauchen wir: Gewünschte Power (1 − β 1-\beta 1 − β ), Signifikanzniveau (α \alpha α ), Effekt (δ \delta δ )
(n ist die Anzahl an Personen pro Gruppe)
library (pwr)
desired_power = 0.8
effect = - 0.2
alpha = 0.005
type = 'one.sample' # oder 'two.sample' oder 'paired' - Typ des Hypothesentests
alternative = 'less' # oder 'greater' oder 'two.sided' - Richtung der H1
pwr.t.test( power = desired_power,d = effect,sig.level = alpha, type = type, alternative = alternative )
False Discovery Rate Es werden N Studien betrachtet. Alle führen statistische Hypothesentests mit dem Signifikanzniveau α \alpha α durch ρ \rho ρ ist der Anteil der Studien, in denen die H 0 H_0 H 0 wahr ist. (Basisrate)Alle Hypothesentests haben eine Power von ( 1 − β ) (1-\beta) ( 1 − β ) Anzahl falsch positiver Entscheidungen f p = α ⋅ ρ ⋅ N f p=\alpha \cdot \rho \cdot N f p = α ⋅ ρ ⋅ N
Anzahl richtig positiver Entscheidungen r p = ( 1 − β ) ⋅ ( 1 − ρ ) ⋅ N r p=(1-\beta) \cdot(1-\rho) \cdot N r p = ( 1 − β ) ⋅ ( 1 − ρ ) ⋅ N
False Discovery Rate F D R = f p g p = f p f p + r p = α ⋅ ρ ⋅ N α ⋅ ρ ⋅ N + ( 1 − β ) ⋅ ( 1 − ρ ) ⋅ N = α ⋅ ρ α ⋅ ρ + ( 1 − β ) ⋅ ( 1 − ρ ) F D R=\frac{f p}{g p}=\frac{f p}{f p+r p}=\frac{\alpha \cdot \rho \cdot N}{\alpha \cdot \rho \cdot N+(1-\beta) \cdot(1-\rho) \cdot N}=\frac{\alpha \cdot \rho}{\alpha \cdot \rho+(1-\beta) \cdot(1-\rho)} F D R = g p f p = f p + r p f p = α ⋅ ρ ⋅ N + ( 1 − β ) ⋅ ( 1 − ρ ) ⋅ N α ⋅ ρ ⋅ N = α ⋅ ρ + ( 1 − β ) ⋅ ( 1 − ρ ) α ⋅ ρ
R Code alpha = 0.005
power = 0.95
baserate = 0.6
FDR = (alpha * baserate) / ((alpha * baserate) + (power) * ( 1 - baserate))
FDR
# Anzahl der false positives und right positives unter Angabe eines N
N = 10
fp = alpha * baserate * N
fp
rp = power * ( 1 - baserate) * N
rp
Einflussgrößen FDR umso niedriger ist, je kleiner das Signifikanzniveau α \alpha α ist. FDR umso niedriger ist, je höher die Power 1 − β 1-\beta 1 − β ist. FDR umso höher ist, je höher die Basisrate ρ \rho ρ ist. Annahmen Inferenzstatistik Relative Häufigkeit einer Messwertausprägung einer diskreten Variable in einer Population. Annahmen: keine Verfahren:Intervallschätzung für π \pi π Hypothesentests: Binomialtest Mittelwert einer metrischen Variable in einer Population Annahmen:Das Histogramm der interessierenden Variable in der Population kann durch die Dichtefunktion einer Normalverteilung approximiert werden. Verfahren:Intervallschätzung für μ \mu μ Hypothesentests: Einstichproben t-Test Differenz der Mittelwerte einer metrischen Variable in zwei Population. (unabhängig) Annahmen:Das Histogramm der interessierenden Variable kann in beiden Populationen durch die Dichtefunktion einer Normalverteilung approximiert werden. *Die empirische Varianz der interessierenden Variable ist in beiden Populationen gleich groß. Verfahren:Intervallschätzung: Konfidenzintervall für μ 1 − μ 2 \mu_1 - \mu_2 μ 1 − μ 2 bei unabhängigen Stichproben Hypothesentests: Zweistichproben t-Test für unabhängige Stichproben Differenz der Mittelwerte einer metrischen Variable in zwei Population. (abhängig) Annahmen:Das Histogramm der interessierenden Variable kann in beiden Populationen durch die Dichtefunktion einer Normalverteilung approximiert werden. Verfahren:Intervallschätzung: Konfidenzintervall für μ 1 − μ 2 \mu_1 - \mu_2 μ 1 − μ 2 bei abhängigen Stichproben Hypothesentests: Zweistichproben t-Test für abhängige Stichproben Bei großen Stichproben können Verletzungen der Annahmen vernachlässigt werden! .