Test
- One sample test
-
One sample t-test
전제: 모집단의 분포가 정규분포를 따른다.
- t.test
검정:
t.test(x, y=NULL, alternative=, mu=, conf.level=)
x
: 벡터형 데이터y
: 표본이 하나라 대조군이 없음.alternative
: 판별 방향. — default 값은 양측 검정.'two.sided'
양측,'less'
,'greater'
.mu
: 모평균. — default 값은 0.conf.level
: 신뢰수준. — 0~1.- 해석
신뢰구간 안에 들어가면 귀무가설 채택.
alternative hypothesis
: 대립가설. -
Wilcoxon signed rank test
전제: 모집단의 분포가 정규분포를 따르지 않는다. 이상치가 있다.
가정: 평균이 표본의 중앙값 근처이다.
- wilcox.test
검정:
wilcox.test(x,y=NULL, alternative=, mu=, conf.int=)
,correct=F)
: continuity correction을 안 하고 그냥 signed rank test 시행.정규분포로 분산시키지 않고 이산확률분포로 알아서 보기.
내용은 t-test와 같음.
- 해석
유의확률이 유의수준보다 낮으면 귀무가설 기각.
-
정규성 검정
정규성 검정: 모집단이 정규분포를 따르는가.
모수적 방법(t-test), 비모수적 방법(wilcoxon)
- Shapiro Wilk Test
Shapiro Wilk Test: 표본을 가지고 정규성 검정.
귀무가설: 모집단이 정규분포와 같다.
shapiro.test(x)
: 벡터형 데이터인 표본 x의 정규성 검정.- qqnorm
qqnorm(x)
: x를 분위수 그래프로 표현.해석: y=x 직선 그래프의 근처에 있으면 정규분포다.
-
- Two sample test
- Two sample t-test
- t.test
검정:
t.test(x, y, var.equal=F)
var.equal
: 등분산 가정. — default 값은F
나머지: one sample t-test와 같음.
참고로 y~x의 형식도 가능.
- 해석
유의확률이 유의수준보다 낮으면 귀무가설 기각.
== 서로 다르다.
-
등분산 검정
검정:
var.test(x, y)
F 분포 검정: 두 분산의 비.
귀무가설: 두 모집단의 분산이 같다. F 값이 1이다.
y~x의 형태도 가능.
-
Wilcoxon test
검정:
wilcox.test(x, y)
y~x의 형태도 가능.
귀무가설: 두 평균이 같다.
- Two sample t-test
-
Paired sample test
대응 표본 검정: 동일 집단의 전후 비교.
위의 test들에
(,paired=T)
를 추가해주면 됨.귀무가설: 전과 후가 같다. 차이가 없다.
-
ANOVA
-
one-way ANOVA
aov(y~x)
: y를 x로 분류하여 ANOVA 검정 시행.anova(lm())
: 선형 모델에 ANOVA 검정 시행.효율적이라고는 하는데… ㅇㅅㅇ;;
aov()
와는 그저 문법 차이summary()
: 분산분석표 확인 가능. -
기타
oneway.test()
: 등분산이 아닌 경우 표본검정.kruskal.test()
: 크루스칼-월리스 검정 시행.ANOVA에 대비되는 비모수적 방법. — 정규성X | 등분산X.
pairwise.t.test()
: 집단간 t-test 수행, 결과를 행렬로 반환.어느 두 집단이 차이가 나는지를 보여줌.
,pool.sd=T)
: 합동표본분산으로 계산. — default:bartlett.test()
: 각 세부 집단, 여러 집단의 등분산 검정. -
two-way ANOVA
interaction.plot(x,z,y)
: 서론 간의 interaction을 확인.friedman.test(y~x|z)
: y를 x와 z 별로 나누어서 검정.비모수적 방법: rank sum을 시행.
-
-
Regression
lm(y~x)
: 선형회귀 모델해석:
intercept
가 y절편,x
가 기울기/계수.그림 그려줄 때는 저수준 그래픽스
abline()
으로. + colfitted()
: 데이터를 x로 받고 1차 직선 위 y 값을 각각 보여줌.resid()
: fitted 값이 모델에 비해 실제 오차가 얼마인지 보여줌.qqnorm(resid())
: 정규성검정predict()
: fitted 값과 같은 값 반환.(,int='c')
: 95% 신뢰구간 예측.(,int='p')
: prediction interval 예측. — 에러도 표시됨.(,newdata=)
: 데이터 x를 newdata로 받아가져와라.- Regression analysis (다중회귀 분석)
분석대상: 독립변수가 2개 이상인 회귀모형
lm(y~x+z)
: 다중회귀 시행.summary()
를 통해 유의확률을 살펴봄.p-value가 큰 계수는 의미가 없다.
유의성과 설명력도 살펴보고…
anova(m1, m2)
: 유의확률이 크면 두 모델 비교에 큰 차이가 없다.backward
: anova의 순서 변경, 유의확률 큰 변수 빼기 등의 과정.
-
Polynomial Regression
다항회귀: 제곱이나 상승이 들어감.
식의 모양이 2차식이다…?
summary(with(data, lm(y~x+I(z^2))))
: x로 회귀I()
: 단지 하나의 항이라는 것을 알려주는 것.predict(lm, interval=, newdata=)
: lm한 데이터를 95% 예측구간을 알 수 있음.유의수준 5% 하에서 차이가 있다…
-
Correlation
cor()
: 데이터 간의 상관관계 구하기 — NA가 있으면 에러.(,use='complete.obs)
: NA를 무시하고 구함.cor.test()
: 상관관계 검정 — 귀무가설: 관계가 없다.(,mothod='spearman')
: 비모수 검정.모수 검정인 pearson이 default 값. kendall도 있음.
-
Logistic Regression
-
GLM
로지스틱 회귀: 선형회귀가 적합하지 않은 경우.
0과 1로 이루어진 데이터.
glm(y~x+z, binomial)
: y를 x와z로 로지스틱 회귀분석 시행.,family=binomial('logit'))
: default 값.,weights=)
: 분모가 무엇인지 알려준다.summary(glm, corr=T)
: 분석 결과의 상관관계 확인. -
ANOVA
anova(glm, test='Chisq')
: 유의확률이 크면 별 의미 없다.drop1(glm, test='Chisq')
: 맨 끝에 놨을 때의 p-value를 보여준다.여기서 유의하지 않다고 나오면 없애도 된다.
모든 각각의 항목을 맨 밑에 와있을 때의 p-value를 보여주는데, 맨 끝에 있으면 앞에서 분류된 것에서 마지막 요인을 분류하는 것.
-
Likelihood profiling
로지스틱 회귀에는 MSE와 같은 거리 개념이 잘 없다.
그러면 뭐로 parameter를 조절?
likelihood profiling: 어떤 data가 이럴 가능성이 가장 최대가 하는 parameter를 고르는 것.
MLE
confint와 exp함수…
-
-
Poisson Regression
포아송 회귀: 결과값이 비율인 경우 사용.
종속변수가 포아송 분포를 따를 것으로 생각되는 경우
glm(y~x+z, offset=log(w), family=poisson)
포아송 분석에는 offset, poisson을 꼭 넣어줘야 함.
유의확률 값이 작으면 중요한 요인.
fitted(glm)
: x와 z에 따른 fitting. -
confint 신뢰구간.