검정: t.test(x, y, var.equal=F)
var.equal
: 등분산 가정. — default 값은 F
나머지: one sample t-test와 같음.
참고로 y~x의 형식도 가능.
유의확률이 유의수준보다 낮으면 귀무가설 기각.
== 서로 다르다.
등분산 검정
검정: var.test(x, y)
F 분포 검정: 두 분산의 비.
귀무가설: 두 모집단의 분산이 같다. F 값이 1이다.
y~x의 형태도 가능.
Wilcoxon test
검정: wilcox.test(x, y)
y~x의 형태도 가능.
귀무가설: 두 평균이 같다.
Paired sample test
대응 표본 검정: 동일 집단의 전후 비교.
위의 test들에 (,paired=T)
를 추가해주면 됨.
귀무가설: 전과 후가 같다. 차이가 없다.
ANOVA
one-way ANOVA
aov(y~x)
: y를 x로 분류하여 ANOVA 검정 시행.
anova(lm())
: 선형 모델에 ANOVA 검정 시행.
효율적이라고는 하는데… ㅇㅅㅇ;;
aov()
와는 그저 문법 차이
summary()
: 분산분석표 확인 가능.
기타
oneway.test()
: 등분산이 아닌 경우 표본검정.
kruskal.test()
: 크루스칼-월리스 검정 시행.
ANOVA에 대비되는 비모수적 방법. — 정규성X | 등분산X.
pairwise.t.test()
: 집단간 t-test 수행, 결과를 행렬로 반환.
어느 두 집단이 차이가 나는지를 보여줌.
,pool.sd=T)
: 합동표본분산으로 계산. — default:
bartlett.test()
: 각 세부 집단, 여러 집단의 등분산 검정.
two-way ANOVA
interaction.plot(x,z,y)
: 서론 간의 interaction을 확인.
friedman.test(y~x|z)
: y를 x와 z 별로 나누어서 검정.
비모수적 방법: rank sum을 시행.
Regression
lm(y~x)
: 선형회귀 모델
해석:
intercept
가 y절편,x
가 기울기/계수.그림 그려줄 때는 저수준 그래픽스
abline()
으로. + col
fitted()
: 데이터를 x로 받고 1차 직선 위 y 값을 각각 보여줌.
resid()
: fitted 값이 모델에 비해 실제 오차가 얼마인지 보여줌.
qqnorm(resid())
: 정규성검정
predict()
: fitted 값과 같은 값 반환.
(,int='c')
: 95% 신뢰구간 예측.
(,int='p')
: prediction interval 예측. — 에러도 표시됨.
(,newdata=)
: 데이터 x를 newdata로 받아가져와라.
분석대상: 독립변수가 2개 이상인 회귀모형
lm(y~x+z)
: 다중회귀 시행.
summary()
를 통해 유의확률을 살펴봄.
p-value가 큰 계수는 의미가 없다.
유의성과 설명력도 살펴보고…
anova(m1, m2)
: 유의확률이 크면 두 모델 비교에 큰 차이가 없다.
backward
: anova의 순서 변경, 유의확률 큰 변수 빼기 등의 과정.
Polynomial Regression
다항회귀: 제곱이나 상승이 들어감.
식의 모양이 2차식이다…?
summary(with(data, lm(y~x+I(z^2))))
: x로 회귀
I()
: 단지 하나의 항이라는 것을 알려주는 것.
predict(lm, interval=, newdata=)
: lm한 데이터를 95% 예측구간을 알 수 있음.
유의수준 5% 하에서 차이가 있다…
Correlation
cor()
: 데이터 간의 상관관계 구하기 — NA가 있으면 에러.
(,use='complete.obs)
: NA를 무시하고 구함.
cor.test()
: 상관관계 검정 — 귀무가설: 관계가 없다.
(,mothod='spearman')
: 비모수 검정.모수 검정인 pearson이 default 값. kendall도 있음.
Logistic Regression
GLM
로지스틱 회귀: 선형회귀가 적합하지 않은 경우.
0과 1로 이루어진 데이터.
glm(y~x+z, binomial)
: y를 x와z로 로지스틱 회귀분석 시행.
,family=binomial('logit'))
: default 값.
,weights=)
: 분모가 무엇인지 알려준다.
summary(glm, corr=T)
: 분석 결과의 상관관계 확인.
ANOVA
anova(glm, test='Chisq')
: 유의확률이 크면 별 의미 없다.
drop1(glm, test='Chisq')
: 맨 끝에 놨을 때의 p-value를 보여준다.
여기서 유의하지 않다고 나오면 없애도 된다.
모든 각각의 항목을 맨 밑에 와있을 때의 p-value를 보여주는데, 맨 끝에 있으면 앞에서 분류된 것에서 마지막 요인을 분류하는 것.
Likelihood profiling
로지스틱 회귀에는 MSE와 같은 거리 개념이 잘 없다.
그러면 뭐로 parameter를 조절?
likelihood profiling: 어떤 data가 이럴 가능성이 가장 최대가 하는 parameter를 고르는 것.
MLE
confint와 exp함수…
Poisson Regression
포아송 회귀: 결과값이 비율인 경우 사용.
종속변수가 포아송 분포를 따를 것으로 생각되는 경우
glm(y~x+z, offset=log(w), family=poisson)
포아송 분석에는 offset, poisson을 꼭 넣어줘야 함.
유의확률 값이 작으면 중요한 요인.
fitted(glm)
: x와 z에 따른 fitting.
confint 신뢰구간.