범주형 데이터를 다루는 함수

gender <- c("male", "female", "female", "male")
f_gender <- factor(gender) # male female, female, male
print(f_gender) # male female
table(gender) # 범주형 자료의 요약

숫자형 자료의 시각화

hist(벡터이름)
hist(벡터이름, freq = F) # y축을 비율로 표시
hist(벡터이름, breaks=10) # x축 구간을 10개로 쪼갬
stem(score)
boxplot(score)

다양한 함수 정리

mean(벡터변수명) # 평균
sum(벡터변수명) # 합계
median(벡터변수명) # 중간값
quantile(벡터변수명, probs=0.25) # Q1값
quantile(벡터변수명) # 0 Q1 Q2 Q3 100% 값
var(벡터변수명) # 표본분산(n-1로 나눔)
sd(벡터변수명) # 표본 표준편차
min(벡터변수명) # 최솟값
max(벡터변수명) # 최댓값
fivenum(벡터변수명) # 최솟값, Q1, 중간값, Q3, 최댓값
summary(벡터 혹은 데이터프레임 변수명) # 전반적인 요약 통계 제공
cor(벡터1변수명, 벡터2변수명) # 상관계수
str(데이터프레임 변수명) # 데이터프레임 구조(structure) 제공

그래프를 통한 요약

# plot(x, y, main=‘ ’, sub=‘ ’, xlim=c(a,b), 
#           ylab=‘ ’, type=‘ ’ ,col = '')
# x, y = x, y축 데이터
# main = 그래프 제목
# sub = 그래프 부제목
# xlim, ylim = x, y축 범위
# xlab, ylab = x, y축 레이블
# type = 그래프 타입(p:점, l:선, b:점+선, n:없음)
# col = 색상