데이터 분석
pandas cheat sheet (2/2) - 시각화
ai-creator
2021. 8. 8. 13:55
반응형
Boxplot
- 5가지숫자를 요약하여 표현 (자료수가 10개 이상일때 의미가 있음)
- 5가지 숫자란?
- 사분위수 (Q1, Q2, Q3)
- 최대값
- IRQ * 1.5 경계 내에서 최대값
- 최소값
- IRQ * 1.5 경계 내에서 최소값
- 사분위수란?
- 순서에 따라 4등분 하는 수 (참고. 중앙값=median은 2등분 하는 수)
- Q1 = 25%, Q2 = 50%, Q3 = 75%
- IRQ (interquartile range, 사분위범위) = Q3-Q1
- 전체 데이터의 50%에 해당하며, 주로 중앙에 위치하는 값이다.
- Boxplot으로 알 수 있는 것?
- 데이터의 분포
- IRQ * 1.5 경계 내에서 최대/최소값
- IRQ * 1.5 경계 외에는 이상점
ㅁ참고자료
- https://ko.wikipedia.org/wiki/%EC%83%81%EC%9E%90_%EC%88%98%EC%97%BC_%EA%B7%B8%EB%A6%BC
반응형