데이터 분석

pandas cheat sheet (2/2) - 시각화

ai-creator 2021. 8. 8. 13:55
반응형

Boxplot

  • 5가지숫자를 요약하여 표현 (자료수가 10개 이상일때 의미가 있음)
  • 5가지 숫자란?
    • 사분위수 (Q1, Q2, Q3)
    • 최대값
      • IRQ * 1.5 경계 내에서 최대값
    • 최소값
      • IRQ * 1.5 경계 내에서 최소값
  • 사분위수란?
    • 순서에 따라 4등분 하는 수 (참고. 중앙값=median은 2등분 하는 수)
    • Q1 = 25%, Q2 = 50%, Q3 = 75%
    • IRQ (interquartile range, 사분위범위) = Q3-Q1 
      • 전체 데이터의 50%에 해당하며, 주로 중앙에 위치하는 값이다. 
  • Boxplot으로 알 수 있는 것?
    • 데이터의 분포

 

  • IRQ * 1.5 경계 내에서 최대/최소값
  • IRQ * 1.5 경계 외에는 이상점

 

ㅁ참고자료

- https://ko.wikipedia.org/wiki/%EC%83%81%EC%9E%90_%EC%88%98%EC%97%BC_%EA%B7%B8%EB%A6%BC

- https://www.youtube.com/watch?v=cC0uKXvQ300

반응형