산포도

마지막 업데이트: 2022년 4월 20일 | 0개 댓글
  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기
평균편차 계산식

MATH FACTORY

숫자로 된 자료가 있을 때, 그 자료의 특성을 나타내는 수는 두가지가 필요합니다. 하나는 대푯값 또하나는 산포도입니다.

대푯값이란, 자료를 잘 나타낼 수 있는 수, 즉 자료를 대표할 수 있는 값을 말합니다. 대푯값에는 평균, 중앙값, 최빈값 등이 있는데, 가장 많이 쓰이는 것은 평균입니다.

산포도란, 자료가 흩어져있는 정도를 나타내는 값을 말합니다. 분산, 평균편차, 데이터 범위 등이 있는데, 가장 많이 쓰이는 것은 분산입니다.

전체 자료의 합을 전체 자료의 개수로 나눈 값을 평균이라고 합니다. 예를 들어 세과목 시험을 봐서 50점, 60점, 70점을 받았다고 하면 평균은 다음과 같이 계산합니다.

마찬가지 방식으로 $ x_1 $, $ x_2 $, $ x_3 $, $ \cdots $, $ x_n $까지 총 $ n $개의 자료의 평균은 다음과 같이 계산합니다.

10과목 시험 봤는데 50점이 3개, 60점이 4개, 70점이 3개라 하면 평균을 다음과 같이 계산합니다.

마찬가지 방식으로 $ x_1 $이 $ f_1 $개, $ x_2 $이 $ f_2 $개, $ x_3 $이 $ f_3 $개, $ \cdots $, $ x_n $이 $ f_n $개 있다면 평균을 다음과 같이 계산합니다.

변량에서 평균을 뺀 것을 편차라고 하고, 편차 제곱의 평균을 분산이라 합니다. 예를 들어 세과목 시험을 봐서 산포도 50점, 60점, 70점을 받았다면, 평균이 60점이므로 분산은 다음과 같이 계산합니다.

마찬가지 방식으로 $ 산포도 x_1 $, $ x_2 $, $ x_3 $, $ \cdots $, $ x_n $까지 총 $ n $개의 자료의 평균이 $ m $이라 하면, 분산은 다음과 같이 계산합니다.

10과목 시험 봤는데 50점이 3개, 60점이 4개, 70점이 3개라 하면 평균이 60점 이므로 분산은 다음과 같이 계산합니다.

마찬가지 방식으로 $ x_1 $이 $ f_1 $개, $ x_2 $이 $ f_2 $개, $ x_3 $이 $ f_3 $개, $ \cdots $, 산포도 $ x_n $이 $ f_n $개의 평균이 $m$이라 하면 분산은 다음과 같이 계산합니다.

분산의 특징은 평균에서 먼 값이 많을 수록 값이 커진다는 것입니다.

표준편차는 분산의 양의 제곱근을 말합니다. 변량의 단위가 $ m $라고 할 때, 분산의 단위는 $ m^2 $이 되므로, 근호를 씌워서 변량과 단위를 맞춘다고 보시면 됩니다.

> > This page is based on a Wikipedia article written by contributors (read/edit).
Text is available under the CC BY-SA 4.0 license; additional terms may apply.
Images, videos and audio are available under their respective licenses.

Tell your friends about Wikiwand!

Suggest as cover photo

Would you like to suggest this photo as the cover photo for this article?

Thank you for helping!

Your input will affect cover photo selection, along with input from other users.

Thanks for reporting this video!

This browser is not supported by Wikiwand :(
Wikiwand requires a browser with modern capabilities in order to provide you 산포도 with the best reading experience.
Please download and use one of the following browsers:

An extension you use may be preventing Wikiwand articles from loading properly.


If you're using HTTPS Everywhere or you're unable to access any article on Wikiwand, please consider switching to HTTPS (https://www.wikiwand.com).

An extension you use may be preventing Wikiwand articles from loading properly.

If you are using an Ad-Blocker, it might have mistakenly blocked our content. You will need to temporarily disable your Ad-blocker to view this page.

Please click the "Downloads" icon in the Safari toolbar, open the first download in the list,
then click Install

산포도(散布度) 또는 변산도(變散度)는 변량이 흩어져 있는 정도를 하나의 수로 나타낸 값이다. 범위, 사분위수 범위, 분산, 표준 편차, 절대 편차, 변동 계수 등이 이에 속한다. 영어 표현으로는 dispersion, variability, scatter, spread, degree of scattering 등이 있다.

최대값에서 최소값을 뺀 것이다.

3. 사분위간 범위

자료를 같은 갯수로 4개로 나눈 각각의 값을 사분위수(quartile)라고 한다. n개의 값이 있다면 중앙값이 2사분위수인 Q2이며, (Q2 + 1)/2 번째가 1사분위수인 Q1이고, (Q2 + n)/2 번째가 3사분위수인 Q3이다.

예를 들어 11~24의 14개의 숫자가 있다고 하면 7.5번째여서 중위수인 17.5가 Q2이다. Q1은 4.25번째인 14.25이고, Q3는 10.75번째 숫자인 20.75이다. 그럼 11과 14.25 사이의 간격은 3.25이고, 14.25와 17.5 사이의 간격도 3.25이다. 또한 17.5와 20.75 사이의 간격도 3.25이고, 20.75와 24사이의 간격도 3.25이다.

사분위간 범위(interquartile range, IQR)는 3 사분위수에서 1 사분위수를 뺀 값으로 전체 자료의 중간에 있는 절반의 자료들이 지니는 값의 범위를 말한다. Q1에서 Q3 사이의 간격이라고 생각하면 된다. 위의 예에서는 20.75 - 14.25 = 6.5이다.

산포도인 사분위간 범위와 달리 사분위수와 백분위수는 대푯값이다. Q1은 제25백분위수, Q2는 제 50백분위수, Q3는 제75 백분위수이기도 하다.

분산은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 갯수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 산포도 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.

표본에서의 분산은 N이 아닌 n-1로 나눈다. n은 표본의 갯수이다.

분산은 쉽게 말하면 편차의 제곱의 평균이다.

편차는 관측값에서 평균 또는 중앙값을 뺀 것이다. 즉, 자료값들이 특정값으로부터 떨어진 정도를 나타내는 수치이다.

5.1. 표준 편차

표준 편차는 짧게 말해서 분산에 루트를 씌운 것이다. 분산에서 왜 제곱을 하는지 알고 있다면, 표준편차에서 왜 루트를 씌우는지도 알 수 있다. 분산을 구하는 과정에서 마이너스 기호를 떨구기 위해 임의로 뻥튀기를 해 놓았으니, 이제 그 값을 도로 원상복구(…)시켜야 하는 것이다. 즉 제곱해서 커져 버린 값에 루트를 씌워서 도로 쪼그라들게 만들면 비로소 우리가 본래 알고 싶어하던 편차의 평균이 얻어지게 되는 것이다. 통계학에서는 시그마 소문자 기호로 표준편차를 표시하는데, 위에 서술한 바에 의해서 분산의 경우는 시그마 제곱으로 표현된다.

표준편차의 경우, 모든 관찰값에 동일한 상수를 똑같이 더하거나 빼는 것은 영향을 받지 않지만, 똑같이 곱하거나 나누게 되면 표준편차도 동일하게 영향을 받는다. 모든 수에 2를 곱한다면 표준편차도 2가 곱해진 새로운 값으로 구해지게 된다.산포도

표준 오차(standard error)는 표준 편차와는 다르다. 이쪽은 추론통계학에서 수많은 표본 평균들의 편차를 구함으로써 모 평균 "뮤"를 추정할 때 쓰인다. 이 경우 시그마 소문자에다 아래 첨자로 m 을 붙여서 표기하며, 루트 씌운 표본 관측값의 수로 표본 표준 편차를 나누면 된다.

5.1.1. 변동 계수

變動係數 / coefficient of variation

변동 계수 또는 상대 표준 편차(relative standard deviation, RSD)는 표준 편차를 표본 평균이나 모 평균 등 산술 평균으로 나눈 것이다.

R = 자료의 최대값 - 자료위 최소값

범위 관련 예제문제

사분위 범위(IQR)

IQR = 제3사분위수 - 제1사분위수

극단값의 영향을 받는 범위의 단점을 일부 보완함

편차 : 자료값과 평균의 차이 (자료값 - 평균)

평균 편차 : 편차의 절대값의 평균

평균편차 계산식

  • 평균편차는 절대값을 포함하여 수리적으로 불편
  • 분산은 편차의 제곱의 평균
  • 단위가 원자료 단위이 제곱

분산의 계산식

원자료, 평균의 단위와 동일한 단위

단순히 위에서 구한 분산값에 제곱근을 입히면 된다.

표준편차, 분산식 예제문제

변동계수 구하는 식

  • 변동계수는 자료 고유의 단위에 의존하지 않음
  • 이질적인 집단 간의 산포를 비교할 때 유용 (다른 단위의 자료, 평균의 차이가 큰경우)
  • 변동계수가 0에 근접할수록 평균에 밀집되어 있음

예제 문제

여자의 체중에 대한 변동계수가 높으므로, 남자의 신장에 비해 상대적으로 산포도가 크다고 볼 수 있다.

학습목표
(1) 산포도의 의미를 말할 수 있다
(2) 주어진 자료의 산포가 크다/작다 라는 말의 의미를 알 수 있다
(3) 사분위범위(IQR)를 말할 수 있다
(4) 편차의 의미를 말할 수 있다

(5) 분산식을 자유롭게 쓸 수 있다
(6) 주어진 자료에서 분산을 구할 수 있다
(7) 분산 간편 계산식을 활용할 수 있다

[R] R을 이용한 통계 분석 및 데이터 시각화 : 산포도

다음 예제에서는 두 그룹의 데이터를 1 장의 이미지에 그리기 위해 먼저 plot함수에서 빈 이미지를 만들고 points함수를 두 번 사용하여 2 그룹의 데이터를 그려 추가하는 샘플 코드이다.

[산포도] 투명도 주기

points함수에서 산점도를 만들 때 마커의 투명도를 지정하는 것으로, 플롯된 포인트의 농담을 설정할 수 있다.

예를 들어, 투명도 50% 일 때, 산포도 산포도 거기에 데이터가 하나만 플롯되어 있는 경우 반투명하게 보일 것이다.

그러나 동일한 영역에 여러 값을 플로팅되어 있다면, 투명도 50 %의 마커가 여러 겹치는 때문에 그만큼 진해지게 된다.

투명도와 색상은 RGB 형식으로 색상과 투명도를 동시에 지정할 수있다.

예를 들어 "# FF0000"은 적색을 나타내지만, 그 뒤에 16 진수를 붙이게 되면 ( "# FF000020"), 색과 투명도 정보가 같이 들어가게 된다.

densCols 함수에서 그라디언트 색상 팔레트를 생성하여 산점도를 그라데이션 컬러로 그릴 수도 산포도 있다.

[산포도] 플롯 마커

플롯 마커의 모양은 pch인수로 지정한다. 그리고 플롯 마커는 숫자로 지정한다.

숫자와 플롯 마커의 모양은 다음과 같이 대응하고 있다.

또한 플롯 마커는 숫자 대신 문자로 대체 할 수도 있다.

[다음글]

[R] R을 이용한 통계 산포도 분석 및 데이터 시각화 : 입체 산포도

정보 업무명 : R을 이용한 통계 분석 및 데이터 시각화 : 입체 산포도 작성자 : 박진만 작성일 : 2020-03-24 설 명 : 수정이력 : 내용 [개요] R은 통계 분석 및 시각화 등의 기능을 갖춘 프로그래밍 언어 내지 통..

[이전글]

[R] R을 이용한 통계 분석 및 데이터 시각화 : 2차 이상의 추세선

정보 업무명 : R을 이용한 통계 분석 및 데이터 시각화 : 2차 이상의 추세선 작성자 : 박진만 작성일 : 2020-04-03 설 명 : 수정이력 : 내용 [개요] R은 통계 분석 및 시각화 등의 기능을 갖춘 프로그래밍 언어 내..


0 개 댓글

답장을 남겨주세요