출처 : http://blog.naver.com/kwanseol?Redirect=Log&logNo=20057518639

요인분석(factor analysis)란?

요인분석이란 말 그래도 어떤 변수들간의 잠재요인(latent factor)가 있어 개별 변수들을

설명하고 있음을 통계적으로 도출하는 분석을 의미한다.

좀더 쉽게 예를 들어 설명하면,

사람들에 대한 인사평가를 한다고 생각해보자, 학력, 영어점수, 자격증, 대인관계, 과거 직장경력 등 다양한 부분에 대한 평가결과가 있다고 한다면 이와 같은 변수들에 대한 평가가 잠재력, 조직관리력 등 어떤 요인(factor)들이 있고 이것이 학력, 영어점수, 자격증 등의 평가점수에 투명되어 나타난다는 것이다. 그래서 학술적 논점으로 그와 같은 요인(factor)를 찾아내는 과정을 요인분석의 대체적 흐름이다.

보자 직접적으로 설명하면, 개별 변수간의 상관관계(즉 거리 distance, 거리가 가깝다는 것은 상관관계가 높다는 것임)를 가지고 상관관계가 높은 변수들끼리 묶고 이들을 어떤 요인(factor)의 함수식으로 표현하는 것이다. 사실 주성분분석과 동일한 개념이라고 볼 수 있다. 다만, 주성분이 변수들을 대표한다면 요인은 변수들을 설명한다고 볼 수 있다. 즉 주성분 = f(변수) 라면 변수 = f(요인)으로 이해하면 쉽겠다.

여기서 요인과 변수의 관계에 대한 사전지식이 없는 것을 탐색적 요인분석(explorative)이라고 하고

확증적요인분석(comfirmative)의 경우 소위 말해서 경로분석(path analysis)라고 한다. 사실 확증적 요인분석은 이미 가설에 의해 개별 변수들간에 방향성과 상관성이 이론적으로 주워지고 이를

통계적으로 입증하는 분석방법이다.

추후에 경로분석에 대해 설명할 기회가 있겠지?. 시간나면 정리해 보겠습니다.

그럼 어떻게 진행하느냐이다.

설문조사 등을 통해 여러 문항의 결과 즉 x1,x2,x3... x100이 있다고 하자.

이와 같은 변수들을 요인분석을 통해 도출해 보면

우선 잠재된 요인들을 어느 수준에서 도출된다, 예를 들어 f1, f2, f3, f4로 도출된다.

이들 f1, f2, f3, f4들은 서로 상관관계가 없는 독립된 새로운 요인으로 등장하게 된다

예를들어 위의 경우와 같이 f1은 자본총계, 매출액 등 "규모"의 요인으로 볼 수 있고

f2는 부채비율 등 "건전성" 요인으로 볼 수 있겠다.

통상 이와 같은 요인은 회전(rotation) 즉 회전방법에 따라 요인부하치(factor loading value)가

달라지는데, varimax, promax 등의 회전법이 주로 사용된다.

사실 연구자나 분석하는 사람의 성향에 따라 회전방법은 선택할 수 있으며 개별 요인들이

직교 즉 로딩값들이 (+), (-)가 나오는 회전방법이 추천하는 방법이다.

그러면 어디에 활용되나?

바로 이부분이다. 이와 같이 요인이 나오면 개별 관측치들은 요인점수가 나온다. 즉 개별변수들에 미치는 로딩값들을 통해 개별 관측치(observation)의 f1 요인값, f2 요인값 들이 나오게 된다.

다른 표현으로 하면 개별 관측치들의 "규모"값, "건전성"값들이 나오고 이를 가지고

추가적인 회귀분석, GLM분석등을 실시할 수 있다는 것이다.

또한, 수많은 변수(X1, X2, X3 ... X100) 등을 간단히 몇개의 요인(factor)로 집약하여

축약된 그리고 개념화된 변수 혹은 요인으로 "설명"한다는 것이다.

우리의 인지구조상 잠재된 요인이 있고 이것이 몇몇 변수들로 형상화되고 있음을

입증할 수 있다는 것이다.

예를 들어, 사람에 대한 평가를 여러 설문문항 100개의 문항으로 평가를 하고 나서

이에 대한 요인분석을 하면, 인물, 능력 등으로 요인이 도출된다면

우리가 사람에 대한 평가를 인물, 능력 등의 차원에서 이루어지고 있음을 입증할 수 있다는

말이다.


'분석기법' 카테고리의 다른 글

[펀글] AHP(Analytic Hierarchy Process)  (0) 2011.12.14
[펀글] 메타분석(meta analysis)  (0) 2011.12.14

출처 : http://hshklee.blog.me/70072990940
위 사이에 가면 파워포인트 파일도 다운 받을수 있습니다.

AHP(Analytic Hierarchy Process)

AHP 개요

- 한 명 혹은 여러 명의 의사결정자가 참여하는 다기준(Multiple-criteria) 의사결정(Decision-making) 문제

- 평가 기준과 대안을 계층적(Hierarchy)인 구조로 파악하여 최적 대안을 선택

- 자료가 완비되지 않은 여건하에서 계획수립

- 시간적으로 촉박한 상황하에서 의사결정지원

- 부서간 의견 대립된 상황하에서 대응방안수립

- Thomas L.Saaty 교수가 고안한 모델

- 평가 기준이 20개를 초과할 때 AHP는 다른 의사결정 방법보다 유용

AHP 단계

문제정의

어떤 기업에 취직하려고 할 때, A사, B사, C사 중 어느 기업을 선택할 것인가? 업무적합도, 급여 수준, 회사규모, 근무지 등의 네 가지 기준을 사용하여 의사결정

목표설정 : 직장의 선택

계층적 구조



비교행렬 작성

- Pairwise Comparison

- 쌍대비교 중요도 척도 (위 그림에서 i와 j를 비교, 9점 척도)

- 비교행렬 작성

- 상대 비중

비교행렬의 가중치로 상대 비중을 구함

업무적합도는 급여수준보다 5배 중요한데 이를 Normalize 하면 0.417이란 의미

상대 비중은 Normalize한 값의 평균
모든 비교 행렬에 대해 Normalize 후 상대 비중을 계산

- 업무적합도 기준

- 급여수준 기준

- 회사규모 기준

- 근무지 기준

C.I / C.R 계산

- C.I : Consistency Index

- 비교 수행자가 얼마나 일관성을 가지고 결과를 적었는지 보여주는 지표

- 일관성 없는 경우 : 어떤 사람이 A는 B보다 중요하고, B는 C보다 중요하다고 했는데, A는 C보다 덜 중요하다고 평가

- 일관성 높은 경우 : A가 B보다 2배 좋고, B가 C보다 3배 좋다면, A는 C보다 6배 좋다고 응답한 경우

- 응답에 있어 논리적 모순을 검증하는 지표가 C.I

- C.I가 0.1이하이면 일관성을 가지고 비교를 했다는 의미

- C.R : Consistency Ratio

- Random Consistency Index

RI는 1~9까지 정수를 무작위로 추출하여 역수 행렬을 작성한 후 이로부터 구한 CI

일관성 비율(λ) 계산

일관성 비율 계산 공식

최종 상대적 중요도 도출

- 대안별 점수

- 회사별 점수

최종 점수 = 0.096 X 0.476 + 0.571 X 0.081 + .... = 0.283

AHP 방법을 통해 대안 C가 최적 대안으로 선정이 되었음

AHP Tool

- AHP로 의사 결정을 하는데 있어, 계산 과정 등을 자동으로 수행할 수 있는 Tool이 있음

- ExpertChoice : www.expertchoice.com
다운로드 받기 위해서는 간략한 사용자 정보를 입력하고 입력한 메일 주소로 15일 평가용 제품 키를 받아서 사용 가능

- RightChoice : www.tier3-inc.com

다운로드 받기 위해서는 간략한 사용자 정보 입력, 별도의 Key는 없지만 기능 제약이 있음

- 기타 Excel을 사용해 비교 행렬 및 상대 비중 계산을 자동으로 할 수 있는 Tool이 있음

- 위의 문제를 ExpertChoice로 Demo한 결과는 별첨 ppt 파일을 확인하기 바람

'분석기법' 카테고리의 다른 글

[펀글] 요인분석(factor analysis)  (0) 2011.12.14
[펀글] 메타분석(meta analysis)  (0) 2011.12.14

자료의 출처 : http://blog.naver.com/kwanseol?Redirect=Log&logNo=20057231785

메타분석(meta analysis)란

의학분야 혹은 교육학, 사회복지학 등 사회과학에서 한정적 실험결과의 일관성(consistency)을 검증하기 위한 분석방법으로 과거의 실험결과치를 이용해 어떤 실험결과를 일반화하는 분석을 의미한다.

즉, 실험결과를 이용한 논문들은 대부분 제한된 샘플(통제 및 실험집단 크기) 하에서 이루어지기 때문에 이를 과학적 명제 혹은 일반화가 어려운 것이 현실이다. 그래서 과거 수십편의 논문에 나타난 실험결과를 통계적 분석 대상의 관찰치로 전환하여 실험결과의 일반화를 시키는 분석이다.

보다 다른 의미로 보면, 모집단(population)에 대한 실험결과를 과거 논문의 관찰치(observation)을 이용해 모집단의 결과로 추정하는 방법이다.

이를 예를 들어 설명해 보겠다.

가령 놀이치료의 효과를 측정하기 위해 과거 수십면의 동일 논문들의 결과를 통제, 실험집단의 결과 그리고 표준편차를 이용해 통계분석의 관찰치를

도출해 보자

논문1 : 통제집단 10명 효과 10, 표준편차 6

실험집단 9명 효과 12, 표준편차 5

논문2 : 통제집단 20명 효과 11, 표준편차 3

실험집단 10명 효과 9, 표준편차 6

.... 100여개 논문 .... 생략

그러면 관찰치는 어떻게 측정하나

일단 논문들의 효과크기가 실험수나 표준편차에 따라 상이하므로

이를 표준화시켜야 하는 문제가 발생한다.

이를 해결하기 위해 친절하게 Cohen이 표준화 효과크기를 계산하였다.

직관적으로 보면 표준화란 평균값에 그들의 표준편차를 나누면 된다.

Cohen 또한 그와 같은 과정을 적용해 두집단의 차와 이에 대한 표준편차의 추정값을 넣었다. 즉 표준편차의 추정값만 Cohen이 경험적(empirical)으로 도출한 것이다. 사실 통계학적 접근에서는 다양한 추정값이 도출될 수 있겠지만 말이다.

그 계수는 아래와 같다.

여기서 개별 수식의 의미는 아래와 같으며, 대부분의 치료 등의

실험이 작은 샘플로 밖에 되지 않기 때문에 그 만큼 보정을 한

C값을 최종적인 관측치(Observation)으로 해야 한다.

이와 같은 관측치가 나오면 우리는 일반적인 차이검증, 분산분석, 일반선형모형 등의 통계분석을 실시할 수 있다.

마지막 코멘트 - 국내 Meta analysis 논문의 50%이상은 잘못된 방법을 쓰고 있었다.

최근 통계상담이 있어 메타분석을 한 논문들을 보니, 역시 제한적인 상황에서 실험결과를 논문화하려다보니 상당히 오류가 발견되었다.

가장 중요한 것이 효과크기를 결정해야 하는데 효과란 실험집단의 사전사후 값의 변화와 통제집단의 사전사후값 변화의 차이가 효과이지 사전값 혹은 사후값 간의 차이는 적절한 가설이 아님에도 이와 같은 방법을 쓴 논문이 50%이상 이였다.

그리고 이와 같이 나왔다고 하더라도 통계분석의 관측치(Observation)이 되려면 최소한 동일한 시공간에서 나온 결과이여야 하나, 100여편의 논문을 메타분석에 참고하다보면 10년전 논문도 관측치화하는 문제가 발생한다. 10년전 논문의 실험이 아무리 잘 통제관리되더라도 시간이 흐르면서 통제 및 실험집단의 가치, 이성, 태도, 행위 등이 완전히 변했을 것인데 이를 동일하게 취급하는 것은 시계열분석(time series)분석을 해야하는데 이를 무시하고 단순 pooling하여 회귀분석을 실시하는 오류와 동일하다.

Hedges와 Olkin가 제시한 동질성 검증을 통해 논문들의 동질성 여부를 파악할 수 있 수 있다고 하지만 이 검증통계량을 보면, 논문의 실험집단수에 가중치를 두고 그것이 전체 평균효과크기에 어느 정도 변동성을 유발하느냐 정도를 가지고 판단하지 질적인 부분의 고려는 전혀 되지 않아 내가 문제제기한

부분은 여전히 숙제로 남는다. 즉 연구자가 과학적 엄밀성을 유지하고자하는 자세와 성의가 중요하겠다.

Hedge와 oklin의 Q통계량

아쉽다.

논문화는 어려운 과제이지만 학회지 혹은 학위 논문은 최소한의

신뢰와 학자적 양심이 있어야 되지 않나??????


'분석기법' 카테고리의 다른 글

[펀글] 요인분석(factor analysis)  (0) 2011.12.14
[펀글] AHP(Analytic Hierarchy Process)  (0) 2011.12.14

+ Recent posts