[실제 경험에 기초한] 주장을 뒷받침하기 위한 데이타 가공: Data Massage

in #kr-science6 years ago (edited)


[글 내용과 큰 관련은 없지만 Missing이라는 작은 관련이 있음]

배경

매일 매일, 오전에 관측하는 센서 A, 그리고 오후에 관측하는 센서 B가 관측값을 제공한다. 편의상 다양한 관측값을 10개의 그룹으로 나눠 A1에서 A10까지, 그리고 B1에서 B10까지 각각 분류하였다.

관측에서 하나의 문제는, 관측값 자체의 정확도는 차치하더라도, 관측 불가 값 Missing Value가 존재한다는 것이다. 위 A나 B 센서의 경우 대략 8~10%의 Missing이 존재한다.

당면한 연구에서는 B1, B2, 그리고 B3에만 관심이 있다. 하지만 8-10% 정도의 Missing은 너무 많아서, 몇 시간 전의 관측값인 A의 같은 장소 관측을 가져다가 B의 Missing을 땜빵 때우기로 했다.

그럼 여기서 문제는, 과연 A 값을 가져다가 B의 Missing을 채워 넣는 행위가 정당성을 가질 수 있냐는 것이다.
(Missing의 발생은 관측값과는 독립적인 사건으로 가정한다)

정당성의 확인

정당성은 A 자료와 B 자료의 일관성 Consistence를 가정한다. 과연 같은 날, 같은 장소에서 B1일 때 몇 시간 전에 A도 그룹 1이었을까?

오전에서 오후로의 전이 Transition을 살펴보자면 10x10 크기인 표 Matrix를 살펴보면 된다. 하지만 관심은 오후 값인 B의 그룹 1, 2, 그리고 3에만 있으므로, 이들을 중심으로 살펴본다.

아래는 B1일 때 A 값들의 분포, B2일 때 A의 분포, 그리고 B3일 때 A의 분포를 하나하나 센 Count 원본 자료이다.

StatesA1A2A3A_otherMissingTotal
B110269831950963309763959232003382149316
B2897162167979651930915773153279195001501
B319898011142710841339090372717862575363
B1, B2, or B321231251986319193441828822758000439726180



이 상태로는 B1이 발생했을 때, A도 1인 경우가 얼마나 되는지 쉽게 알기 어려우므로 표를 퍼센트로 변환한다. Normalizing

StatesA1A2A3A_otherMissingTotal
B1
47.78%
9.08%15.40%18.42%9.32%100.00%
B217.94%
33.59%
10.38%31.54%6.56%100.00%
B37.73%4.33%
42.10%
35.30%10.55%100.00%
B1, B2, or B321.83%20.42%19.89%29.63%8.23%100.00%


주장과 논거

B1일 때, A1였던 경우 47.8%
B2일 때, A2였던 경우 33.6%
B3일 때, A3였던 경우 42.1%
그러므로 A를 당겨써도 괜찮다? 반도 안되는데?

개개의 경우는 확률이 낮은데, 다행인건 목표로 하는 그룹은 B1, B2, or B3라는 점이다. (편의상 B123라고 부르자) B123가 A123 그룹 어느 것으로부터 와도 상관 없다고 기준을 완화한다. 이 경우에는 아랫줄 세 경우를 더하여 62.1%라는 숫자에 도달한다.

아니면 이렇게 말할 수도 있다. B123가 발생했는데, A123가 아닌 경우는 겨우 29.6%라고. 이렇게 말할 때 가정은 이렇다. "이 문제의 원래 목적은 B 상태의 Missing을 채우는 것이기 때문에, Missing을 Missing으로 대체한다는 것은 좋지도 나쁘지도 않은 중립적인 현상이다. 나쁜 것은 B123여야 할 Missing이 A에서 123이 아닌 다른 그룹으로 채워지는 것이다."

주장과 논거2

Missing을 처리할 때, 이렇게 가정할 수도 있다. "Missing은 랜덤하게 발생하므로 Missing 자리의 그룹 분포는 관측된 그룹 분포와 같을 것이다."

이 경우, 위 표에서 그냥 Missing 줄을 빼고 퍼센트를 계산하면 된다.

StatesA1A2A3A_otherTotal
B1
52.69%
10.01%16.98%20.31%100.00%
B219.20%
35.94%
11.11%33.75%100.00%
B38.64%4.84%
47.06%
39.46%100.00%
B1, B2, or B323.79%22.25%21.67%32.29%100.00%



B1일 때, A1였던 경우 52.7%
B2일 때, A2였던 경우 35.9%
B3일 때, A3였던 경우 47.1%
그리고 B123일 때는 67.8%

당연하게도! 모든 확률이 증가했다. 그래서 B123일 때 A 역시 123였을 확률이 70%에 육박한다고, 그래서 써도 괜찮다고 주장한다.

그리고 이 경우, B123일 때, A가 123가 아닐 확률역시 증가하는데, 그 증가된 32.3%는 굳이 언급하지 않는다...


PS. 표의 쉬운 생성은 이 글을 참조
PS2. 그래도 빨간 색깔 강조는 일일이 수작업으로 해야함 ㅠㅠ

Sort:  

봐도 잘 모르겠어요 ㅠㅠ뭘 관측해요? 죄송

아이쿠, 어렵게 쓴 제 잘못이죠~ 숫자에 약한 분들에게는 많이 어려울 것 같습니다 :)
사실 뭘 관측하는 지는 일부러 안썼어요.제가 안썼으니 모르시는게 당연 논점을 자료 가공에 맞추느라고요

Congratulations @dj-on-steem! You have completed the following achievement on the Steem blockchain and have been rewarded with new badge(s) :

Award for the number of comments

Click on the badge to view your Board of Honor.
If you no longer want to receive notifications, reply to this comment with the word STOP

Support SteemitBoard's project! Vote for its witness and get one more award!

zorba님이 dj-on-steem님을 멘션하셨습니당. 아래 링크를 누르시면 연결되용~ ^^
zorba님의 [2018/9/13] 가장 빠른 해외 소식! 해외 스티미언 소모임 회원들의 글을 소개해드립니다.

...enerva 뉴욕 dj-on-steem/td> DC 근교 hello-sunshine DC

zorba님이 dj-on-steem님을 멘션하셨습니당. 아래 링크를 누르시면 연결되용~ ^^
zorba님의 [2018/9/14] 가장 빠른 해외 소식! 해외 스티미언 소모임 회원들의 글을 소개해드립니다.

...enerva 뉴욕 dj-on-steem/td> DC 근교 hello-sunshine DC

Coin Marketplace

STEEM 0.26
TRX 0.11
JST 0.033
BTC 65012.58
ETH 3101.28
USDT 1.00
SBD 3.86