2024년 2월 21일 수요일

결측값의 유형 및 처리하는 법

 결측값이 결과에 영향을 주는 경우 비무작위 결측, 영향을 주지 않는 경우 무작위 결측이라고 한다.

1. 완전 무작위 결측

다른 변수와 무관하게 랜덤으로 발생한 결측

예) 설문조사 시 특정 항목에 대답하지 않은 경우

2. 무작위 결측

다른 변수와 연관이 있지만, 그 자체가 결과에 영향을 미치지 않는 결측

예) 성별에 따라 응답 확률이 달라서 생기는 결측

3. 비무작위 결측

결과에 영향을 미치는 결측 값

예) 임금을 조사할 때, 임금이 낮은 사람이 임금에 대해 응답할 확률이 낮아서 생기는 결측


결측값 처리하는 방법

1. 결측값을 삭제

2. 목록 삭제

3. 특정 값으로 대체

4. 단순 확률 대치법


결측값이란 무엇일까요?

결측값이란 데이터 세트에서 값이 없는 셀 또는 레코드를 의미합니다. 설문 조사에서 응답자가 질문에 답변하지 않거나, 데이터베이스에서 특정 정보가 누락된 경우 등 다양한 이유로 발생할 수 있습니다.

결측값의 종류

결측값은 발생 원인에 따라 다음과 같이 분류될 수 있습니다.

  • MCAR (Missing Completely At Random): 완전히 무작위 결측
    • 데이터 수집 과정의 오류, 전산 시스템 문제 등으로 인해 발생
    • 다른 변수와 관련 없이 무작위로 발생
  • MAR (Missing At Random): 무작위 결측
    • 특정 변수와는 관련 없이 무작위로 발생
    • 다른 변수에 의해 영향을 받지 않지만, 관찰되지 않은 변수에 의해 영향을 받을 수 있음
  • MNAR (Missing Not At Random): 무작위가 아닌 결측
    • 특정 변수와 관련하여 발생
    • 관찰되지 않은 변수에 의해 영향을 받음

결측값의 문제점

결측값은 데이터 분석 결과에 심각한 영향을 미칠 수 있습니다.

  • 분석 결과의 정확도를 떨어뜨릴 수 있습니다.
  • 표본의 대표성을 훼손할 수 있습니다.
  • 모델의 편향을 유발할 수 있습니다.

결측값 처리 방법

결측값을 처리하는 방법은 여러 가지가 있습니다.

  • 제거: 결측값이 있는 데이터를 전체 분석에서 제거
    • 가장 간단한 방법이지만, 데이터 손실이 발생할 수 있음
  • 평균값 또는 중앙값으로 대체: 결측값을 다른 데이터의 평균값 또는 중앙값으로 대체
    • 간단하지만, 데이터 분포를 왜곡할 수 있음
  • 회귀분석을 이용한 예측: 다른 변수를 이용하여 결측값을 예측
    • 비교적 정확하지만, 모델링 과정이 복잡할 수 있음
  • 핫덱(Hot Deck) 임퓨팅: 유사한 데이터를 기반으로 결측값을 채우는 방법
    • 비교적 정확하고 간단하지만, 적절한 유사 데이터를 찾는 것이 어려울 수 있음

결측값 처리 시 고려 사항

결측값을 처리하기 전에 다음과 같은 사항을 고려해야 합니다.

  • 결측값의 발생 원인: MCAR, MAR, MNAR 중 어떤 유형인지 확인
  • 결측값의 양: 데이터 전체 대비 결측값의 비율 확인
  • 결측값의 영향: 결측값이 분석 결과에 미치는 영향 평가

결측값 처리 방법은 데이터의 특성과 분석 목적에 따라 달라질 수 있습니다. 따라서 적절한 방법을 선택하는 것이 중요합니다.


댓글 없음:

댓글 쓰기