2024년 2월 21일 수요일

차원의 저주 등 여러 가지 간단한 개념

차원의 저주

데이터의 차원이 많아질수록 모형의 성능은 하락하게 되는 현상을 말한다.


다중공선성

독립변수들 간의 상관관계가 있을 경우를 의미한다.


위와 같은 이유들로 인해 차원축소가 필요하다.

차원축소 방법은 변수선택과 변수추출로 나뉜다.


PCA(주성분 분석)

PCA는 여러 변수들 간의 존재하는 상관관계를 이용해서 선형 연관성이 없는 저차원 공간으로 축소하는 방법을 말한다.


선형판별분석(LDA)

LDA는 지도학습으로 데이터의 분포를 학습하여 결정경계를 만들어 데이터를 분류한다.

LDA는 클래스의 정보를 보호하면서 차원을 최소로 줄이는 방법이다.


t-SNE

T-분포를 이용하여 확률적 차원축소하는 방법이다.


SVD

행렬분해로 차원축소를 하는 방법 중 하나이다.


비음수 행렬 분해(NNMF)

행렬의 원소들이 음수가 되지 않게 하면서 행렬분해를 하는 방법이다.


파생변수

기존 변수들을 조합하여 새롭게 만들어진 변수를 파생변수라고 말한다.

파생변수 생성 방법

1. 하나의 변수에서 정보를 추출해 새로운 변수를 생성

예) 주민등록번호에서 나이와 성별을 추출

2. 한 레코드의 값을 결합하여 파생변수를 생성한다.

3. 조건문을 이용해 파생변수를 생성한다.

단위변환, 표현형식 변환, 요약 통계량 변환, 정보추출, 변수결합, 조건문 이용해서 파생변수 생성 가능하다.

댓글 없음:

댓글 쓰기