본문 바로가기

빅데이터/전처리

데이터 전처리

변수의 처리

수치형 데이터 : 숫자형 데이터 타입으로 바꿔준다. 

범주형 데이터 : one-hot encoding을 통해 수치형 데이터로 바꿔준다.

순서형 데이터 : label encoding을 통해 순서가 있는 숫자로 바꿔준다.

날짜 데이터 : 날짜를 쪼개서 연,월,일로 바꿔준다.

 

 

 

범주형 변수의 인코딩 (Categorical Encoding)

 

범주형 변수의 인코딩 (Categorical Encoding)

머신(컴퓨터)들은 텍스트를 인식할 수 없다. 따라서 범주형 변수들을 처리하고 싶을 때 우리는 Categorical Encoding을 해주어야한다. 카테고리컬 인코딩이란? Categorical encoding is a process of converting c..

majored-computerscience.tistory.com

 

1. 수치형 데이터

위 표를 보면 age, salary, experience가 수치형 데이터이다.

age와 salary는 딱히 손댈것이 없지만 experience는 수정이 필요하다.

숫자 뒤의 "yr"을 제거해주고 숫자형 데이터타입으로 바꿔주어야한다.

 

 

2. 범주형 데이터

위의 city 컬럼을 도시별로 나눠서 4개의 컬럼을 만들어준다.

이렇게 해서 수치형으로 바꿔줄 수 있는 것이다.

해당하는 컬럼에는 1을 표시하고, 나머지에는 0을 표시한다.

이렇게 바꿔주면 4개의 새로운 컬럼이 생기는데, 사실 우리는 하나의 컬럼이 없어도 4개의 범주를 인식할 수 있다.

이진법을 생각해보면 쉽다. 따라서 콜카타 컬럼은 삭제해 줘도 무관하다.

 

3. 순서형 데이터

아래와 같이 좋음 -> 나쁨으로 숫자를 바꿔준다.

 

4. 날짜형 데이터

날짜 형식은 컴퓨터가 이해할 수 없다.

따라서 연/월/일로 나눠준다.

 

전처리 과정에서 생길 수 있는 여러 변수들

- 관련 없는 컬럼들

관련 없는 컬럼들은 삭제해주는 것이 맞다.

 

- 범주형 변수의 변수가 너무 많을 때

줄여주는 것이 좋다. 예를 들어 100개의 '도시'가 있다고 치면, 10개의 '주'로 줄여서 사용한다.

 

- 이상치(너무 크거나, 작은 값들, 오류일 확률이 높다.)

이상 탐지(Anomaly Detection)

 

- 결측치(존재하지 않는 값, 결과를 왜곡 시킬 수 있다)

결측치

'빅데이터 > 전처리' 카테고리의 다른 글

Feature Selection  (0) 2021.06.16
차원의 저주(Curse of Dimensionality)  (0) 2021.06.16
범주형 변수의 인코딩 (Categorical Encoding)  (0) 2021.06.13