빅데이터 (9) 썸네일형 리스트형 Feature Selection SelectKbest from scikit-learn library 차원의 저주(Curse of Dimensionality) As the dimensionality of the features space increase, the number Configurations can grow expotentially, and thus the number of configurations covered by an observation decreases. 범주형 변수의 인코딩 (Categorical Encoding) 머신(컴퓨터)들은 텍스트를 인식할 수 없다. 따라서 범주형 변수들을 처리하고 싶을 때 우리는 Categorical Encoding을 해주어야한다. 카테고리컬 인코딩이란? Categorical encoding is a process of converting categories to numbers. 카테고리컬 인코딩은 범주형 변수를 숫자로 바꿔주는 것이다. 카테고리컬 인코딩의 종류 카테고리컬 인코딩에는 크게 2가지가 있다. Label Encoding (레이블 인코딩) One-Hot Encoding (원-핫 인코딩) Label Encoding (레이블 인코딩) 레이블 인코딩을 코드를 통해 알아보자 #라이브러리 import import pandas as pd import numpy as np #급여.csv 불러.. 데이터 전처리 변수의 처리 수치형 데이터 : 숫자형 데이터 타입으로 바꿔준다. 범주형 데이터 : one-hot encoding을 통해 수치형 데이터로 바꿔준다. 순서형 데이터 : label encoding을 통해 순서가 있는 숫자로 바꿔준다. 날짜 데이터 : 날짜를 쪼개서 연,월,일로 바꿔준다. 범주형 변수의 인코딩 (Categorical Encoding) 범주형 변수의 인코딩 (Categorical Encoding) 머신(컴퓨터)들은 텍스트를 인식할 수 없다. 따라서 범주형 변수들을 처리하고 싶을 때 우리는 Categorical Encoding을 해주어야한다. 카테고리컬 인코딩이란? Categorical encoding is a process of converting c.. majored-computerscience.. 빅분기 D-11 실기 공부 스타트! 일단 유데미 강의 들으면서 기초 정리 빨리해야하자. 파이썬 문법 간단하게 훑고 가기(list) 파이썬에서 list는 array와 거의 같지만 활용에 있어서 더 자유롭다. 타입을 지정해주지 않아도 되기 때문에 a = [1, 'two', 3, 4, 5] 이런식으로도 가능하다. #index로 지우기 del a[2] 이런식으로 지우기도 가능하다. 결과는 a = [1, 'two', 4, 5] #특정값 지우기 특정값을 지우고자 한다면 a.remove('two') 위와 같이 하면 된다. #삽입하기 특정값을 삽입하고자 한다면 a.append('ten') 위와 같이 하면 된다. 파이썬 문법 간단하게 훑고 가기(if / indent / in / input / and or not) #If(조건문) if 1 == 2 : print('hello') elif 1 < 2 : print('hi') else : print('oh') if / elif(else if) / else #indent 파이썬에서 들어쓰기 할 때는 같은 방식으로 해줘야함 if 1 == 2 : print('hello') print('hi') 이런 식으로 2번째 줄에서는 Tab을 그 아래 줄에는 Space를 하면 오류가 난다. #in if 'hello' in 'hello world' : print('hello') 'hello world' 라는 string에 'hello'가 들어 있냐는 뜻 #input name = input('What is your name?') print(name) input을 통해서 입력 받을 수 있다... 파이썬 문법 간단하게 훑고 가기(포맷팅) formatting print('I love my {}. She is {}.'.format('son',12)) 위와 같이 문자열에서 빈칸을 뚫듯이 {} 괄호를 해주고 마지막에 .format()으로 괄호에 들어갈 것들을 넣어 준다. print('I love my {name}. She is {age:d}.'.format(name = 'James',age = 30)) 이를 활용하여 괄호안에 '변수'를 지정해주면 중복해서 빈칸을 채울 필요 없이 한번에 표현 가능! 또한 가독성도 증가! age옆에 d는 decimal의 약자이고 decimal은 10진수를 뜻한다. 따라서 age라는 변수의 자리에는 10진수의 숫자만 오도록 하는 방법이다. 이전 1 2 다음