코딩두의 포트폴리오

특성 공학과 규제 본문

AI/머신러닝 + 딥러닝

특성 공학과 규제

코딩두 2024. 7. 9. 00:33

 

 

다중 회귀

여러 개의 독립 변수(설명 변수 또는 예측 변수)를 사용하여 종속 변수(타깃 또는 결과 변수)를 예측하는 방법

다항 회귀는 하나의 독립 변수 또는 여러 독립 변수를 사용 (차이점)

훈련 셋, 테스트 셋 점수 -> 모델 평가, 개선

 

 

판다스

데이터 구조와 데이터 조작 도구를 제공하여 데이터 분석 작업 수행

데이터 프레임은 다차원 배열

판다스의 핵심 데이터 객체는 데이터 프레

 

 

훈련 셋, 데이터 셋으로 넘파이 배열을 나눴다고 가정

객체 생성

degree 매개 변수는 제곱항을 만들어줌 / PolynomialFeatures - 실제로 학습하지는 x

 

 

선형 회귀

종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법

길이, 높이, 두께 3개의 특성 -> 9개 특성으로 증가 / 훈련 셋에서 사용한 데이터는 테스트 셋에 무조건 사용함

 

 

특성 만들기

특성의 개수 9 -> 55개로 증가

규제 - 과대적합을 방지하는 용도로 머신러닝 모델이 훈련 세트를 너무 과도하게 학습하지 못 하도록 훼방

정규화라고 표현하기도 함 (여기서는 혼돈으로 인해 규제로)

 

 

표준화

스케일 차이 제거, 수렴 속도 향상을 위해 규제 전에 표준화를 함

객체 생성 -> fit 메소드로 평균, 표준편차 학습 -> transform 매소드로 훈련 셋, 테스트 셋 표준화

 

 

릿지 회귀

L2 규제가 추가된 선형 회귀

L2 규제 = 회귀 분석에서 모델의 복잡도를 제어하고 과적합을 방지하기 위해 사용되는 기법

테스트 셋에서 좀 더 높은 점수가 나오는 규제 모델 생성

랏지 클래스가 규제하는 방법 / 가중치의 제곱을 벌칙으로 사용\

릿지 클래스 규제 강도의 매개변수 alpha의 기본값 = 1 (하이퍼 파라미터)

매개변수 크게 하면 강도가 세짐 / 작게 하면 강도가 약해짐

 

 

규제 강도(α) 찾기

다양한 α값에 대해 릿지 회귀 모델을 훈련시키고, 훈련 데이터와 테스트 데이터에 대한 R² 스코어를 비교하여 최적의 α값을 찾는 것

 

 

과정

  1. 다양한 α\alpha 값을 리스트로 정의
  2. α\alpha 값에 대해 릿지 회귀 모델을 생성하고, 훈련 및 평가
  3. 훈련 데이터와 테스트 데이터에 대한 R² 스코어를 리스트에 저장
  4. 결과를 시각화하여 최적의 α값을 선택
  5. 최적의 α값으로 모델을 최종 훈련시키고, 성능을 평가

 

 

라쏘 회귀 (L1 규제)

선형 회귀의 한 종류로, 모델의 과적합을 방지하고, 중요한 변수만을 선택하기 위해 사용되는 규제 기법

 

가중치의 절대값을 벌점으로 줌

-> 일반적으로 라쏘(L1) 규제보다는 릿지(L2) 규제를 선호

'AI > 머신러닝 + 딥러닝' 카테고리의 다른 글

확률적 경사 하강법  (0) 2024.07.22
로지스틱 회귀  (0) 2024.07.17
선형 회귀  (0) 2024.07.08
최근접 이웃 회귀  (0) 2024.07.08
데이터 전처리  (0) 2024.07.08