본문 바로가기

데이터 분석

데이터 정리: 3가지 대표적인 특성 선택 기술 (Feature Selection)

데이터 정리: Feature Selection

 

지난 글, '데이터 정리: 5가지 대표적인 차원 축소 기술(Dimensionality Reduction)에 이어 이번에는 특성선택 기술 (Feature Selection)에 대해  간략한 내용만 알아보자. 추후에 본 글에서 언급된 각 기술에 대해 자세히 다루도록 하겠다.

https://double-d.tistory.com/37

 

데이터 정리: 5가지 대표적인 차원 축소 기술 (Dimensionality Reduction)

데이터 분석에서 많은 양의 데이터를 처리할 때, 데이터의 차원을 축소하고 중요한 특성을 선택하는 것은 매우 중요한 작업이다. 이를 통해 모델의 복잡성을 줄이고 계산 효율성을 향상시키며,

double-d.tistory.com

 

 특성 선택도 데이터 분석에서 매우 중요한 단계이다. 이 과정은 주어진 데이터에서 가장 유용한 특성을 식별하고 선택하여 모델의 복잡성을 줄이고 예측 능력을 향상시킨다.

 

'특성(Feature)'는 무엇인가?

 우선 특성 선택에서 말하는 '특성(Feature)'이 무엇인지 알아보자. '특성(Feature)'은 데이터에서 관측된 각 변수 또는 속성을 의미한다. 이러한 특성은 예측 모델링 또는 분류 작업에서 사용될 수 있으며, 예측변수, 입력변수, 독립변수 등으로 불리기도 한다. 예를 들어, 고객 분류를 위해 고객의 나이, 성별, 소득, 거주 지역 등이 '특성'으로 사용될 수 있다. 

특성 선택은 이러한 특성 중에서 가장 유용하거나 중요한 특성을 식별하고 선택하는 프로세스이다. 이는 모델의 복잡성을 줄이고 예측 능력을 향상시키는 데 도움이 된다. 왜냐하면 대부분의 경우, 데이터 세트에는 불필요하거나 중복되는 특성이 포함되어 있기 때문이다. 이러한 불필요하거나 중복되는 특성을 제거함으로써 모델의 성능을 향상시키는 것이다.

"특성"이라는 용어를 번역할 때는 문맥에 따라 다르지만, "변수", "속성", "입력 변수" 등으로 번역될 수 있다. "변수"는 통계 및 머신러닝 분야에서 일반적으로 사용되는 용어이며, "속성"은 데이터 세트의 특정 속성을 나타내는 데 사용된다. "입력 변수"는 모델에 입력되는 데이터의 특성을 나타내는 용어이다. 따라서 문맥에 따라, 사용되는 분야에 따라 다른 형태로 번역될 수도 있다는 점을 알아 두자.

 

특성 선택의 효과

다시 특성 선택으로 돌아가 보자. 이러한 특성 선택을 통해 아래와 같은 효과를 얻을 수 있다.

1. 모델 성능 향상: 불필요한 특성을 제거함으로써 모델의 복잡성을 줄이고 예측 성능을 향상시킴
2. 해석 가능성: 모델에 사용된 특성이 중요한 역할을 하는지를 확인함으로써 결과를 더 잘 이해할 수 있음
3. 계산 효율성: 선택된 특성만 사용하여 모델을 학습하면 계산 비용을 줄일 수 있음
4. 과적합 방지: 불필요한 특성을 제거하면 모델이 훈련 데이터에 과도하게 적합되는 것을 방지 가능

특성 선택은 여러 기술 방법을 사용하여 수행할 수 있습니다. 이러한 방법에는 필터 방법, 래퍼 방법, 임베디드 방법이 포함된다. 각 방법은 다른 접근 방식을 취하며 모델의 요구 사항과 데이터의 특성에 맞게 선택해줘야 한다.

 

특성 선택의 방법들

특성 선택의 대표적인 방법들을 간략히 정리하면 아래와 같다. 표에 있는 주요 분야 및 실사용 예시의 경우, 이런 분야로도 사용될 수 있다는 것을 보여주는 예시일 뿐이지, 해당 분야에 특화되어 있다는 의미는 아니다.

방법 설명  주요 분야 실사용 예시
필터 방법
(Filter Methods)
특성의 통계적 속성에 기반하여 특성의 관련성을 평가함 생물 정보학, 금융 분석, 이미지 처리 유방암 진단, 신용 스코어링, 자연어 처리
래퍼 방법
(Wrapper Methods)
모델의 성능을 고려하여 특성을 선택함 자연어 처리, 의료 이미지 분석 주식 가격 예측, 카드 부정 거래 탐지
임베디드 방법
(Embedded Methods)
모델 학습 중에 특성 선택과 모델 학습을 동시에 수행함 이미지 처리, 텍스트 마이닝 이미지 분류, 자연어 이해

 

필터 방법 (Filter Methods)

필터 방법은 특성 간의 상관관계를 고려하여 특성을 선택하는 기술이다. 이 방법을 수행하기 위해서 Pearson 상관 계수를 통해 각 특성 간에 상관계수를 참고하기도 하고, 카이제곱 검정과 같은 통계적 방법을 통해 변수 간에 영향도가 적은 것을 검정해서 탈락시킬 특성을 고르기도 한다.

사용될 수 있는 분야 및 예시는 아래와 같다. 

  • 생물 정보학: 유방암 데이터세트에서 특정 특성을 선택하여 신규 환자의 종양 조직 검사 결과에 대해 종양의 악성 여부 예측
  • 금융 분석: 대출 승인에 영향을 미치는 주요 특성을 식별해서 신용 위험을 평가하고 대출 승인의 리스크를 낮춤
  • 자연어 처리: 문서 분류에서 주요한 단어나 구절을 선택하여 문서의 주제를 효과적으로 식별함

 

래퍼 방법 (Wrapper Methods)

 

래퍼 방법은 모델의 성능을 기반으로 특성을 선택하는 기술이다. 재귀적 특성 제거(Recursive Feature Elimination)나 전진/후진 특성 선택(Forward/Backward Feature Selection)과 같은 방법이 있다. 

이러한 래퍼 방법은 필터 방법보다 더 정확한 특성 선택을 제공할 수 있다. 왜냐하면, 래퍼 방법은 모델의 성능을 고려하여 특성을 평가하므로 특성 간의 상호작용이 고려되기 때문이다.

사용될 수 있는 분야 및 예시는 아래와 같다.  

  • 자연어 처리: 텍스트 분류  또는 정보 검색과 같은 작업에서 유용한 특성을 선택하여 모델의 효율성을 올려줌
  • 카드 부정 거래 탐지: 고객의 거래 패턴을 분석하여 부정 거래를 식별하는 데 중요한 특성을 선택함

 

임베디드 방법 (Embedded Methods)

임베디드 방법은 말 그대로 모델 자체에 포함된 특성 선택 기능이다. LASSO나 Ridge 회귀와 같은 알고리즘을 사용하면 특성 선택 기능이 포함된 상태로 모델링이 되며, 이게 임베디드 방법이 된다. 이런 알고리즘을 써서 임베디드 방법이 수행되면 당연히, 모델의 복잡도가 줄어들고, 성능을 향상하는데 도움이 된다. 

사용될 수 있는 분야 및 예시는 아래와 같다.  

  • 이미지 처리: 합성곱 신경망(CNN)을 사용하여 이미지 데이터에서 중요한 특성을 추출
  • 텍스트 마이닝: 환 신경망(RNN)을 사용하여 문장에서 중요한 단어를 추출

 

정리

본 글에서는 데이터 정리를 위한 기술 중 하나인, '특성 선택(Feature Selection)'이 대표적인 방법 3가지에 대해서 알아봤다. 적절한 특성 선택은 모델의 복잡성을 줄이고 예측 성능을 향상하는 데 도움이 된다. 다만, 적절한 방법이 없이 선택을 하면, 선택되지 않은 특성 중에 중요한 특성이 있었거나 하는 등의 이유로 오히려 모델의 성능이 저하되기도 한다. 글의 서두에서도 언급했지만, 추후에 작성하게 될 각 개별 기술 및 알고리즘들에 대해서 다룰 때, 어떤 점들을 조심해야 하는지 알아보도록 하자.