본문 바로가기
인공지능 (AI)

지도학습 비지도학습 반지도학습 자가지도학습 이란 쉬운 설명

by 뉴디라 2023. 4. 27.

1. 지도학습, 비지도학습, 반지도학습, 자가지도학습이란?

지도학습, 비지도학습, 반지도학습, 자가지도학습은 모두 머신러닝의 기본적인 방법론입니다. 이들 방법론을 잘 이해하고 활용하면 머신러닝 모델의 정확도와 성능을 향상시킬 수 있습니다.

  • 지도학습(Supervised Learning): 입력 데이터와 출력(정답) 데이터 쌍을 학습하여, 새로운 입력 데이터에 대한 출력을 예측하는 방법. 즉, 정답이 있는 데이터셋을 이용하여 학습한다.

  • 비지도학습(Unsupervised Learning): 출력값이 없는 입력 데이터만으로 학습을 진행하여, 입력 데이터의 패턴을 찾는 방법. 정답이 없는 데이터셋을 이용하여 학습한다.

  • 반지도학습(Semi-Supervised Learning): 입력 데이터의 일부에만 정답 정보가 있을 경우, 이를 이용하여 모델을 학습하는 방법. 즉, 일부만 정답이 있는 데이터셋과, 나머지 정답이 없는 데이터셋을 이용하여 학습한다.

  • 자가지도학습(Self-Supervised Learning): 입력 데이터로부터 풀고자 하는 문제의 레이블이 아닌 자체적인 정답레이블을 생성하여 학습하는 방법. 즉, 입력 데이터의 패턴을 찾아내는 것이 목적이다. 

 

 

 

 

2. 지도학습, 비지도학습, 반지도학습, 자가지도학습 예시

  • 지도학습 예시: 이미지 분류 (고양이와 개 구분)
    • 데이터셋: 각 이미지에 고양이 또는 개의 레이블이 있는 이미지 데이터셋
    • 목표: 새로운 이미지가 주어졌을 때, 이미지에 있는 동물이 고양이인지 개인지 예측
    • 방법: 지도학습 알고리즘(예: CNN)을 사용하여 이미지와 레이블 간의 관계를 학습
  • 비지도학습 예시: 고객 세분화 (클러스터링)
    • 데이터셋: 고객의 구매 이력, 선호도 등의 특성을 포함하는 데이터셋 (레이블 없음)
    • 목표: 고객을 유사한 특성을 가진 그룹으로 분류
    • 방법: 비지도학습 알고리즘(예: K-means 클러스터링)을 사용하여 데이터의 패턴을 찾아내고 그룹을 형성
  • 반지도학습 예시: 텍스트 분류 (일부 레이블이 있는 뉴스 기사 분류)
    • 데이터셋: 뉴스 기사와 일부 기사에만 주제 레이블이 있는 데이터셋
    • 목표: 새로운 뉴스 기사가 주어졌을 때, 해당 기사의 주제를 예측
    • 방법: 반지도학습 알고리즘(예: Label Spreading)을 사용하여 레이블이 있는 데이터와 레이블이 없는 데이터를 함께 사용하여 학습
  • 자가지도학습 예시: 오토인코더 (데이터 압축 및 복원)
    • 데이터셋: 이미지 데이터셋 (레이블 없음)
    • 목표: 이미지 데이터를 압축한 후 복원하여 원본 이미지와 유사한 이미지를 생성
    • 방법: 자가지도학습 알고리즘(예: 오토인코더)을 사용하여 입력 이미지를 압축하는 인코더와 압축된 데이터를 복원하는 디코더를 학습. 이 과정에서 생성된 복원 이미지(자체 레이블로 사용됨)와 원본 이미지 간의 차이를 최소화하는 방향으로 학습 진행

 

 

 

 

3. 지도학습, 비지도학습, 반지도학습, 자가지도학습 장단점

  • 지도학습
    • 장점: 정확한 예측 가능, 다양한 문제에 적용 가능
    • 단점: 정답이 없는 데이터셋에 대해서는 적용 불가, 레이블링 비용이 많이 듦
  • 비지도학습
    • 장점: 정답이 없는 데이터셋에도 적용 가능, 데이터셋의 구조 파악 가능
    • 단점: 예측 결과의 신뢰도가 떨어질 수 있음, 모델 평가가 어려움
  • 반지도학습
    • 장점: 정답이 일부만 있는 데이터셋도 적용 가능, 레이블링 비용 절감 가능
    • 단점: 정답이 없는 데이터셋에 대해서는 적용 불가, 정확도 저하 가능성 존재
  • 자가지도학습
    • 장점: 레이블링 비용 절감 가능, 데이터셋의 구조 파악 가능
    • 단점: 정확도 저하 가능성 존재, 레이블 생성 방법에 따라 성능 차이가 크게 발생할 수 있음

 

댓글