헷개정 - 헷갈리는 개념 정리

CNN은 시각 데이터 처리에만 사용이 가능한 네트워크일까?

cch8ii 2025. 9. 26. 14:47

CNN은 시각 이미지 처리에만 사용할 수 있을까?

 

CNN은 CV task에 많이 쓰이고 CV task에서 높은 성능을 달성했다. 이미지와 CNN의 공간 구조 보존, local 특징 학습의 능력이 잘 맞기 때문이었다.

 

하지만 시각 이미지를 제외하고 CNN이 사용될 수 있다.

CNN은 시계열 데이터나 순차 데이터 처리에도 종종 사용될 때가 있다.

 

① 자연어 처리

출처: https://wikidocs.net/80437

 

가장 먼저 자연어 처리이다. 문장을 단어 임베딩 벡터 시퀀스로 보고 CNN을 적용하면 n-gram 패턴 추출기처럼 동작한다. 위 사진을 보면 커널의 크기가 달라질 때마다 자연어 처리 관점에서 바라보면 참고하는 단어의 묶음이 달라진다고 생각할 수 있다.

이러한 특징 때문에 문장 분류(Sentiment Analysis), 관계 추출(Relation Extraction) 등에서 RNN/Transformer 이전에 널리 활용되었다고 한다.

 

② 음성 인식/음향 처리

(왼) 출처: https://ki-it.com/_PR/view/?aidx=17301&bidx=1667 (오) 출처: https://www.jask.or.kr/articles/xml/XQ8x/

오디오 분야의 경우 음성을 스펙토그램 이미지로 변환 후 CNN을 적용하여 음성 인식이나 화자 분류 등의 task에 활용한다.

 

③ 시계열 데이터

출처: https://ok-lab.tistory.com/201

마지막으로 시계열 데이터에서는 1D convolution을 사용해 연속적인 신호의 특징을 추출할 수 있기 때문에 종종 사용된다.

 

이처럼 CNN은 시각적 이미지 처리에만 사용되지 않는다. 핵심적인 특징인 local pattern을 잘 포착한다는 것은 다른 task에서도 활용될 수 있기 때문이다.

이미지에서 “인접 픽셀 간 상관관계”를 보듯,

  • 텍스트에서는 “인접 단어 간 의미”,
  • 음성에서는 “연속된 프레임의 주파수 패턴”,
  • 시계열에서는 “근접 시간대 값들의 변화 패턴”

하지만 NLP에서는 Transformer가 너무 성능이 좋고, 시계열이나 음성 처리에서도 다른 모델들 중 성능이 더 강력한 게 많기 때문에 다른 모델을 쓰는 경우가 더 많은 것 같다.