티스토리 뷰
[논문 리뷰]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
ProWiseman 2023. 2. 7. 18:50들어가며
본 글은 논문 EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks를 리뷰한 글입니다.
내용
기존의 한계
ConvNet을 스케일 업 할 때 보통 depth, width, image resolution을 스케일링하는 데, 이에 대한 제대로 된 이해가 없다.
- 스케일 업 할 때도 위 세 요소 중 하나만 스케일링한다.
- 2, 3가지도 임의로 스케일 할 수 있으나 수동으로 튜닝해야 하며 정확도와 효율성 또한 최적이 아니다.
AlexNet이후로 지속해서 모델의 크기가 커졌으나 하드웨어 메모리의 한계로 더 높은 정확도를 위해선 더 나은 효율성이 필요하다.
최근 MobileNet, SqueezNet, ShuffleNet이나 NAS(neural architecture search)로 네트워크의 width나 depth, 커널 타입 / 사이즈를 튜닝하며 정확도와 효율성을 트레이드하며 모델 압축을 하고 있으나 더 큰 모델로 확장하는 방법이 명확하지 않다.
앞선 연구에서도 깊이, 너비, 해상도를 균형있게 스케일링하는 시도가 있었으나 해당 연구는 수동으로 튜닝해 주었다.
논문의 키 아이디어
네트워크의 width/depth/resolution의 균형을 잘 잡는 것이 중요하다. (경험적으로 관찰)
- 균형만 잘 잡히면 각 요소를 일정한 비율로 확장하여 간단히 정확도와 효율성을 끌어올릴 수 있다.
- 이러한 관찰에 근거하여 혼합 스케일링 방법(compound scaling method)을 제안한다.
- 이 방법은 관행적인 방법과는 달리 네트워크의 width, depth, resolution을 균일하게 고정된 스케일링 계수에 따라 스케일링해주면 된다.

Compound Model Scaling
문제 정의
ConvNet의

여기서
보통의 ConvNet이

Scaling Dimensions
앞서 정의한 문제의 주요 어려움은
Depth(
Width(
Resolution(
위 내용을 종합하면 너비나 깊이, 해상도를 스케일링 하는 것 모두 정확도를 개선하나 모델이 커질수록 정확도 향상은 줄어든다.

Compound Scaling
직관적으로 이미지 해상도가 커지면 네트워크의 깊이도 커져야 더 많아진 픽셀의 유사한 피처를 포착하는 데 도움이 된다. 너비도 마찬가지로 더 fine-grained 한 패턴을 포착하기 위해 이미지의 해상도가 커지면 너비도 함께 커져야 한다. 이러한 직관은 깊이와 너비, 해상도를 통합하고 균형을 맞춰야 한다고 말한다.
이 직관이 옳은지 검증하기 위해 Figure 4에 서로 다른 깊이와 해상도를 지닌 네트워크에 너비를 스케일링한 것을 비교했다. 깊이와 해상도를 변경하지 않은 네트워크의 경우 정확도가 금방 포화한다. 깊이와 해상도의 계수를 모두 2로 더 크게 만든 경우 같은 FLOPS에서 더 나은 정확도를 보였다.
위 내용을 종합하면 저 나은 정확도와 효율성을 추구하기 위해선 ConvNet 스케일링 과정에서 네트워크의 너비, 깊이, 해상도 모두의 균형을 맞추는 것이 중요하다는 것이다.

본 논문에선 혼합 계수인 φ 를 네트워크의 너비, 깊이, 해상도에 균일히 원칙적으로 사용하는 compound scaling method를 제안한다.

여기서
EfficientNet Architecture
베이스라인 네트워크에서 레이어 오퍼레이터 별로 모델 스케일링을 바꾸지 않기 때문에 좋은 베이스라인 네트워크를 갖는 것 또한 중요하다. 평가는 기존 모델에서 할 예정이지만 더 좋은 시연을 위해 본 논문에선 EfficientNet이라 불리는 새로운 모바일 사이즈의 베이스라인을 개발했다.
정확도와 FLOPS 둘 다 최적화 하는 아키텍처를 찾았고 식은

실험







'공부한 내용 정리 > 인공지능' 카테고리의 다른 글
[논문 리뷰]Latent Aspect Rating Analysis on Review Text Data:A Rating Regression Approach (0) | 2023.02.27 |
---|---|
인공지능 기초 1 (0) | 2023.02.24 |
[논문 리뷰]You Only Look Once: Unified, Real-Time Object Detection (0) | 2023.01.22 |
[논문 리뷰]EfficientNetV2: Smaller Models and Faster Training (0) | 2023.01.19 |
[논문 리뷰]Sequence to Sequence Learning with Neural Networks (0) | 2023.01.19 |