Partial Fine-Tuning: A Successor to Full Fine-Tuning for Vision   Transformers

Peng Ye; Yongqi Huang; Chongjun Tu; Minglei Li; Tao Chen; Tong He,; Wanli Ouyang

arXiv:2312.15681·cs.CV·December 27, 2023·1 cites

Partial Fine-Tuning: A Successor to Full Fine-Tuning for Vision Transformers

Peng Ye, Yongqi Huang, Chongjun Tu, Minglei Li, Tao Chen, Tong He,, Wanli Ouyang

PDF

Open Access

TL;DR

This paper introduces Partial Fine-Tuning for vision transformers, which improves efficiency and accuracy by selectively tuning parts of the model, guided by a new metric, and enhances model generalization.

Contribution

It proposes a novel partial fine-tuning approach with a layer selection metric, demonstrating its effectiveness across datasets and models, outperforming full fine-tuning in efficiency and accuracy.

Findings

01

Partial fine-tuning can outperform full fine-tuning in accuracy.

02

Selective tuning of layers is crucial for optimal performance.

03

Partial fine-tuning enhances model generalization and efficiency.

Abstract

Fine-tuning pre-trained foundation models has gained significant popularity in various research fields. Existing methods for fine-tuning can be roughly divided into two categories, namely Parameter-Efficient Fine-Tuning and High-Performance Fine-Tuning. The former aims at improving efficiency, while the latter focuses on enhancing performance. Beyond these methods, we demonstrate that Partial Fine-Tuning can be an innovative and promising direction capable of concurrently enhancing both efficiency and accuracy. We first validate eight manually-defined partial fine-tuning strategies across kinds of datasets and vision transformer architectures, and find that some partial fine-tuning strategies (e.g., ffn only or attention only) can achieve better performance with fewer tuned parameters than full fine-tuning, and selecting appropriate layers is critical to partial fine-tuning. Thus, we…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsAdvanced Neural Network Applications · Image Enhancement Techniques · Solar Radiation and Photovoltaics

MethodsModel Soups · Multi-Head Attention · Attention Is All You Need · Layer Normalization · Residual Connection · Softmax · Linear Layer · Dense Connections · Vision Transformer