[CVPR 2024] Question Aware Vision Transformer for Multimodal Reasoning

[CVPR 2024] Multimodal Pathway: Improve Transformers with Irrelevant Data from Other ModalitiesПодробнее

Making Vision Transformers Truly Shift-Equivariant (CVPR 2024)Подробнее

[CVPR 2024] Situational Awareness Matters in 3D Vision Language ReasoningПодробнее

[CVPR 2024] TransNeXt: Robust Foveal Visual Perception for Vision TransformersПодробнее

Multimodal Token Fusion for Vision Transformers | CVPR 2022Подробнее

[CVPR'24] MoReVQA: Exploring Modular Reasoning Models for Video Question AnsweringПодробнее

Transformer for Vision | Multimodal Transformers for Video | Session 7 | CVPR 2022Подробнее

Blur-aware Spatio-temporal Sparse Transformer for Video Deblurring (CVPR 24)Подробнее

[CVPR 2024] Can Language Beat Numerical Regression? Language-Based Multimodal Trajectory PredictionПодробнее

Dense Vision Transformer Compression with Few Samples | CVPR 2024Подробнее

[CVPR'24] Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision TransformerПодробнее

[NeurIPS 2021] History-Aware Multimodal Transformer for Vision-and-Language NavigationПодробнее

Efficient Test-Time Adaptation of Vision-Language Models [CVPR 2024]Подробнее

[CVPR'24] On the Faithfulness of Vision Transformer ExplanationsПодробнее

Content-aware Token Sharing for Efficient Semantic Segmentation with Vision Transformers (CVPR 2023)Подробнее

[CVPR 2024] Depth-aware Test-Time Training for Zero-shot Video Object SegmentationПодробнее

Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach, CVPR 2024Подробнее

Актуальное