Encoder – Page 14 – GrooveSquid.com

July 13, 2025

Towards Robust Speech Representation Learning for Thousands of Languagesby William Chen, Wangyou Zhang, Yifan Peng,…

July 13, 2025

Fine-tuning of Geospatial Foundation Models for Aboveground Biomass Estimationby Michal Muszynski, Levente Klein, Ademir Ferreira…

July 13, 2025

MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Databy William Berman, Alexander PeysakhovichFirst submitted to arxiv…

July 13, 2025

VideoQA-SC: Adaptive Semantic Communication for Video Question Answeringby Jiangyuan Guo, Wei Chen, Yuxuan Sun, Jialong…

July 13, 2025

Task-Agnostic Federated Learningby Zhengtao Yao, Hong Nguyen, Ajitesh Srivastava, Jose Luis AmbiteFirst submitted to arxiv…

July 13, 2025

InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detectionby Junjie Chen, Hang Yu, Subin…

July 13, 2025

RadEx: A Framework for Structured Information Extraction from Radiology Reports based on Large Language Modelsby…

July 13, 2025

RouteFinder: Towards Foundation Models for Vehicle Routing Problemsby Federico Berto, Chuanbo Hua, Nayeli Gast Zepeda,…

July 13, 2025

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronizationby Young Jin Ahn, Jungwoo…

July 13, 2025

DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Featuresby…