Alignment – Page 35 – GrooveSquid.com

July 13, 2025

Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judgesby Aman Singh Thakur, Kartik Choudhary, Venkat…

July 13, 2025

Beyond Under-Alignment: Atomic Preference Enhanced Factuality Tuning for Large Language Modelsby Hongbang Yuan, Yubo Chen,…

July 13, 2025

Aqulia-Med LLM: Pioneering Full-Process Open-Source Medical Language Modelsby Lulu Zhao, Weihao Zeng, Xiaofeng Shi, Hua…

July 13, 2025

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Modelby Yongting Zhang, Lu Chen,…

July 13, 2025

How Far Can In-Context Alignment Go? Exploring the State of In-Context Alignmentby Heyan Huang, Yinghao…

July 13, 2025

Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalizationby Wenkai Yang, Shiqi Shen, Guangyao…

July 13, 2025

Open-Vocabulary X-ray Prohibited Item Detection via Fine-tuning CLIPby Shuyang Lin, Tong Jia, Hao Wang, Bowen…

July 13, 2025

Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Modelsby Rui Ye,…

July 13, 2025

SememeLM: A Sememe Knowledge Enhanced Method for Long-tail Relation Representationby Shuyi Li, Shaojuan Wu, Xiaowang…

July 13, 2025

Knowledge Editing in Language Models via Adapted Direct Preference Optimizationby Amit Rozner, Barak Battash, Lior…