Alignment – Page 18 – GrooveSquid.com

July 13, 2025

Mind the Uncertainty in Human Disagreement: Evaluating Discrepancies between Model Predictions and Human Responses in…

July 13, 2025

Strong Preferences Affect the Robustness of Preference Models and Value Alignmentby Ziwei Xu, Mohan KankanhalliFirst…

July 13, 2025

A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimizationby Yucheng Chu, Hang Li, Kaiqi Yang,…

July 13, 2025

Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Modelsby Yinhong…

July 13, 2025

Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Modelsby Angela…

July 13, 2025

FactAlign: Long-form Factuality Alignment of Large Language Modelsby Chao-Wei Huang, Yun-Nung ChenFirst submitted to arxiv…

July 13, 2025

Towards Inference-time Category-wise Safety Steering for Large Language Modelsby Amrita Bhattacharjee, Shaona Ghosh, Traian Rebedea,…

July 13, 2025

Agent-Driven Large Language Models for Mandarin Lyric Generationby Hong-Hsiang Liu, Yi-Wen LiuFirst submitted to arxiv…

July 13, 2025

FlipGuard: Defending Preference Alignment against Update Regression with Constrained Optimizationby Mingye Zhu, Yi Liu, Quan…

July 13, 2025

Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsingby Deokhyung Kang, Seonjeong Hwang,…