Alignment – Page 109 – GrooveSquid.com

July 13, 2025

PaCE: Parsimonious Concept Engineering for Large Language Modelsby Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan…

July 13, 2025

Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignmentby Dongyoung Kim, Kimin Lee, Jinwoo…

July 13, 2025

Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Modelsby Xiang Ji, Sanjeev…

July 13, 2025

Representational Alignment Supports Effective Machine Teachingby Ilia Sucholutsky, Katherine M. Collins, Maya Malaviya, Nori Jacoby,…

July 13, 2025

HackAtari: Atari Learning Environments for Robust and Continual Reinforcement Learningby Quentin Delfosse, Jannis Blüml, Bjarne…

July 13, 2025

Is Free Self-Alignment Possible?by Dyah Adila, Changho Shin, Yijing Zhang, Frederic SalaFirst submitted to arxiv…

July 13, 2025

Alignment Calibration: Machine Unlearning for Contrastive Learning under Auditingby Yihan Wang, Yiwei Lu, Guojun Zhang,…

July 13, 2025

Bayesian WeakS-to-Strong from Text Classification to Generationby Ziyun Cui, Ziyang Zhang, Guangzhi Sun, Wen Wu,…

July 13, 2025

Exploring User Retrieval Integration towards Large Language Models for Cross-Domain Sequential Recommendationby Tingjia Shen, Hao…

July 13, 2025

Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithmsby Rafael Rafailov, Yaswanth Chittepu, Ryan…