Alignment – Page 106 – GrooveSquid.com

Loading Now

July 13, 2025

Summary of Do As I Do (safely): Mitigating Task-specific Fine-tuning Risks in Large Language Models, by Francisco Eiras et al.

Do as I do (Safely): Mitigating Task-Specific Fine-tuning Risks in Large Language Modelsby Francisco Eiras,…

July 13, 2025

Summary of Tacco: Task-guided Co-clustering Of Clinical Concepts and Patient Visits For Disease Subtyping Based on Ehr Data, by Ziyang Zhang et al.

TACCO: Task-guided Co-clustering of Clinical Concepts and Patient Visits for Disease Subtyping based on EHR…

July 13, 2025

Summary of How Does Distribution Matching Help Domain Generalization: An Information-theoretic Analysis, by Yuxin Dong et al.

How Does Distribution Matching Help Domain Generalization: An Information-theoretic Analysisby Yuxin Dong, Tieliang Gong, Hong…

July 13, 2025

Summary of Bootstrapping Language Models with Dpo Implicit Rewards, by Changyu Chen et al.

Bootstrapping Language Models with DPO Implicit Rewardsby Changyu Chen, Zichen Liu, Chao Du, Tianyu Pang,…

July 13, 2025

Summary of Exploring the Spectrum Of Visio-linguistic Compositionality and Recognition, by Youngtaek Oh et al.

Exploring the Spectrum of Visio-Linguistic Compositionality and Recognitionby Youngtaek Oh, Pyunghwan Ahn, Jinhyung Kim, Gwangmo…

July 13, 2025

Summary of Understanding Jailbreak Success: a Study Of Latent Space Dynamics in Large Language Models, by Sarah Ball et al.

Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Modelsby Sarah Ball,…

July 13, 2025

Summary of Helpsteer2: Open-source Dataset For Training Top-performing Reward Models, by Zhilin Wang et al.

HelpSteer2: Open-source dataset for training top-performing reward modelsby Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi…

July 13, 2025

Summary of Pal: Pluralistic Alignment Framework For Learning From Heterogeneous Preferences, by Daiwei Chen et al.

PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferencesby Daiwei Chen, Yi Chen, Aniket Rege,…

July 13, 2025

Summary of Grounding Multimodal Large Language Models in Actions, by Andrew Szot et al.

Grounding Multimodal Large Language Models in Actionsby Andrew Szot, Bogdan Mazoure, Harsh Agrawal, Devon Hjelm,…

July 13, 2025

Summary of Optune: Efficient Online Preference Tuning, by Lichang Chen et al.

OPTune: Efficient Online Preference Tuningby Lichang Chen, Jiuhai Chen, Chenxi Liu, John Kirchenbauer, Davit Soselia,…