Claude – Page 13 – GrooveSquid.com

July 13, 2025

Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioningby Jifan Zhang, Lalit…

July 13, 2025

AI Sandbagging: Language Models can Strategically Underperform on Evaluationsby Teun van der Weij, Felix Hofstätter,…

July 13, 2025

Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Contextby Jingru Jia, Zehua Yuan, Junhao Pan,…

July 13, 2025

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Modelsby Marianna…

July 13, 2025

MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Seriesby Ge Zhang, Scott Qu, Jiaheng…

July 13, 2025

WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Responseby Tianrong Zhang,…

July 13, 2025

Topic Classification of Case Law Using a Large Language Model and a New Taxonomy for…

July 13, 2025

A Multi-Faceted Evaluation Framework for Assessing Synthetic Data Generated by Large Language Modelsby Yefeng Yuan,…

July 13, 2025

OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Databy Chandeepa Dissanayake, Lahiru…

July 13, 2025

Assessing Economic Viability: A Comparative Analysis of Total Cost of Ownership for Domain-Adapted Large Language…