GPT – Page 126 – GrooveSquid.com

July 13, 2025

AI Sandbagging: Language Models can Strategically Underperform on Evaluationsby Teun van der Weij, Felix Hofstätter,…

July 13, 2025

An Evaluation Benchmark for Autoformalization in Lean4by Aryan Gulati, Devanshu Ladsaria, Shubhra Mishra, Jasdeep Sidhu,…

July 13, 2025

OccamLLM: Fast and Exact Language Model Arithmetic in a Single Stepby Owen Dugan, Donato Manuel…

July 13, 2025

Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Report in lung cancer…

July 13, 2025

Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoningby Joongwon Kim, Bhargavi Paranjape, Tushar Khot,…

July 13, 2025

Data-Efficient Learning with Neural Programsby Alaia Solko-Breslin, Seewon Choi, Ziyang Li, Neelay Velingker, Rajeev Alur,…

July 13, 2025

STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Modelsby Shreyas Basavatia, Keerthiram…

July 13, 2025

Large Language Models Memorize Sensor Datasets! Implications on Human Activity Recognition Researchby Harish Haresamudram, Hrudhai…

July 13, 2025

Hints-In-Browser: Benchmarking Language Models for Programming Feedback Generationby Nachiket Kotalwar, Alkis Gotovos, Adish SinglaFirst submitted…

July 13, 2025

Large Generative Graph Modelsby Yu Wang, Ryan A. Rossi, Namyong Park, Huiyuan Chen, Nesreen K.…