GPT – Page 47 – GrooveSquid.com

July 13, 2025

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusalby Tinghao Xie, Xiangyu Qi, Yi Zeng, Yangsibo…

July 13, 2025

Holistic Evaluation for Interleaved Text-and-Image Generationby Minqian Liu, Zhiyang Xu, Zihao Lin, Trevor Ashby, Joy…

July 13, 2025

Does GPT Really Get It? A Hierarchical Scale to Quantify Human vs AI’s Understanding of…

July 13, 2025

Identifying User Goals from UI Trajectoriesby Omri Berkovitch, Sapir Caduri, Noam Kahlon, Anatoly Efros, Avi…

July 13, 2025

CryptoGPT: a 7B model rivaling GPT-4 in the task of analyzing and classifying real-time financial…

July 13, 2025

AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understandingby Alessandro Suglia, Claudio Greco,…

July 13, 2025

SPL: A Socratic Playground for Learning Powered by Large Language Modelby Liang Zhang, Jionghao Lin,…

July 13, 2025

Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoningby Bingchen…

July 13, 2025

OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AIby Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng…

July 13, 2025

Chumor 1.0: A Truly Funny and Challenging Chinese Humor Understanding Dataset from Ruo Zhi Baby…