أبحاث الذكاء الاصطناعي نُشر 2026-05-02

Claw-Eval-Live: The First Benchmark That Forces LLM Agents to Prove They Actually Did the Work

المصدر البحثي الأصلي

هذه المقالة مبنية على ورقة بحثية علمية.

https://arxiv.org/abs/2604.28139

جرّب نماذج Orgteh

وصّل أفكار هذه المقالة عبر واجهة API موحدة — بدون إعداد معقد.

Orgteh Assistant

Online
Hello! I am Orgteh Assistant. How can I help you?