أبحاث الذكاء الاصطناعي نُشر 2026-05-02

Claw-Eval-Live: The First Benchmark That Forces LLM Agents to Prove They Actually Did the Work

المصدر البحثي الأصلي

هذه المقالة مبنية على ورقة بحثية علمية.

وصّل أفكار هذه المقالة عبر واجهة API موحدة — بدون إعداد معقد.