أبحاث الذكاء الاصطناعي
نُشر 2026-05-02
Claw-Eval-Live: The First Benchmark That Forces LLM Agents to Prove They Actually Did the Work
جرّب نماذج Orgteh
وصّل أفكار هذه المقالة عبر واجهة API موحدة — بدون إعداد معقد.