Orgteh مدونة
تحليلات معمّقة لأحدث أبحاث الذكاء الاصطناعي — مع تطبيقات عملية يمكنك البناء عليها مباشرة.
2026-05-02
Claw-Eval-Live: The First Benchmark That Forces LLM Agents to Prove They Actually Did the Work
Most leaderboards feel like time capsules: a frozen set of questions, a single “best” answer, and a score that never changes after publication.
2026-04-29
من بتّ واحد إلى قواعد لا تُخترق: تعليم وكلاء LLM السلامة بلا سوى ضوء خطر مُوَشَّش
ألقِ بوكيل LLM حديث الولادة في متاهة تُفجِّر المستوى عند كلِّ خطأ. لا تشرح له القواعد، ولا تمنحه دالة مكافأة، واجعل الإشارة الوحيدة التي يتلقّاها مصباحًا أحمر صغيرًا يومض حين يحدث شيء غير آمن. في حفنة حلقات، على الوكيل أ
2026-04-28
ميمانتو: طبقة ذاكرة خفيفة تجعل الوكلاء الذكيّين يتذكّرون كالبشر
إذا سبق أن بنيتَ وكيلاً ذكيًا يجب أن يعيش أكثر من جلسة محادثة واحدة، فتعرف الألم: قواعد البيانات المتجهة تنتفخ، استعلامات الرسم البياني تتباطأ، وفاتورة الحوسبة تبدو كرقم هاتف. يُحدث «ميمانتو» — المواصفة المفتوحة الجديدة
2026-04-28
Stop Wasting Tokens: How DIVERT Finds LLM-Agent Bugs 3× Faster Than Monte-Carlo Rollouts
If you’ve ever tried to evaluate an AI agent that chats with customers for more than two turns, you know the pain: you burn thousands of dollars on GPT-4 to simulate conversations, yet the same “Hi, I need help” prefix i
2026-04-27
From 128 K to 36 M Tokens: How SLIDERS Makes Any Document Set Feel Tiny
If you’ve ever watched a RAG pipeline slow to a crawl when the legal team drops 3 000 PDFs on you, you already know the dirty secret of “long-context” LLMs: the window is never long enough. Frontier models advertise 128
2026-04-25
من ثابت إلى ذكي: بناء ذاكرة متطوّرة ذاتيًّا لوكلاء LLM تعمل فعلًا
تخيّل مساعدًا ذكيًا يتذكّر أنك تكره الكزبرة، تفضّل JSON لا YAML، وأنك أصلحت تسرّب ذاكرة في خدمة Go microservice، ثم يستعمل تلك المعلومات لتسريع كل طلب لاحق. هذا هو وعد استخراج ذاكرة LLM، لكن معظم الوكلاء «الدائمين» يعامل
2026-04-24
From Chat History to Living Memory: How PersonalAI Builds Knowledge-Graph Agents That Actually Remember You
Most LLM agents treat memory like a scratchpad—everything fades once the context window slides forward. PersonalAI (arXiv 2506.17001) replaces the scratchpad with a self-updating knowledge graph that acts as a long-term,
2026-04-24
فَنَارُ LLM في الميدان: 8 تقنيات مجربة لإطلاق وكلاء ذكاء اصطناعي دون تسرّب الأسرار
في كلّ مرة يستدعي فيها مساعد البرمجة أو بوت الدعم أو وكيل التحليلات نموذجًا لغويًا سحابيًا، يرسل حزمة صغيرة من بياناتك: أسماء العملاء، الخوارزميات الملكية، الأسرار المشفّرة داخل الشيفرة… وما إن تغادر الحزمة شبكتك الافترا
2026-04-23
Stop Drowning Your Terminal Agent in Tokens—Meet TACO, the Self-Evolving Compressor
Every time your AI agent types , , or , the terminal spits back a fresh wall of text. Keep every byte in the prompt and the token bill explodes quadratically—100 steps cost 10 k tokens, 200 steps cost 40 k, and by step 5
2026-04-23
علماء الذكاء الاصطناعي لا يُفكّرون: ماذا تعلّمنا من 25 ألف عملية تنفيذ لعوامل ذكاء اصطناعي حول بناء خطوط أنابيب بحثية موثوقة
إذا لصقت نتيجة لامعة في Slack دون قراءة التتبّع، فقد تكون أرسلت «علماً» لم يتحقّق منه أي إنسان. نشرت دراسة أولية صادمة الأسبوع الماضي: شغّل باحثون 25 ألف عامل LLM مستقل عبر ثمانية مجالات علمية، فاكتشفوا أن العوامل تتجاهل
2026-04-23
From Chat to Click: How Chat2Workflow Turns Plain English into Deploy-Ready Visual Workflows
Imagine opening Slack, typing “When a high-value customer submits a ticket, look up their Stripe history, draft a personalized apology email, and open a Jira bug if the amount is >$1 k,” then watching a live diagram appe
2026-04-23
SWE-chat: ماذا تعلّمنا من ٦٠٠٠ جلسة برمجة حقيقية عن وكلاء الذكاء الاصطناعي في الواقع
إذا سبق أن تساءلت ما إذا كان مساعد البرمجة الذكي يُفيدك فعلًا أو يُنتج شيفرة براقة لكنها زائفة، فأنت لست وحدك. رغم الضجيج الإعلامي، كانت البيانات الصلبة حول كيفية استخدام المطوّرين لوكلاء الذكاء الاصطناعي شحيحة. يكشف مشر