Orgteh Infra

2026-05-02

Claw-Eval-Live: The First Benchmark That Forces LLM Agents to Prove They Actually Did the Work

Most leaderboards feel like time capsules: a frozen set of questions, a single “best” answer, and a score that never changes after publication.

اقرأ المزيد

2026-04-29

من بتّ واحد إلى قواعد لا تُخترق: تعليم وكلاء LLM السلامة بلا سوى ضوء خطر مُوَشَّش

ألقِ بوكيل LLM حديث الولادة في متاهة تُفجِّر المستوى عند كلِّ خطأ. لا تشرح له القواعد، ولا تمنحه دالة مكافأة، واجعل الإشارة الوحيدة التي يتلقّاها مصباحًا أحمر صغيرًا يومض حين يحدث شيء غير آمن. في حفنة حلقات، على الوكيل أ

اقرأ المزيد

2026-04-28

ميمانتو: طبقة ذاكرة خفيفة تجعل الوكلاء الذكيّين يتذكّرون كالبشر

إذا سبق أن بنيتَ وكيلاً ذكيًا يجب أن يعيش أكثر من جلسة محادثة واحدة، فتعرف الألم: قواعد البيانات المتجهة تنتفخ، استعلامات الرسم البياني تتباطأ، وفاتورة الحوسبة تبدو كرقم هاتف. يُحدث «ميمانتو» — المواصفة المفتوحة الجديدة

اقرأ المزيد

2026-04-28

Stop Wasting Tokens: How DIVERT Finds LLM-Agent Bugs 3× Faster Than Monte-Carlo Rollouts

If you’ve ever tried to evaluate an AI agent that chats with customers for more than two turns, you know the pain: you burn thousands of dollars on GPT-4 to simulate conversations, yet the same “Hi, I need help” prefix i

اقرأ المزيد

2026-04-27

From 128 K to 36 M Tokens: How SLIDERS Makes Any Document Set Feel Tiny

If you’ve ever watched a RAG pipeline slow to a crawl when the legal team drops 3 000 PDFs on you, you already know the dirty secret of “long-context” LLMs: the window is never long enough. Frontier models advertise 128

اقرأ المزيد

2026-04-25

من ثابت إلى ذكي: بناء ذاكرة متطوّرة ذاتيًّا لوكلاء LLM تعمل فعلًا

تخيّل مساعدًا ذكيًا يتذكّر أنك تكره الكزبرة، تفضّل JSON لا YAML، وأنك أصلحت تسرّب ذاكرة في خدمة Go microservice، ثم يستعمل تلك المعلومات لتسريع كل طلب لاحق. هذا هو وعد استخراج ذاكرة LLM، لكن معظم الوكلاء «الدائمين» يعامل

اقرأ المزيد

2026-04-24

From Chat History to Living Memory: How PersonalAI Builds Knowledge-Graph Agents That Actually Remember You

Most LLM agents treat memory like a scratchpad—everything fades once the context window slides forward. PersonalAI (arXiv 2506.17001) replaces the scratchpad with a self-updating knowledge graph that acts as a long-term,

اقرأ المزيد

2026-04-24

فَنَارُ LLM في الميدان: 8 تقنيات مجربة لإطلاق وكلاء ذكاء اصطناعي دون تسرّب الأسرار

في كلّ مرة يستدعي فيها مساعد البرمجة أو بوت الدعم أو وكيل التحليلات نموذجًا لغويًا سحابيًا، يرسل حزمة صغيرة من بياناتك: أسماء العملاء، الخوارزميات الملكية، الأسرار المشفّرة داخل الشيفرة… وما إن تغادر الحزمة شبكتك الافترا

اقرأ المزيد

2026-04-23

Stop Drowning Your Terminal Agent in Tokens—Meet TACO, the Self-Evolving Compressor

Every time your AI agent types , , or , the terminal spits back a fresh wall of text. Keep every byte in the prompt and the token bill explodes quadratically—100 steps cost 10 k tokens, 200 steps cost 40 k, and by step 5

اقرأ المزيد

2026-04-23

علماء الذكاء الاصطناعي لا يُفكّرون: ماذا تعلّمنا من 25 ألف عملية تنفيذ لعوامل ذكاء اصطناعي حول بناء خطوط أنابيب بحثية موثوقة

إذا لصقت نتيجة لامعة في Slack دون قراءة التتبّع، فقد تكون أرسلت «علماً» لم يتحقّق منه أي إنسان. نشرت دراسة أولية صادمة الأسبوع الماضي: شغّل باحثون 25 ألف عامل LLM مستقل عبر ثمانية مجالات علمية، فاكتشفوا أن العوامل تتجاهل

اقرأ المزيد

2026-04-23

From Chat to Click: How Chat2Workflow Turns Plain English into Deploy-Ready Visual Workflows

Imagine opening Slack, typing “When a high-value customer submits a ticket, look up their Stripe history, draft a personalized apology email, and open a Jira bug if the amount is >$1 k,” then watching a live diagram appe

اقرأ المزيد

2026-04-23

SWE-chat: ماذا تعلّمنا من ٦٠٠٠ جلسة برمجة حقيقية عن وكلاء الذكاء الاصطناعي في الواقع

إذا سبق أن تساءلت ما إذا كان مساعد البرمجة الذكي يُفيدك فعلًا أو يُنتج شيفرة براقة لكنها زائفة، فأنت لست وحدك. رغم الضجيج الإعلامي، كانت البيانات الصلبة حول كيفية استخدام المطوّرين لوكلاء الذكاء الاصطناعي شحيحة. يكشف مشر

اقرأ المزيد

Orgteh مدونة

Claw-Eval-Live: The First Benchmark That Forces LLM Agents to Prove They Actually Did the Work

من بتّ واحد إلى قواعد لا تُخترق: تعليم وكلاء LLM السلامة بلا سوى ضوء خطر مُوَشَّش

ميمانتو: طبقة ذاكرة خفيفة تجعل الوكلاء الذكيّين يتذكّرون كالبشر

Stop Wasting Tokens: How DIVERT Finds LLM-Agent Bugs 3× Faster Than Monte-Carlo Rollouts

From 128 K to 36 M Tokens: How SLIDERS Makes Any Document Set Feel Tiny

من ثابت إلى ذكي: بناء ذاكرة متطوّرة ذاتيًّا لوكلاء LLM تعمل فعلًا

From Chat History to Living Memory: How PersonalAI Builds Knowledge-Graph Agents That Actually Remember You

فَنَارُ LLM في الميدان: 8 تقنيات مجربة لإطلاق وكلاء ذكاء اصطناعي دون تسرّب الأسرار

Stop Drowning Your Terminal Agent in Tokens—Meet TACO, the Self-Evolving Compressor

علماء الذكاء الاصطناعي لا يُفكّرون: ماذا تعلّمنا من 25 ألف عملية تنفيذ لعوامل ذكاء اصطناعي حول بناء خطوط أنابيب بحثية موثوقة

From Chat to Click: How Chat2Workflow Turns Plain English into Deploy-Ready Visual Workflows

SWE-chat: ماذا تعلّمنا من ٦٠٠٠ جلسة برمجة حقيقية عن وكلاء الذكاء الاصطناعي في الواقع

Orgteh Assistant