Orgteh مدونة

تحليلات معمّقة لأحدث أبحاث الذكاء الاصطناعي — مع تطبيقات عملية يمكنك البناء عليها مباشرة.

Claw-Eval-Live: The First Benchmark That Forces LLM Agents to Prove They Actually Did the Work

2026-05-02

Claw-Eval-Live: The First Benchmark That Forces LLM Agents to Prove They Actually Did the Work

Most leaderboards feel like time capsules: a frozen set of questions, a single “best” answer, and a score that never changes after publication.

اقرأ المزيد
من بتّ واحد إلى قواعد لا تُخترق: تعليم وكلاء LLM السلامة بلا سوى ضوء خطر مُوَشَّش

2026-04-29

من بتّ واحد إلى قواعد لا تُخترق: تعليم وكلاء LLM السلامة بلا سوى ضوء خطر مُوَشَّش

ألقِ بوكيل LLM حديث الولادة في متاهة تُفجِّر المستوى عند كلِّ خطأ. لا تشرح له القواعد، ولا تمنحه دالة مكافأة، واجعل الإشارة الوحيدة التي يتلقّاها مصباحًا أحمر صغيرًا يومض حين يحدث شيء غير آمن. في حفنة حلقات، على الوكيل أ

اقرأ المزيد
ميمانتو: طبقة ذاكرة خفيفة تجعل الوكلاء الذكيّين يتذكّرون كالبشر

2026-04-28

ميمانتو: طبقة ذاكرة خفيفة تجعل الوكلاء الذكيّين يتذكّرون كالبشر

إذا سبق أن بنيتَ وكيلاً ذكيًا يجب أن يعيش أكثر من جلسة محادثة واحدة، فتعرف الألم: قواعد البيانات المتجهة تنتفخ، استعلامات الرسم البياني تتباطأ، وفاتورة الحوسبة تبدو كرقم هاتف. يُحدث «ميمانتو» — المواصفة المفتوحة الجديدة

اقرأ المزيد
Stop Wasting Tokens: How DIVERT Finds LLM-Agent Bugs 3× Faster Than Monte-Carlo Rollouts

2026-04-28

Stop Wasting Tokens: How DIVERT Finds LLM-Agent Bugs 3× Faster Than Monte-Carlo Rollouts

If you’ve ever tried to evaluate an AI agent that chats with customers for more than two turns, you know the pain: you burn thousands of dollars on GPT-4 to simulate conversations, yet the same “Hi, I need help” prefix i

اقرأ المزيد
From 128 K to 36 M Tokens: How SLIDERS Makes Any Document Set Feel Tiny

2026-04-27

From 128 K to 36 M Tokens: How SLIDERS Makes Any Document Set Feel Tiny

If you’ve ever watched a RAG pipeline slow to a crawl when the legal team drops 3 000 PDFs on you, you already know the dirty secret of “long-context” LLMs: the window is never long enough. Frontier models advertise 128

اقرأ المزيد
من ثابت إلى ذكي: بناء ذاكرة متطوّرة ذاتيًّا لوكلاء LLM تعمل فعلًا

2026-04-25

من ثابت إلى ذكي: بناء ذاكرة متطوّرة ذاتيًّا لوكلاء LLM تعمل فعلًا

تخيّل مساعدًا ذكيًا يتذكّر أنك تكره الكزبرة، تفضّل JSON لا YAML، وأنك أصلحت تسرّب ذاكرة في خدمة Go microservice، ثم يستعمل تلك المعلومات لتسريع كل طلب لاحق. هذا هو وعد استخراج ذاكرة LLM، لكن معظم الوكلاء «الدائمين» يعامل

اقرأ المزيد
From Chat History to Living Memory: How PersonalAI Builds Knowledge-Graph Agents That Actually Remember You

2026-04-24

From Chat History to Living Memory: How PersonalAI Builds Knowledge-Graph Agents That Actually Remember You

Most LLM agents treat memory like a scratchpad—everything fades once the context window slides forward. PersonalAI (arXiv 2506.17001) replaces the scratchpad with a self-updating knowledge graph that acts as a long-term,

اقرأ المزيد
فَنَارُ LLM في الميدان: 8 تقنيات مجربة لإطلاق وكلاء ذكاء اصطناعي دون تسرّب الأسرار

2026-04-24

فَنَارُ LLM في الميدان: 8 تقنيات مجربة لإطلاق وكلاء ذكاء اصطناعي دون تسرّب الأسرار

في كلّ مرة يستدعي فيها مساعد البرمجة أو بوت الدعم أو وكيل التحليلات نموذجًا لغويًا سحابيًا، يرسل حزمة صغيرة من بياناتك: أسماء العملاء، الخوارزميات الملكية، الأسرار المشفّرة داخل الشيفرة… وما إن تغادر الحزمة شبكتك الافترا

اقرأ المزيد
Stop Drowning Your Terminal Agent in Tokens—Meet TACO, the Self-Evolving Compressor

2026-04-23

Stop Drowning Your Terminal Agent in Tokens—Meet TACO, the Self-Evolving Compressor

Every time your AI agent types , , or , the terminal spits back a fresh wall of text. Keep every byte in the prompt and the token bill explodes quadratically—100 steps cost 10 k tokens, 200 steps cost 40 k, and by step 5

اقرأ المزيد
علماء الذكاء الاصطناعي لا يُفكّرون: ماذا تعلّمنا من 25 ألف عملية تنفيذ لعوامل ذكاء اصطناعي حول بناء خطوط أنابيب بحثية موثوقة

2026-04-23

علماء الذكاء الاصطناعي لا يُفكّرون: ماذا تعلّمنا من 25 ألف عملية تنفيذ لعوامل ذكاء اصطناعي حول بناء خطوط أنابيب بحثية موثوقة

إذا لصقت نتيجة لامعة في Slack دون قراءة التتبّع، فقد تكون أرسلت «علماً» لم يتحقّق منه أي إنسان. نشرت دراسة أولية صادمة الأسبوع الماضي: شغّل باحثون 25 ألف عامل LLM مستقل عبر ثمانية مجالات علمية، فاكتشفوا أن العوامل تتجاهل

اقرأ المزيد
From Chat to Click: How Chat2Workflow Turns Plain English into Deploy-Ready Visual Workflows

2026-04-23

From Chat to Click: How Chat2Workflow Turns Plain English into Deploy-Ready Visual Workflows

Imagine opening Slack, typing “When a high-value customer submits a ticket, look up their Stripe history, draft a personalized apology email, and open a Jira bug if the amount is >$1 k,” then watching a live diagram appe

اقرأ المزيد
SWE-chat: ماذا تعلّمنا من ٦٠٠٠ جلسة برمجة حقيقية عن وكلاء الذكاء الاصطناعي في الواقع

2026-04-23

SWE-chat: ماذا تعلّمنا من ٦٠٠٠ جلسة برمجة حقيقية عن وكلاء الذكاء الاصطناعي في الواقع

إذا سبق أن تساءلت ما إذا كان مساعد البرمجة الذكي يُفيدك فعلًا أو يُنتج شيفرة براقة لكنها زائفة، فأنت لست وحدك. رغم الضجيج الإعلامي، كانت البيانات الصلبة حول كيفية استخدام المطوّرين لوكلاء الذكاء الاصطناعي شحيحة. يكشف مشر

اقرأ المزيد
1 2 3 5

Orgteh Assistant

Online
Hello! I am Orgteh Assistant. How can I help you?