Orgteh مدونة
تحليلات معمّقة لأحدث أبحاث الذكاء الاصطناعي — مع تطبيقات عملية يمكنك البناء عليها مباشرة.
2026-04-05
Stop Drowning in Agent Logs: A Lightweight Way to Surface the Trajectories That Actually Matter
Production LLM agents can generate tens of thousands of interaction traces per day. Most look identical: same tools, similar feedback, quiet success. Hidden inside are rare, messy failures—loops, mis-alignments, edge cas
2026-04-05
وكلاء البرمجة المستقلّون على أرض الواقع: ما علّمتهنا 110 آلاف طلب دمج عن الكود الذي يدوم
انضمّ إلى المستودعات مفتوحة المصدر مساهم جديد: وكيل ذكي يفتح طلبات الدمج، يراجع الكود، ويتجادل في التعليقات دون أن تلمس يده لوحة المفاتيح. دراسة حديثة لـ110 آلاف طلب دمج حقيقي قارنت بين خمسة وكلاء (OpenAI Codex، Claude C
2026-04-03
From Silent to Curious: Teaching AI Coding Agents When to Ask Questions
Ever pushed a “quick” Jira ticket to an AI pair-programmer only to watch it confidently ship the wrong feature? The problem isn’t model size—it’s silence. Today’s coding agents are trained to act, not inquire. A fresh pr
2026-04-03
عندما يغيّر المستخدم رأيه: بناء وكلاء ذكيّين قابلين للانقطاع يتأقلمون مع تغيّر الأهداف أثناء المهمة
كيفية بناء وكلاء ذكيّين قابلين للانقطاع يستأنفون العمل بعد تغيّر الهدف أثناء المهمة، مع نموذج بايثون جاهز يقلّص عدد الخطوات الزائدة بنسبة 60٪.
2026-04-02
من الخمول إلى اللحظة: كيف يُخفي «Eager» زمن التنفيذ في توليد شيفرة النماذج اللغوية الكبيرة
يشعر المستخدم وكأنه يُراقب الدهان يجفّ وهو ينتظر انتهاء النموذج من توليد 200 سطر من بايثون قبل أن يطبع أول . لا تزال وكلاء البرمجة بالنماذج اللغوية الكبيرة اليوم—GitHub Copilot وCode Interpreter في ChatGPT وحلقات ReAct ا
2026-04-01
Think-Anywhere: كيف تتيح لنموذج التوليد البرمجي التوقّف والتفكير ثم إنتاج شفرة أفضل
تستهلك معظم نماذج «الاستدلال» طاقتها الذهنية مسبقًا: تُفكّر مرةً واحدةً ثم تُخرج إجابة طويلة. يكفي ذلك في مسائل الرياضيات، أمّا البرمجة الواقعية فأكثر تعقيدًا—تظهر الأخطاء بعد أربعين سطرًا، وتختبئ الحالات الطرفية داخل مك
2026-03-31
من أداء 8B إلى 30B: وكلاء أبحاث عميقة تُصمَّم بالتحقّق من الأساس
يُعدّ البحث المفتوح التطبيق القاتل للنماذج اللغوية الكبيرة، لكنّ معظم الوكلاء المحليّين ينهارون بعد ثلاث أو أربع مكالمات أدوات. يُظهر بحث Marco DeepResearch (arXiv 2603.28376) أنّ المشكلة ليست حجم النموذج، بل غياب «قضبان
2026-03-31
من الأوامر إلى الحضارة: كيف يحوّل بروتوكول EpochX وكلاء الذكاء الاصطناعي إلى اقتصاد يُحسّن نفسه
معظم «الوكلاء الذكيّين» اليوم مجرد أغلفة فاخرة تُغلّف مكالمة واحدة لنموذج لغوي كبير. أمّا EpochX، وهو بروتوكول مفتوح ورد في ورقة حديثة على arXiv، فيعامل كل مهمة مكتملة كقطعة «ليغو» يمكن للوكلاء المستقبليين تركيبها فوراً—
2026-03-30
تعليم النماذج اللغوية الكبيرة «التفكير المحلي»: كيف تحوّل ذاكرة المستودع المباشرة المبرمجين العامين إلى مساهمين متأصلين في المشروع
يعرف كل مُنشئ مشروع مفتوح المصدر ذلك المشهد: طلب سحب يعمل من الناحية التقنية، لكنه يبدو غريبًا. أسماء المتغيّرات غير متناسبة، والأداة المساعدة الجديدة موجودة أصلًا في مجلد بعيد، والحدود المعمارية التي استغرقت ثلاث إصدارا
2026-03-30
من الشيفرة المعقّدة إلى اللغة البشرية: كيف تتيح لك أحزمة الوكلاء بلغة طبيعية تبديل النماذج دون إعادة كتابة الكود
يواجه منشئو الوكلاء مفارقة غريبة: كلما ازداد ذكاء الوكيل، ازدادت «دماغه» متشابكة داخل شيفرة التحكّم، وملفات إطار العمل، ومجموعات تطوير البرمجيات (SDKs) الخاصّة بالبائع. قد يستغرق استبدال GPT-4 بـ Llama-3 أسبوعًا من إعادة
2026-03-29
توقّف عن إطلاق وكلاء «جبن سويسري»: كيف تكشف أداة «Agent Audit» عن 40 من أصل 42 ثغرة أمنية في وكلاء LLM الحقيقية خلال أقل من ثانية
أنهيت للتو ربط آخر دالة أداة، اجتاز الوكيل اختبار التشغيل الأولي، والمدير يريد رابط الإنتاج. هل تأكّدت أن الأداة اللطيفة لن تنفذ عندما يُخطئ النموذج؟ لا يفعل معظم الفرق، ولذلك تتسرّب المفاتيح، أو تُحذف البيانات، أو تُح
2026-03-29
لماذا يتحوّل الوكيل البرمجي إلى كودٍ عفِنٍ دون أن تلاحظ؟ وكيف تقيسه قبل فوات الأوان
كل أسبوع يتصدّر نموذجٌ جديد قائمة الأداء البرمجي، لكن من يعمل على تسليم برمجيات حقيقية يعرف السرّ القذر: الكود الذي يجتاز اختبارات الوحدات اليوم قد يصبح كابوس الصيانة غداً. يأتي معيار SlopCodeBench، وهو معيار مفتوح من فر