Orgteh Infra

2026-04-05

Stop Drowning in Agent Logs: A Lightweight Way to Surface the Trajectories That Actually Matter

Production LLM agents can generate tens of thousands of interaction traces per day. Most look identical: same tools, similar feedback, quiet success. Hidden inside are rare, messy failures—loops, mis-alignments, edge cas

اقرأ المزيد

2026-04-05

وكلاء البرمجة المستقلّون على أرض الواقع: ما علّمتهنا 110 آلاف طلب دمج عن الكود الذي يدوم

انضمّ إلى المستودعات مفتوحة المصدر مساهم جديد: وكيل ذكي يفتح طلبات الدمج، يراجع الكود، ويتجادل في التعليقات دون أن تلمس يده لوحة المفاتيح. دراسة حديثة لـ110 آلاف طلب دمج حقيقي قارنت بين خمسة وكلاء (OpenAI Codex، Claude C

اقرأ المزيد

2026-04-03

From Silent to Curious: Teaching AI Coding Agents When to Ask Questions

Ever pushed a “quick” Jira ticket to an AI pair-programmer only to watch it confidently ship the wrong feature? The problem isn’t model size—it’s silence. Today’s coding agents are trained to act, not inquire. A fresh pr

اقرأ المزيد

2026-04-03

عندما يغيّر المستخدم رأيه: بناء وكلاء ذكيّين قابلين للانقطاع يتأقلمون مع تغيّر الأهداف أثناء المهمة

كيفية بناء وكلاء ذكيّين قابلين للانقطاع يستأنفون العمل بعد تغيّر الهدف أثناء المهمة، مع نموذج بايثون جاهز يقلّص عدد الخطوات الزائدة بنسبة 60٪.

اقرأ المزيد

2026-04-02

من الخمول إلى اللحظة: كيف يُخفي «Eager» زمن التنفيذ في توليد شيفرة النماذج اللغوية الكبيرة

يشعر المستخدم وكأنه يُراقب الدهان يجفّ وهو ينتظر انتهاء النموذج من توليد 200 سطر من بايثون قبل أن يطبع أول . لا تزال وكلاء البرمجة بالنماذج اللغوية الكبيرة اليوم—GitHub Copilot وCode Interpreter في ChatGPT وحلقات ReAct ا

اقرأ المزيد

2026-04-01

Think-Anywhere: كيف تتيح لنموذج التوليد البرمجي التوقّف والتفكير ثم إنتاج شفرة أفضل

تستهلك معظم نماذج «الاستدلال» طاقتها الذهنية مسبقًا: تُفكّر مرةً واحدةً ثم تُخرج إجابة طويلة. يكفي ذلك في مسائل الرياضيات، أمّا البرمجة الواقعية فأكثر تعقيدًا—تظهر الأخطاء بعد أربعين سطرًا، وتختبئ الحالات الطرفية داخل مك

اقرأ المزيد

2026-03-31

من أداء 8B إلى 30B: وكلاء أبحاث عميقة تُصمَّم بالتحقّق من الأساس

يُعدّ البحث المفتوح التطبيق القاتل للنماذج اللغوية الكبيرة، لكنّ معظم الوكلاء المحليّين ينهارون بعد ثلاث أو أربع مكالمات أدوات. يُظهر بحث Marco DeepResearch (arXiv 2603.28376) أنّ المشكلة ليست حجم النموذج، بل غياب «قضبان

اقرأ المزيد

2026-03-31

من الأوامر إلى الحضارة: كيف يحوّل بروتوكول EpochX وكلاء الذكاء الاصطناعي إلى اقتصاد يُحسّن نفسه

معظم «الوكلاء الذكيّين» اليوم مجرد أغلفة فاخرة تُغلّف مكالمة واحدة لنموذج لغوي كبير. أمّا EpochX، وهو بروتوكول مفتوح ورد في ورقة حديثة على arXiv، فيعامل كل مهمة مكتملة كقطعة «ليغو» يمكن للوكلاء المستقبليين تركيبها فوراً—

اقرأ المزيد

2026-03-30

تعليم النماذج اللغوية الكبيرة «التفكير المحلي»: كيف تحوّل ذاكرة المستودع المباشرة المبرمجين العامين إلى مساهمين متأصلين في المشروع

يعرف كل مُنشئ مشروع مفتوح المصدر ذلك المشهد: طلب سحب يعمل من الناحية التقنية، لكنه يبدو غريبًا. أسماء المتغيّرات غير متناسبة، والأداة المساعدة الجديدة موجودة أصلًا في مجلد بعيد، والحدود المعمارية التي استغرقت ثلاث إصدارا

اقرأ المزيد

2026-03-30

من الشيفرة المعقّدة إلى اللغة البشرية: كيف تتيح لك أحزمة الوكلاء بلغة طبيعية تبديل النماذج دون إعادة كتابة الكود

يواجه منشئو الوكلاء مفارقة غريبة: كلما ازداد ذكاء الوكيل، ازدادت «دماغه» متشابكة داخل شيفرة التحكّم، وملفات إطار العمل، ومجموعات تطوير البرمجيات (SDKs) الخاصّة بالبائع. قد يستغرق استبدال GPT-4 بـ Llama-3 أسبوعًا من إعادة

اقرأ المزيد

2026-03-29

توقّف عن إطلاق وكلاء «جبن سويسري»: كيف تكشف أداة «Agent Audit» عن 40 من أصل 42 ثغرة أمنية في وكلاء LLM الحقيقية خلال أقل من ثانية

أنهيت للتو ربط آخر دالة أداة، اجتاز الوكيل اختبار التشغيل الأولي، والمدير يريد رابط الإنتاج. هل تأكّدت أن الأداة اللطيفة لن تنفذ عندما يُخطئ النموذج؟ لا يفعل معظم الفرق، ولذلك تتسرّب المفاتيح، أو تُحذف البيانات، أو تُح

اقرأ المزيد

2026-03-29

لماذا يتحوّل الوكيل البرمجي إلى كودٍ عفِنٍ دون أن تلاحظ؟ وكيف تقيسه قبل فوات الأوان

كل أسبوع يتصدّر نموذجٌ جديد قائمة الأداء البرمجي، لكن من يعمل على تسليم برمجيات حقيقية يعرف السرّ القذر: الكود الذي يجتاز اختبارات الوحدات اليوم قد يصبح كابوس الصيانة غداً. يأتي معيار SlopCodeBench، وهو معيار مفتوح من فر

اقرأ المزيد

Orgteh مدونة

Stop Drowning in Agent Logs: A Lightweight Way to Surface the Trajectories That Actually Matter

وكلاء البرمجة المستقلّون على أرض الواقع: ما علّمتهنا 110 آلاف طلب دمج عن الكود الذي يدوم

From Silent to Curious: Teaching AI Coding Agents When to Ask Questions

عندما يغيّر المستخدم رأيه: بناء وكلاء ذكيّين قابلين للانقطاع يتأقلمون مع تغيّر الأهداف أثناء المهمة

من الخمول إلى اللحظة: كيف يُخفي «Eager» زمن التنفيذ في توليد شيفرة النماذج اللغوية الكبيرة

Think-Anywhere: كيف تتيح لنموذج التوليد البرمجي التوقّف والتفكير ثم إنتاج شفرة أفضل

من أداء 8B إلى 30B: وكلاء أبحاث عميقة تُصمَّم بالتحقّق من الأساس

من الأوامر إلى الحضارة: كيف يحوّل بروتوكول EpochX وكلاء الذكاء الاصطناعي إلى اقتصاد يُحسّن نفسه

تعليم النماذج اللغوية الكبيرة «التفكير المحلي»: كيف تحوّل ذاكرة المستودع المباشرة المبرمجين العامين إلى مساهمين متأصلين في المشروع

من الشيفرة المعقّدة إلى اللغة البشرية: كيف تتيح لك أحزمة الوكلاء بلغة طبيعية تبديل النماذج دون إعادة كتابة الكود

توقّف عن إطلاق وكلاء «جبن سويسري»: كيف تكشف أداة «Agent Audit» عن 40 من أصل 42 ثغرة أمنية في وكلاء LLM الحقيقية خلال أقل من ثانية

لماذا يتحوّل الوكيل البرمجي إلى كودٍ عفِنٍ دون أن تلاحظ؟ وكيف تقيسه قبل فوات الأوان

Orgteh Assistant