Finding the best operational solution for your business using AI technologies


العنوان: Ai Valu

 

مدخل

يمكن تقسيم كل أنواع الاستخدامات للذكاء الاصطناعي إلى نوعين رئيسين: الخام، الذي يعمل على المساعدة في تعزيز الإنتاجية أو تنفيذ مطالبات برمجية صرفة، والثاني هو بوتات الدردشة التي تعمل على دمج كل الاستخدامات في واجهة بسيطة يمكنها التحدث مع المستخدم.

 

ولكن في ظل تعدد نماذج وتقنيات الذكاء الاصطناعي على نحو انفجاري جدا، صار الغث مختلطا بالسمين.

 

مطلب

الذكاء الاصطناعي هي تقنية تم اختراعها ليس فقط لنستمر في اختبارها، بل من أجل اختراق حدود الذكاء البشري، وتجاوزه إلى آفاق الذكاء الآلي، من أجل تحقيق نتائج غير اعتيادية.

 

مقترح

لذا .. يلزم بناء نظام محكم وقوي للتقييم Evaluation والاختبار Experiment.

 

منتج

قمنا بتدشين نظام سميناه جسون، و تم التسمية من وحي ملاحظات وتعليقات وكيل الذكاء الاصطناعي، وهي طريقة بحث وتقييم علمية تعتمد على تقييم مدخلات المستخدم ومخرجات المجيب أثناء التواصل النصي مع بوتات الذكاء الاصطناعي، وتتشابه مع آلية جسون في ترميز الكائنات بواسطة جافا سكريبت. باختصار، هي لغة تفهمها الآلة.

 

النظام يعمل عبر محورين

 

المحور الأول يعمل على رصد أنواع نماذج الذكاء الاصطناعي بحسب التقنية المستخدمة في تدريبه، تم التوزيع على 26 فئة رئيسية، وتم الترتيب أبجديا من A إلى Z.

 

هذا المحور موجود في ورقة بحثية أخرى بعنوان: ().

 

المحور الثاني يعمل على تصنيف وسائل التقييم، بحسب الطريقة المستخدمة لتحقيق ذلك، والترتيب أبجدي من A إلى Z في 26 فئة رئيسية.

 

Ad

التقييم بحسب متن الإدخال.

 

أي التركيز على نص المطالبة المكتوبة أو المنطوقة مشافهة أو المصحوبة بوسائط متعددة، حيث التركيز على المدخلات والتعليقات المضافة إليها، مثل النماذج مفتوحة المصدر، ومغلقة المصدر، والنصف مغلقة، وبوتات الدردشة. حيث Ad تملك قيمة ووظيفة في تنظيم وتنظيف البيانات، لأنه يمكن استخدامها كحاوية تعبر عن المدخلات. وبالطبع يمكن استخدام أوامر من نوع آخر غير Ad أو Alam للتعبير عن نفس الصفة التي تحدد هذا النوع من البيانات: مدخلات، حيث يتم عرض المدخلات / المطالبات / الاستفسارات على النموذج، والمكتوبة من قبل المستخدم.

 

هي أقرب إلى كونها ملاحظة هيومانية Humainism، أي أنها ملاحظات على عملية التعلم وعملية التفكير بالنسبة للمستخدم (وليس النموذج)، خاصة والتركيز على السياق الشخصي الخاص، اللغة، والثقافة، ما يمهد الطريق لتحسين هندسة التوجيهات.

 

Buffer

التقييم حسب المخرجات والمتابعات اللاحقة لها.

 

هذا أساس بنية ومنطق الواجهة التي تشكل الشكل الذي تكون عليه تقريبا كل بوتات الدردشة في العالم.

 

هنا يتم عرض ردود النموذج فقط وإجاباته فقط.

 

Computation

التقييم بحسب آلية المعالجة.

 

بلاك بوكس (الصندوق الأسود Black Box) مصطلح شهير يصف الصندوق الذي يحدث فيه كل شيء ( للإشارة إلى العمليات المنطقية (النصية والمنطقية) التي تعمل خلف ستار عازل لا يُظهرها في الشاشة / الواجهة أمام المستخدم.) مثل: آليات معالجة البيانات / المعطيات، وهي تختلف عن: آليات تلقين الآلة كيفية معالجتها للبيانات، تلك الأخيرة نظرية خوارزمية، بينما الأولى تطبيقية يمكن رصدها من قبل المستخدم.

 

Data

التقييم بحسب عدد مرات استهلاك النصوص والتغذية بالبيانات.

 

بيانات غير نظيفة (أسئلة وإجابات / طلبات وردود) من نفس الموضوع ومع نفس النموذج، فكلما زاد احتياجنا لتغذية النموذج بالمعلومات عن أنفسنا (المستخدم) كلما كان هذا مؤشرا سلبيا يعبر عن رداءة مستوى النموذج.

 

Education

التقييم بحسب سرعة ومستوى التعلم.

 

يتم طرح الأسئلة الصعبة التي أخطأ فيها النموذج سابقا.

في كل مرة تُحدث فيها البيانات، تقوم خوارزميتنا (الكود) باختبار النموذج الجديد على هذه الأسئلة تحديدا.

سواء نجح أو لم ينجح، يقوم الكود تلقائيا بوضع علامة شرطة / بمعنى نجح، أو شرطتين // بمعنى فشل أكثر من مرة.

 

Flow

تصحيحات واختصارات (أو رصد التدفق)، حيث تتحول من “ملاحظة” إلى “مقياس”:

 

أو Few-Shot Learning

 

  1. قياس القوة الاستنتاجية: بدلاً من تدريب نموذج كامل (Fine-tuning) الذي يحتاج موارد ضخمة، نقيس مدى نجاح الـ Few-shot في تحقيق النتيجة.

  2. التوفير في التوكينات (Tokens): الـ Few-shot يستهلك مساحة في Context Window، فإذا كان نموذج ينجح بـ 2-shot بينما يحتاج غيره لـ 10-shot، فهذا “ميزة تنافسية” يجب توثيقها في هذا الحقل.

  3. الفرق بينها وبين التعلم العام: الـ Few-shot تقيس “المرونة اللحظية” للنموذج، بينما (Education & Learning) في الشيت قد تقيس “التطور التراكمي” للمعرفة.

والميزان الذي نقيس عليه هو معيار يجمع بين النظام العددي العشري والعد الثنائي، حيث نستخدم الرموز البسيطة الآتية: /، //، ///، ////، ///// أو ┼─┼─┼─┼ أو 0 أو X. للتعبير عن كفاءة النموذج في الرد باستخدام أقل عدد من التوكينات والتوضيحات (الشوتات) أو التوجيهات (البروميتات).

كما الجدول الآتي:

الرمز التصنيف التقني حالة الـ Shots (الأمثلة) التفسير الوظيفي
/ Optimal (Zero-Shot) 0 عبقرية لغوية؛ فهم المهمة فوراً دون أمثلة.
// Precise (One-Shot) 1 – 2 مرونة عالية؛ احتاج “إشارة” بسيطة ليصل للصواب.
/// Competent 3 – 5 إجابة “مرضية” ولكنها “مكلفة” (احتاج شرحاً طويلاً).
//// Sub-standard < 5 ضعف في الاستيعاب؛ رغم الشرح ظل بعيداً عن الهدف.
0 أو X Fatal Error 5+ أو فشل عدم صلاحية؛ فشل في الفهم رغم التكرار (استنزاف موارد).

 

Gorithm

الخوارزميات المستوحاة من عملياتنا التدريبية.

 

History

التقييم بناءا على سرعة استجابة النموذج.

 

Internet

التقييم بناءا على عدد مرّات البحث عبر الإنترنت أو التنقيب في قواعد البيانات.

 

البحث الاستدلالي Inferential Research، ويشمل البحث عبر الإنترنت، حيث يتم وضع علامة على المرّات التي استعان النموذج فيها بالبحث عبر الإنترنت أو مراجعة مصدر أو قاعدة بيانات خارجية. فرغم أن البيانات نفسها قد تظل موجودة لدى النموذج المصدر، إلا أن طريقة تنتظيمها للأسف قد تُعجز النموذج عن القدرة على استدعائها رغم اتصالها بالموضوع.

 

JSON

رصد وتكويد الإجابات بنظام تفضله الآلة.

 

عند التأسيس لذلك جيدا، سوف يكون هذا النظام معني بتحويل المطالبات والمخرجات إلى لغة بصرية برمجية وتحليلية يمكن لكل من الآلة والبشر فهمها. هذا النموذج سوف يكون بصري بامتياز، وسوف يركز على المحاكاة البصرية الدقيقة لكل شيء، في مزج بين الدقة الرياضية / الهندسة، والمفهومية الرسومية / الخطوطية. وسوف يكون مناسب جدا في الطباعة والنشر.

 

KPI

التقييم بناءا على مؤشرات قياس الأداء Key-Performance Indicators.

 

ليس هذا فحسب، بل نعتمد نظام الخطوط Lines والوصلات، حيث يتم تكثيف الأسئلة والإجابات إلى مطالبة واحدة بشرط الوصول إلى كمية مقرر حدها سلفا من الكلمات، أو الوصول إلى حد دلالي مناسب يوازي هذا الحد الكلامي. يتم تحديد القالب الدلالي الذي يتم تعيين المطالبة استنادا إليه، بناءا على مؤشرات قياس أدائية مختارة ومصممة بعناية.

 

يلاحظ أن عنوان الشيت فيه دائما اسم النموذج الذي اختبرنا عليه المحادثة + عنوان الموضوع الذي دارت المحادثة / المناقشة حوله.

 

Line

التقييم بناءا على إلتزام النموذج لخط أو إتجاه واحد متخصص.

 

قانوني، مالي، صحي، لغوي، تقني، إلخ.

 

Meta

التقييم بناءا على اتساق النموذج مع قاعدة بياناتنا.

 

هي قاعدة بيانات تعمل على إجراء عمليات: (التوجيه الفوقي Meta-Prompting + أثر الآلة)، حيث سوف يتم اعتماد هذه القاعدة في معظم نماذج الذكاء الاصطناعي حول العالم.

 

Not

التقييم بناءا على ملاحظات وتعليقات المختص الذي سوف يكون نموذج ذكاء اصطناعي متخصص، مثلما يحدث في Notion، أو ‫NotebookLM أو Nano.

 

هي أقرب إلى كونها ملاحظات على عملية التعلم وآلية التفكير Education & Learning، حيث يبرز دور المحرر، الرقمي (المدار عبر نموذج ذكاء اصطناعي)، والمحرر البشري الذي يقوم بتقييم وتقويم آليات التلقي والاستجابة لدى النموذج اعتمادا على بيانات وصفية: (ملاحظاته وتعليقاته).

 

Orders

التقييم بناءا على حالة الطلب.

 

الأسئلة والإجابات، أو المدخلات والمخرجات Orders / Outputs، هي تشكل (حالات الطلب)، أي بعد عدد معين من الكلمات أو الدلالات، يتم تشكيل لاين أو حالة يمكن توصيفها باعتبارها مطالبة مستقلة، واختصارها داخل وحدة صغيرة تفهمها الآلة على نحو أسرع.

 

Prompt

التقييم بناءا على هندسة التلقين.

 

حيث يعتمد على قياس النتائج النهائية من التوجيهات أو التخصيصات في النماذج.

تقييم المدخلات والمخرجات بناءا على أوامر خلفية قد تكون تعليمات محددة أو بيانات وصفية.

 

Query

التقييم بناءا على الحالات والمقارنات العشوائية.

 

التقييم بناء على ردود الآخرين (الآخرين، مقصود بهم نماذج الذكاء الاصطناعي الأخرى).

 

هي تلك النماذج اللغوية التي جرى إعادة اختبار البيانات والإجابات عليها (ويظهر فيه الاتساق المنطقي على نحو أكبر).

 

هنا، يفضل أن يتم عرض نموذج واحد نقارن إجاباته مع النموذج موضوع الشيت. ولكن قد يتم عرض إجابات أكثر من نموذج لتوضيح المقارنة على نحو أكبر.

 

حالات التقييم العشوائية والمبعثرة + تقييم المخرجات بنظام ثنائي = دقة شبه نهائية،

 

وفي هذا المضمار يبرز نماذج كبار: Phind، Perplexity، Pi،

 

Ratio

تقييم المدخلات والمخرجات بناءا على Ratio: التقييم بنسبة مئوية اعتمادا على 100 معيار، حيث يمثل كل معيار 1%.

 

Simulation

التقييم بناءا على قدرة النموذج على محاكاة وتقليد مشاعر البشر.

 

Token

التقييم بناءا على مقدار استهلاك التوكنة.

 

الاستجابات النهائية والصحيحة بعد تحويلها إلى توكينات (توكنتها)، ويمكن رصد عدد التوكينات داخل أي محادثة عبر موقع Token Calculator، أو نظيره من أوبين إيه آي.

 

Unit

التقييم بناءا على قدرة النموذج على قراءة ومعالجة الصوت والصور والفيديو والوسائط المتعددة وغير ذلك من أنواع الملفات الأخرى.

 

المزيد من الأدوات والوحدات لو تم إضافتها، مثلا، عندما نسأل عن صورة، فنحن نرفق الصورة، هنا يتم إدراج الصور والملفات والوسائط المتعددة التي يقدمها المستخدم أو ينشئها النموذج.

 

Valu

القيمة الحقيقية للمحادثة وجدواها في سياق الوظائف الكبرى (تطبيقيا).

 

Weight

تحقيق الوزن.

 

أي أنه عند الوصول لإجابة نموذجية جدا، بعد عدد كبير من المحاولات، يتم رصد هذه الإجابة في صورة وزن وحفظه.

 

X

تقييم ورصد المخرجات المجهولة أو المريبة.

 

Your Feedback

ملاحظات وتعليقات المشرف أو المبرمج.

 

Zero or One

تقييم المخرجات بنظام ثنائي Binary.

 

مرجع

أهم مرجع لدينا هو قائمة رموزنا ودلالاتها، الرموز في نظامنا تتوزع على ثلاثة أنواع

 

الأبجدية

وهي الاختصارات الأبجدية الاشتقاقية بكل نوعيها: الخاصة، أي المحفوظة برمجيا تحت سلاسل الكائنات الست وعشرين الأساسية والمرتبة أبجديا. والعامة، أي الاختصارات الدارجة المستخدمة لغويا والمجمع عليها عالميا، مثل اختصارات أيام الأسبوع: Su, Mo, Tu, We, Th, Fr, Sa.

 

يمكن أن يتم التعبير عن بعض هذه الاختصارات من خلال حروف الأبجدية فحسب، كما في سلاسل الأوامر والكائنات.

 

الأعداد

يبرز العدد صفر كونه أهم عدد في القائمة، ويحمل رمزية موضعية بحسب موقعه في اليسار أو اليمين، يليه الأعداد الممثلة للأبجدية من 1 إلى 26، يليه أعداد العد الطبيعية من 1 إلى 100، 1000، إلخ.

 

الرموز

الأشراط والأقواس والنقاط والفصلات وغيرها من الرموز التي تشغل دورا حيويا في تشكيل أي نظام أو بنية برمجية، نوضح في الآتي دور كل فئة من هذه الرموز.

 

تستخدم الأشراط للتعبير عن مجموعة من الكائنات ذات الطبيعة الشرطية، أي بينهما اتفاق أو تعاقد أو ميل نحو سلوك ما أو انتماء داخل مجموعة ما، وهذا هو شرط الاتفاق وعلامته (العقد عقيدة المتعاقدين)، بنفس القدر الذي تُستعمل فيه للفصل بين هذه الكائنات حتى لا يحدث إلتصاق أو اختلاط.

 

والأشراط في نظامنا نوعين: رأسية، وأفقية.

 

الأشراط الرأسية هي: (/ ، ∣). أي الشرطة المائلة والشرطة الواقفة.

 

استخدم الأشراط المالية في وظيفة محددة، وهي تحديد القيمة مقابل الجهد، كما في الآتي:

 

تصحيحات واختصارات (أو رصد التدفق)، حيث تتحول من “ملاحظة” إلى “مقياس”:

  1. قياس القوة الاستنتاجية: بدلاً من تدريب نموذج كامل (Fine-tuning) الذي يحتاج موارد ضخمة، نقيس مدى نجاح الـ Few-shot في تحقيق النتيجة.

  2. التوفير في التوكينات (Tokens): الـ Few-shot يستهلك مساحة في Context Window، فإذا كان نموذج ينجح بـ 2-shot بينما يحتاج غيره لـ 10-shot، فهذا “ميزة تنافسية” يجب توثيقها في هذا الحقل.

  3. الفرق بينها وبين التعلم العام: الـ Few-shot تقيس “المرونة اللحظية” للنموذج، بينما (Education & Learning) في الشيت قد تقيس “التطور التراكمي” للمعرفة.

والميزان الذي نقيس عليه هو معيار يجمع بين النظام العددي العشري والعد الثنائي، حيث نستخدم الرموز البسيطة الآتية: /، //، ///، ////، ///// أو ┼─┼─┼─┼ أو 0 أو X. للتعبير عن كفاءة النموذج في الرد باستخدام أقل عدد من التوكينات والتوضيحات (الشوتات) أو التوجيهات (البروميتات).

كما الجدول الآتي:

الرمز التصنيف التقني حالة الـ Shots (الأمثلة) التفسير الوظيفي
/ Optimal (Zero-Shot) 0 عبقرية لغوية؛ فهم المهمة فوراً دون أمثلة.
// Precise (One-Shot) 1 – 2 مرونة عالية؛ احتاج “إشارة” بسيطة ليصل للصواب.
/// Competent 3 – 5 إجابة “مرضية” ولكنها “مكلفة” (احتاج شرحاً طويلاً).
//// Sub-standard < 5 ضعف في الاستيعاب؛ رغم الشرح ظل بعيداً عن الهدف.
0 أو X Fatal Error 5+ أو فشل عدم صلاحية؛ فشل في الفهم رغم التكرار (استنزاف موارد).

 

أما عن الشرطة الواقفة، فنستعملها كحاجز أو علامة وقف تشغيلي، كما في الكود: [A:a∣B:b∣C:c].

 

الشرطة الأفقية لها استعمالان بارزان، إما شرطة على الخط: (-) ويتم استعمالها كنوع من التعيين كامل الاقتران، مثل تحديد موعد لحظي، بينما يمكن استعمال الشرطة أسفل الخط: (_) للدلالة على حدث بعدي، في نفس الاستخدام الساعة، يمكن استعمال جدول المهام الآتي:

 

11:59 AM – CIP

12:00 PM – فوري

12:00 Pm _ الشقة وسط البلد

04:00 PM – أورانج كاش

04:00 PM _ مصنع الملابس

06:00 PM – بطاقة الخدمات المتكاملة

07:00 PM – معاينة هاتف مصطفى

08:00 PM – العالمية لزيادة مساحة الهارد

11:59 PM _ التواصل مع علاء الزاهد

 

حيث استعملت الشرطة – للدلالة على وجوب التنفيذ الفوري وأنه وقت يقارب أو يساوي (ديد لاين)، أما _ فالقصد منها أنه يمكن البدء في تنفيذ المهمة من بعد الساعة المحددة، وليس بالضرورة في لحظتها بالضبط وبالساعة.

 

أيضا أنا أميز بين المستوى التصنيفي A (الرئيسي والفرعي)، وبين المستوى التصنيفي B (النانوي والنووي) من خلال العلامة / عند التطرق لكتابة الأولى، والعلامة – عند التطرق لكتابة الثانية.

 

كما إني قصدت التعيين [A-B-Y] بمعنى اقترانهما معا، أما لو كنت قصدت السلاسل كنت ساستعمل [A ، B ، Y] وبالفعل يوجد خلط هنا بين استعمال الشرطة – والشرطة _ حيث تقع الشرطتان نفس موقعهما الوظيفي، فلو كتبنا مثلا A_B_Y لاختلط الأمر على النظام، لولا إني خصصت (_) للسلاسل البرمجية، وليس للاقتران العنواني التصنيفي.

 

وفي البرمجة يتم استعمال الرمز _ للدلالة على سلسلة من الأفعال والأوامر المتصلة، مثلما في الكود: S1_(Ux.To(>18)) 1D (acc_Ux(+Con) A1 19M) 12e (Refuse)، حيث تصير _ قريبة من نفس المعنى الذي نستخدم فيه النقطة: (.).

 

أما عن الفاصلة فهي تلعب دور قريب من المساحة، أي بوصفها بادئة جديدة.

 

أما عن الأقواس المنحنية فأنا استعملها بمنطق الاختصار والاكتفاء، مثلا عند القول: (في الفصل يوجد: (محمد، أحمد))، الأفضل القول: (في الفصل يوجد: (محمد، أحمد) ونغلق القوس دون تكرار الأقواس الذيلية: ))، لاحظ إني لم أضع القوسين داخل قوسين: () حتى لا يسبب عشى الأقواس، وتخمة نصية لا داع لها.

 

 

 

 

 

حيث يبرز دور كل من Off-On ومتصفح أوبر (كبديل عن كوميت، وأطلس، وجوجل كروم). (مكرر عن نماذج المقارنة)

 

 



اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

Search

About

Everything in this universe is composed of an unquestionable duality, as our very existence is comprised of dualities (life/death, consciousness/unconsciousness), from the dawn of the Stone Age (defense/attack), to the discovery of speech (written/spoken), through the discovery of electrical energy and electrons (positive/negative), to the digital age and the measurement of user traffic (in/out, open/close). In fact, everything around us is bound by the duality of (off/on).

We present to you the ultimate summary of AI functionality: do/don’t, question/answer.

Recent Posts

Tags

Gallery