انتقل إلى المحتوى الرئيسي

المصطلحات الأساسية

فهم المصطلحات التقنية أمر ضروري للتعامل مع النماذج اللغوية بفعالية.

المعاملات (Parameters)

المعاملات هي القيم القابلة للتعديل داخل النموذج والتي يتم ضبطها أثناء عملية التدريب. عدد المعاملات يعكس حجم وتعقيد النموذج - كلما زاد عدد المعاملات زادت قدرة النموذج النظرية على التعلم (مع زيادة متطلبات الحوسبة). تتراوح النماذج اللغوية الحديثة من ملايين إلى مئات المليارات من المعاملات، حيث تعتبر النماذج ذات 7 مليار معامل أو أكثر من النماذج الكبيرة.

الرموز (Tokens)

الرموز هي الوحدات الأساسية التي يفهمها النموذج اللغوي. قد تكون الرموز كلمات، أجزاء من كلمات، أحرف، أو حتى علامات ترقيم. طول السياق يُقاس بعدد الرموز وليس عدد الكلمات أو الأحرف. في اللغة العربية، قد يختلف ترميز الكلمات بناءً على طريقة التجزئة المستخدمة في النموذج، وهذا يؤثر على كفاءة معالجة النصوص العربية.

السياق (Context)

السياق هو كمية النص التي يمكن للنموذج اللغوي معالجتها في وقت واحد. يُقاس بعدد الرموز ويؤثر على قدرة النموذج على فهم النصوص الطويلة والحفاظ على الاتساق. تختلف سعة السياق بين النماذج المختلفة من 2048 رمزًا في النماذج الأقدم إلى أكثر من 100,000 رمز في أحدث النماذج، مما يتيح تحليل وثائق طويلة ومحادثات معقدة.

الحرارة والاحتمالية (Temperature & Probability)

الحرارة هي معامل يتحكم في عشوائية مخرجات النموذج. قيم الحرارة المنخفضة تجعل المخرجات أكثر قابلية للتنبؤ بينما القيم الأعلى تزيد من الإبداع والتنوع. عند الحرارة 0، يختار النموذج دائمًا الكلمة الأكثر احتمالًا، بينما مع ارتفاع الحرارة، يصبح اختيار الكلمات الأقل احتمالًا أكثر وارداً، مما يؤدي إلى نتائج متنوعة وأحيانًا مفاجئة.

الاستدلال (Inference)

الاستدلال هو عملية استخدام النموذج المدرب لتوليد مخرجات جديدة. تتطلب عملية الاستدلال موارد حاسوبية أقل من التدريب لكنها تظل عملية مكلفة حسابيًا للنماذج الكبيرة. سرعة الاستدلال تعتمد على حجم النموذج، نوع الأجهزة المستخدمة، وتقنيات التحسين المطبقة مثل التكميم وتقنيات الذاكرة المتقدمة.