▎AI ומרובה סוכנים
למידת חיזוק מרובת סוכנים/ MARL
מסגרת למידת חיזוק שבה סוכנים מרובים לומדים יחד התנהגות שיתופית או יריבה.
הגדרה
למידת חיזוק מרובת סוכנים היא מסגרת למידת חיזוק שבה סוכנים מרובים לומדים יחד התנהגות שיתופית או יריבה. ביישומי הגנה, היא מאמנת נחילים, כנפים נאמנים, מדיניות לוחמה אלקטרונית (EW), והתנהגויות צוות אדום תחת דינמיקות אינטראקטיביות. הקושי טמון באי-סטציונריות, הקצאת קרדיט, והעברה מסימולציה למציאות (sim-to-real transfer), במיוחד כאשר מערכות נפרסות על פני קישורים שנויים במחלוקת, גבולות קואליציוניים וצוותים מעורבים של אדם-מכונה. KhanBMS מתייחסת לכך כשכבת מחולל התנהגות הכפופה לכוונת פיקוד ולהבטחת זמן ריצה, ומקשרת את הרעיון בחזרה לפיקוד מודולרי, ביצוע בקצה, וסמכות ניתנת לביקורת.
מאפייני הפניה
- שכבה
- מסגרת למידה
- ערך מבצעי
- מאמן נחילים, כנפים נאמנים, מדיניות לוחמה אלקטרונית (EW), והתנהגויות צוות אדום תחת דינמיקות אינטראקטיביות
- סיכון עיקרי
- אי-סטציונריות, הקצאת קרדיט, והעברה מסימולציה למציאות
- תפקיד KhanBMS
- שכבת מחולל התנהגות הכפופה לכוונת פיקוד ולהבטחת זמן ריצה
מונחים קשורים
- אימון ריכוזי, ביצוע מבוזר (CTDE)תבנית אימון שבה סוכנים לומדים עם מידע גלובלי משותף אך נפרסים תוך שימוש בתצפיות מקומיות.
- אימון במשחק עצמישיטת אימון שבה סוכנים משתפרים על ידי תחרות או שיתוף פעולה מול גרסאות של עצמם.
- אינטליגנציית נחילהתנהגות קולקטיבית הנובעת מסוכנים מקומיים רבים במקום מבקר מרכזי יחיד.
- בינה מלאכותית מסימולציה למציאות (Sim2Real)טכניקות המעבירות התנהגות בינה מלאכותית שאומנה בסימולציה לפלטפורמות פיזיות ולפעולות מבצעיות אמיתיות.
#ml#swarm#autonomy
