▎AI ומרובה סוכנים
למידת חיזוק ממשוב אנושי/ RLHF
שיטת יישור המשתמשת בנתוני העדפות אנושיות לעיצוב התנהגות מודל לאחר אימון מקדים.
הגדרה
למידת חיזוק ממשוב אנושי היא שיטת יישור המשתמשת בנתוני העדפות אנושיות לעיצוב התנהגות מודל לאחר אימון מקדים. ביישומים ביטחוניים, היא הופכת עוזרים ליעילים יותר, פחות רעילים, ובעלי סבירות גבוהה יותר לציית להוראות המפעיל. הקושי טמון בפריצת תגמולים (reward hacking), הטיית העדפות, והעברה לקויה להקשרים צבאיים בעלי סיכון גבוה, במיוחד כאשר מערכות נפרסות על פני קישורים שנויים במחלוקת, גבולות קואליציוניים, וצוותים מעורבים של אדם-מכונה. KhanBMS מתייחסת לכך כאות אימון שיש לשלב עם דוקטרינה, יומני ביקורת, ומגבלות סמכות מפורשות, ובכך מקשרת את הרעיון לפיקוד מודולרי, ביצוע בקצה, וסמכות ניתנת לביקורת.
מאפייני הפניה
- שכבה
- שיטת אימון ליישור
- ערך תפעולי
- הופך עוזרים ליעילים יותר, פחות רעילים, ובעלי סבירות גבוהה יותר לציית להוראות המפעיל
- סיכון עיקרי
- פריצת תגמולים (reward hacking), הטיית העדפות, והעברה לקויה להקשרים צבאיים בעלי סיכון גבוה
- תפקיד KhanBMS
- אות אימון שיש לשלב עם דוקטרינה, יומני ביקורת, ומגבלות סמכות מפורשות
מונחים קשורים
- בינה מלאכותית חוקתית (CAI)גישת יישור שבה התנהגות המודל מעוצבת על ידי עקרונות כתובים וביקורת עצמית במקום רק תוויות אנושיות.
- מגבלות מדיניותבקרות דטרמיניסטיות ומבוססות מודל המגבילות את מה שמערכות בינה מלאכותית רשאיות לומר, להחליט או לבצע.
- בינה מלאכותית אחראית להגנה (RAI)פרקטיקות ממשל המיישרות קו בין בינה מלאכותית צבאית לשימוש חוקי, אתי, אמין ואחראי.
- כיול ביטחוןהבטחת התאמה בין ציוני ביטחון של מודל לבין הסבירות האמיתית לנכונות בעולם האמיתי.
#llm#safety#training
