▎AI ומרובה סוכנים

למידת חיזוק ממשוב אנושי/ RLHF

שיטת יישור המשתמשת בנתוני העדפות אנושיות לעיצוב התנהגות מודל לאחר אימון מקדים.

הגדרה

למידת חיזוק ממשוב אנושי היא שיטת יישור המשתמשת בנתוני העדפות אנושיות לעיצוב התנהגות מודל לאחר אימון מקדים. ביישומים ביטחוניים, היא הופכת עוזרים ליעילים יותר, פחות רעילים, ובעלי סבירות גבוהה יותר לציית להוראות המפעיל. הקושי טמון בפריצת תגמולים (reward hacking), הטיית העדפות, והעברה לקויה להקשרים צבאיים בעלי סיכון גבוה, במיוחד כאשר מערכות נפרסות על פני קישורים שנויים במחלוקת, גבולות קואליציוניים, וצוותים מעורבים של אדם-מכונה. KhanBMS מתייחסת לכך כאות אימון שיש לשלב עם דוקטרינה, יומני ביקורת, ומגבלות סמכות מפורשות, ובכך מקשרת את הרעיון לפיקוד מודולרי, ביצוע בקצה, וסמכות ניתנת לביקורת.

מאפייני הפניה

שכבה: שיטת אימון ליישור
ערך תפעולי: הופך עוזרים ליעילים יותר, פחות רעילים, ובעלי סבירות גבוהה יותר לציית להוראות המפעיל
סיכון עיקרי: פריצת תגמולים (reward hacking), הטיית העדפות, והעברה לקויה להקשרים צבאיים בעלי סיכון גבוה
תפקיד KhanBMS: אות אימון שיש לשלב עם דוקטרינה, יומני ביקורת, ומגבלות סמכות מפורשות

מונחים קשורים

#llm#safety#training