▎AI ומרובה סוכנים
עמידות בפני פריצת מגבלות
הגנות המונעות ממשתמשים או קלטים לעקוף מגבלות בטיחות ומדיניות של מודלים.
הגדרה
עמידות בפני פריצת מגבלות היא מערך הגנות המונע ממשתמשים או קלטים לעקוף מגבלות בטיחות ומדיניות של מודלים. ביישומי הגנה, היא מונעת מעוזרים לחשוף סודות, להפר כללי פתיחה באש (ROE), או לעשות שימוש לרעה בכלים. האתגר טמון בהתפתחות מהירה של הנחיות תקיפה (attack prompts) ובהסתמכות יתר על טקסט סירוב של המודל, במיוחד כאשר מערכות פרוסות על פני קישורים שנויים במחלוקת, גבולות קואליציוניים וצוותים מעורבים של אדם-מכונה. KhanBMS מתייחס לכך כאל בקרת שכבות המשלבת הנחיות (prompts), כלים, מנועי מדיניות ויומנים, ומקשר את הרעיון לפיקוד מודולרי, ביצוע בקצה (edge execution) וסמכות ניתנת לביקורת.
מאפייני הפניה
- שכבה
- בקרת אבטחה של LLM
- ערך מבצעי
- מונע מעוזרים לחשוף סודות, להפר כללי פתיחה באש (ROE), או לעשות שימוש לרעה בכלים
- סיכון עיקרי
- התפתחות מהירה של הנחיות תקיפה (attack prompts) והסתמכות יתר על טקסט סירוב של המודל
- תפקיד KhanBMS
- בקרת שכבות המשלבת הנחיות (prompts), כלים, מנועי מדיניות ויומנים
מונחים קשורים
- הגנה מפני הזרקת הנחיותבקרות המונעות מטקסט או תוכן בלתי מהימן לעקוף את הוראות המערכת או הכלים של סוכן מודל.
- הנחיה עוינתקלט שנועד לאלץ מודל שפה או סוכן להתנהגות לא בטוחה, בלתי מורשית או שקרית.
- מגבלות מדיניותבקרות דטרמיניסטיות ומבוססות מודל המגבילות את מה שמערכות בינה מלאכותית רשאיות לומר, להחליט או לבצע.
- צוות אדום לבינה מלאכותיתבדיקות יריבות מובנות של מערכות בינה מלאכותית לחשיפת התנהגות לא בטוחה, מוטה, ניתנת לניצול או שבירה.
#security#llm#safety
