▎AI ומרובה סוכנים
הנחיה עוינת
קלט שנועד לאלץ מודל שפה או סוכן להתנהגות לא בטוחה, בלתי מורשית או שקרית.
הגדרה
הנחיה עוינת היא קלט שנועד לאלץ מודל שפה או סוכן להתנהגות לא בטוחה, בלתי מורשית או שקרית. ביישומי הגנה, היא מכוונת לעוזרי מטה, מנתחי מסמכים וסוכנים המשתמשים בכלים באמצעות שפה טבעית. הקושי טמון בהוראות נסתרות בתוך נתוני משימה הנראים תמימים, במיוחד כאשר מערכות נפרסות על פני קישורים שנויים במחלוקת, גבולות קואליציה וצוותים מעורבים של אדם-מכונה. KhanBMS מתייחס לכך כסיבה מרכזית לכך ש-KhanBMS מפריד תוכן בלתי מהימן ממדיניות פיקוד, ומקשר את הרעיון בחזרה לפיקוד מודולרי, ביצוע בקצה וסמכות ניתנת לביקורת.
מאפייני הפניה
- שכבה
- שיטת תקיפה של LLM
- ערך מבצעי
- מכוון לעוזרי מטה, מנתחי מסמכים וסוכנים המשתמשים בכלים באמצעות שפה טבעית
- סיכון עיקרי
- הוראות נסתרות בתוך נתוני משימה הנראים תמימים
- תפקיד KhanBMS
- סיבה מרכזית לכך ש-KhanBMS מפריד תוכן בלתי מהימן ממדיניות פיקוד
מונחים קשורים
- הגנה מפני הזרקת הנחיותבקרות המונעות מטקסט או תוכן בלתי מהימן לעקוף את הוראות המערכת או הכלים של סוכן מודל.
- עמידות בפני פריצת מגבלותהגנות המונעות ממשתמשים או קלטים לעקוף מגבלות בטיחות ומדיניות של מודלים.
- סוכנים מבוססי-כליםסוכנים המפעילים ממשקי API חיצוניים, מסדי נתונים, סימולטורים, חיישנים או מפעילים (אפקטורים) לביצוע משימות.
- צוות אדום לבינה מלאכותיתבדיקות יריבות מובנות של מערכות בינה מלאכותית לחשיפת התנהגות לא בטוחה, מוטה, ניתנת לניצול או שבירה.
#security#llm#agents
