▎AI ומרובה סוכנים

הנחיה עוינת

קלט שנועד לאלץ מודל שפה או סוכן להתנהגות לא בטוחה, בלתי מורשית או שקרית.

הגדרה

הנחיה עוינת היא קלט שנועד לאלץ מודל שפה או סוכן להתנהגות לא בטוחה, בלתי מורשית או שקרית. ביישומי הגנה, היא מכוונת לעוזרי מטה, מנתחי מסמכים וסוכנים המשתמשים בכלים באמצעות שפה טבעית. הקושי טמון בהוראות נסתרות בתוך נתוני משימה הנראים תמימים, במיוחד כאשר מערכות נפרסות על פני קישורים שנויים במחלוקת, גבולות קואליציה וצוותים מעורבים של אדם-מכונה. KhanBMS מתייחס לכך כסיבה מרכזית לכך ש-KhanBMS מפריד תוכן בלתי מהימן ממדיניות פיקוד, ומקשר את הרעיון בחזרה לפיקוד מודולרי, ביצוע בקצה וסמכות ניתנת לביקורת.

מאפייני הפניה

שכבה: שיטת תקיפה של LLM
ערך מבצעי: מכוון לעוזרי מטה, מנתחי מסמכים וסוכנים המשתמשים בכלים באמצעות שפה טבעית
סיכון עיקרי: הוראות נסתרות בתוך נתוני משימה הנראים תמימים
תפקיד KhanBMS: סיבה מרכזית לכך ש-KhanBMS מפריד תוכן בלתי מהימן ממדיניות פיקוד

מונחים קשורים

#security#llm#agents