▎AI ומרובה סוכנים

עמידות בפני פריצת מגבלות

הגנות המונעות ממשתמשים או קלטים לעקוף מגבלות בטיחות ומדיניות של מודלים.

הגדרה

עמידות בפני פריצת מגבלות היא מערך הגנות המונע ממשתמשים או קלטים לעקוף מגבלות בטיחות ומדיניות של מודלים. ביישומי הגנה, היא מונעת מעוזרים לחשוף סודות, להפר כללי פתיחה באש (ROE), או לעשות שימוש לרעה בכלים. האתגר טמון בהתפתחות מהירה של הנחיות תקיפה (attack prompts) ובהסתמכות יתר על טקסט סירוב של המודל, במיוחד כאשר מערכות פרוסות על פני קישורים שנויים במחלוקת, גבולות קואליציוניים וצוותים מעורבים של אדם-מכונה. KhanBMS מתייחס לכך כאל בקרת שכבות המשלבת הנחיות (prompts), כלים, מנועי מדיניות ויומנים, ומקשר את הרעיון לפיקוד מודולרי, ביצוע בקצה (edge execution) וסמכות ניתנת לביקורת.

מאפייני הפניה

שכבה: בקרת אבטחה של LLM
ערך מבצעי: מונע מעוזרים לחשוף סודות, להפר כללי פתיחה באש (ROE), או לעשות שימוש לרעה בכלים
סיכון עיקרי: התפתחות מהירה של הנחיות תקיפה (attack prompts) והסתמכות יתר על טקסט סירוב של המודל
תפקיד KhanBMS: בקרת שכבות המשלבת הנחיות (prompts), כלים, מנועי מדיניות ויומנים

מונחים קשורים

#security#llm#safety