▎AI ומרובה סוכנים
פרשנות מנגנונית
ניתוח מעגלים פנימיים, מאפיינים וייצוגים של רשתות נוירונים להבנת התנהגות מודלים.
הגדרה
פרשנות מנגנונית היא ניתוח מעגלים פנימיים, מאפיינים וייצוגים של רשתות נוירונים להבנת התנהגות מודלים. ביישומי הגנה, היא יכולה לחשוף יכולות נסתרות, התנהגות מטעה או טריגרים לא בטוחים במודלים מתקדמים. הקושי העיקרי טמון בשיטות לא בשלות ובכיסוי חלש למערכות מולטימודליות גדולות, במיוחד כאשר מערכות נפרסות על פני קישורים שנויים במחלוקת, גבולות קואליציוניים וצוותים מעורבים של אדם-מכונה. KhanBMS מתייחס לכך ככלי ברמת מחקר לאימות רכיבי AI בעלי אמון גבוה של KhanBMS, המקשר את הרעיון בחזרה לפיקוד מודולרי, ביצוע בקצה וסמכות ניתנת לביקורת.
מאפייני הפניה
- שכבה
- דיסציפלינת ניתוח מודלים עמוקים
- ערך מבצעי
- יכולה לחשוף יכולות נסתרות, התנהגות מטעה או טריגרים לא בטוחים במודלים מתקדמים
- סיכון עיקרי
- שיטות לא בשלות וכיסוי חלש למערכות מולטימודליות גדולות
- תפקיד KhanBMS
- כלי ברמת מחקר לאימות רכיבי AI בעלי אמון גבוה של KhanBMS
מונחים קשורים
- בינה מלאכותית ניתנת להסבר (XAI)שיטות המציגות מדוע מערכת בינה מלאכותית הפיקה חיזוי, המלצה או פעולה.
- צוות אדום לבינה מלאכותיתבדיקות יריבות מובנות של מערכות בינה מלאכותית לחשיפת התנהגות לא בטוחה, מוטה, ניתנת לניצול או שבירה.
- למידת מכונה יריבית (AML)חקר והגנה מפני התקפות המבצעות מניפולציה בבינה מלאכותית באמצעות קלטים מתוכננים, נתונים מזוהמים או גניבת מודל.
- נראות מודלניטור קלט, פלט, סחיפה, שיהוי, ביטחון וכשלים של מודל לאחר פריסתו.
#trust#security#research
