▎AI ומרובה סוכנים
בינה מלאכותית חוקתית/ CAI
גישת יישור שבה התנהגות המודל מעוצבת על ידי עקרונות כתובים וביקורת עצמית במקום רק תוויות אנושיות.
הגדרה
בינה מלאכותית חוקתית היא גישת יישור שבה התנהגות המודל מעוצבת על ידי עקרונות כתובים וביקורת עצמית במקום רק תוויות אנושיות. ביישומי הגנה, היא מקודדת אילוצים דמויי דוקטרינה, כללי בטיחות ונורמות הסלמה לתוך לולאת שיפור המודל. החלק הקשה הוא עמימות העקרונות ופערים בין אילוצים כתובים למקרי קצה מבצעיים, במיוחד כאשר מערכות נפרסות על פני קישורים שנויים במחלוקת, גבולות קואליציה וצוותים מעורבים של אדם-מכונה. KhanBMS מתייחסת אליה כפיגום שימושי למעקות הבטיחות של KhanBMS כאשר היא משולבת עם סמכות פיקוד אנושית, ובכך קושרת את הרעיון בחזרה לפיקוד מודולרי, ביצוע בקצה וסמכות ניתנת לביקורת.
מאפייני הפניה
- שכבה
- שיטת יישור מבוססת עקרונות
- ערך מבצעי
- מקודדת אילוצים דמויי דוקטרינה, כללי בטיחות ונורמות הסלמה לתוך לולאת שיפור המודל
- סיכון עיקרי
- עמימות עקרונות ופערים בין אילוצים כתובים למקרי קצה מבצעיים
- תפקיד KhanBMS
- פיגום שימושי למעקות הבטיחות של KhanBMS כאשר הוא משולב עם סמכות פיקוד אנושית
מונחים קשורים
- למידת חיזוק ממשוב אנושי (RLHF)שיטת יישור המשתמשת בנתוני העדפות אנושיות לעיצוב התנהגות מודל לאחר אימון מקדים.
- מגבלות מדיניותבקרות דטרמיניסטיות ומבוססות מודל המגבילות את מה שמערכות בינה מלאכותית רשאיות לומר, להחליט או לבצע.
- בינה מלאכותית אחראית להגנה (RAI)פרקטיקות ממשל המיישרות קו בין בינה מלאכותית צבאית לשימוש חוקי, אתי, אמין ואחראי.
- היגיון מבוסס דוקטרינההיגיון בינה מלאכותית המבוסס על דוקטרינה סמכותית, טקטיקות, כללי פתיחה באש (ROE) ונהלי הפעלה יחידתיים.
#llm#safety#doctrine
