AI ומרובה סוכנים

מודלי ראייה-שפה/ VLM

מודלים רב-מודאליים המפרשים יחד תמונות ושפה לצורך מענה על שאלות חזותיות והסבר סצנות.

הגדרה

מודלי ראייה-שפה הם מודלים רב-מודאליים המפרשים יחד תמונות ושפה לצורך מענה על שאלות חזותיות והסבר סצנות. ביישומים ביטחוניים, הם מאפשרים למפעילים לשאול שאלות על מסגרות ISR, וידאו רחפנים, מפות ותמונות מתויגות בשפה טבעית. האתגרים העיקריים הם כיתובים שגויים, תיקונים יריביים (adversarial patches), וכיול חלש על אובייקטים צבאיים נדירים, במיוחד כאשר מערכות נפרסות על פני קישורים שנויים במחלוקת, גבולות קואליציוניים וצוותים מעורבים של אדם-מכונה. KhanBMS מתייחס לכך כאל עוזר תפיסה המשולב עם מקוריות (provenance), ביטחון (confidence) ושערי סקירה אנושית, הקושר את הקונספט בחזרה לפיקוד מודולרי, ביצוע בקצה (edge execution) וסמכות ניתנת לביקורת.

מאפייני הפניה

שכבה
שכבת תפיסה רב-מודאלית
ערך מבצעי
מאפשר למפעילים לשאול שאלות על מסגרות ISR, וידאו רחפנים, מפות ותמונות מתויגות בשפה טבעית
סיכון עיקרי
כיתובים שגויים, תיקונים יריביים, וכיול חלש על אובייקטים צבאיים נדירים
תפקיד KhanBMS
עוזר תפיסה המשולב עם מקוריות, ביטחון ושערי סקירה אנושית

מונחים קשורים

#perception#llm#multimodal