Contextual object detection with multimodal large language models

Recent Multimodal Large Language Models (MLLMs) are remarkable in vision-language tasks, such as image captioning and question answering, but lack the essential perception ability, i.e., object detection. In this work, we address this limitation by introducing a novel research problem of contextual...

وصف كامل

محفوظ في:
التفاصيل البيبلوغرافية
المؤلفون الرئيسيون: Zang, Yuhang, Li, Wei, Han, Jun, Zhou, Kaiyang, Loy, Chen Change
مؤلفون آخرون: College of Computing and Data Science
التنسيق: مقال
اللغة:English
منشور في: 2024
الموضوعات:
الوصول للمادة أونلاين:https://hdl.handle.net/10356/181063
الوسوم: إضافة وسم
لا توجد وسوم, كن أول من يضع وسما على هذه التسجيلة!