یک مدل چندوجهی تصویر-متن چگونه کار می‌کند؟

این روزها شاهد رشد چشم‌گیر مدل‌های پایه چندوجهی (Multi-modality Foundation Models) هستیم. این مدل‌ها قادرند انواع داده‌ مثل متن، تصویر، ویدیو و صدا را درک کنند و وظایفی را انجام دهند که نیاز به ترکیب دانش از چند نوع داده دارند. اما تا حالا فکر کرده‌اید این مدل‌ها دقیقا چطور کار می‌کنند؟ کلید درک یک مدل چندوجهی تصویر-متن این است که بفهمیم چطور بین داده‌های مختلف نوعی هم‌ترازی یا «هم‌راستاسازی» ایجاد می‌کند.

در این مقاله با استفاده از یک مدل ساده‌ دووجهی متن–تصویر به نام CoCa، سازوکار درونی این مدل‌ها را بررسی می‌کنیم. مدل CoCa طراحی شهودی و ساده‌ای دارد و ایده‌هایش را از چند مدل چندوجهی دیگر وام گرفته است؛ به همین دلیل مثال خوبی برای درک مفاهیم اصلی به شمار می‌آید.

چرا به مدل‌های متن–تصویر نیاز داریم؟

پیش از آنکه به این بپردازیم که چرا به مدل‌های چندوجهی متن–تصویر نیاز داریم، بهتر است نگاهی بیندازیم به اینکه یک مدل تک‌وجهی چه کارهایی می‌تواند و چه کارهایی نمی‌تواند انجام دهد.

مدل مبتنی بر تصویر

مدلی که فقط با داده‌های تصویری آموزش دیده، مثل ResNet، تنها از تصویر یاد می‌گیرد و می‌تواند وظایف پایه‌ای درک تصویر را انجام دهد؛ مثلا در دسته‌بندی تصویر (Image Classification)، یک تصویر را در یکی از کلاس‌های از پیش تعریف‌شده مثل «گربه» یا «سگ» طبقه‌بندی می‌کند.

مدل مبتنی بر متن

مدلی که فقط با داده‌های متنی آموزش دیده، مثل Transformer، تنها از متن یاد می‌گیرد و می‌تواند وظایفی مثل پیش‌بینی کلمه بعدی بر اساس کلمات قبلی را انجام دهد.

پیشنهاد مطالعه: درک تفاوت میان شناسایی، تشخیص و بخش‌بندی اشیا در پردازش تصویر

کاربردهایی که مدل‌های تک‌وجهی از پس آن برنمی‌آیند

کاربردهایی که مدل های تک وجهی از پس آن برنمی آیند

دو مدل تک‌وجهی بالا (یکی مخصوص تصویر و دیگری مخصوص متن) نمی‌توانند از پس بعضی از وظایف برآیند. برای مثال، فرض کنید تصویری از دو سگ در حال دویدن داریم.

در جست‌وجوی تصویر بر اساس متن

فرض کنید می‌خواهید تصاویری پیدا کنید که با عبارت «سگ‌هایی که در حال دویدن هستند» مطابقت دارند. مدل مبتنی بر تصویر مثل ResNet فقط می‌تواند این تصویر را در دسته‌ «سگ» قرار دهد اما اصلا ورودی متنی نمی‌پذیرد. بنابراین نمی‌تواند به پرس‌وجوی متنی پاسخ دهد یا تصاویر مرتبط با عبارت شما را پیدا کند.

جست‌وجوی تصاویر مشابه

فرض کنید می‌خواهید با دادن همین تصویر، تصاویر مشابهی بیابید. بهترین کاری که یک مدل تک‌وجهی تصویر می‌تواند بکند این است که تصاویری از همان کلاس «سگ» را نمایش دهد اما نمی‌تواند دقیق‌تر عمل کند و تصاویری از «سگ‌های در حال دویدن» را پیدا کند.

تولید توضیح (Caption) برای تصویر

اگر از مدل بخواهید بر اساس این تصویر جمله‌ای توضیحی تولید کند مثلا «دو سگ در حال دویدن کنار هم روی شن»، هیچ‌یک از مدل‌های بالا از عهده‌اش برنمی‌آیند. مدل تصویری فقط می‌تواند بگوید «سگ» و مدل متنی هم چون ورودی‌اش فقط متن است، تصویر را درک نمی‌کند.

پاسخ به پرسش‌های تصویری

در این حالت مدل باید با دریافت یک تصویر و یک پرسش متنی، پاسخ دهد. مثلا اگر تصویر بالا را به همراه سوال «چه کسی کنار سگ سمت چپ در حال دویدن است؟» بدهیم، پاسخ درست «سگ دیگر» است. اما هیچ‌یک از مدل‌های تک‌وجهی نمی‌توانند چنین کاری کنند، چون نه مدل تصویری ورودی متنی می‌پذیرد و نه مدل متنی می‌تواند تصویر را تفسیر کند.

برای انجام چنین وظایفی، مدل باید هم تصویر و هم متن را بفهمد و بتواند این دو نوع داده را در یک فضای مشترک هم‌تراز کند. به عبارت دیگر، مدل باید بداند که تصویر و توضیح متنی مربوط به آن، درباره‌ یک مفهوم واحد هستند؛ مثلا «دو سگ در حال دویدن کنار هم».

این هم‌راستاسازی باید در دو سطح انجام شود:

سطح کلان (Global level): یعنی درک مفهوم کلی تصویر و متن، مثلا همان «دو سگ در حال دویدن کنار هم».
سطح خرد (Local level): یعنی مدل بتواند بفهمد هر بخش از تصویر به چه چیزی اشاره دارد؛ مثلا این بخش مربوط به سگ اول است، آن بخش مربوط به سگ دوم و بخشی دیگر نشان می‌دهد که آن‌ها در حال دویدن‌اند. در متن هم باید درک کند که کلمات مربوط به چند سگ و فعل دویدن هستند.

چطور اطلاعات کلی (Global) تصویر و متن هم‌تراز می‌شوند

نمودار زیر نشان می‌دهد که چطور می‌توان اطلاعات سطح کلان و خرد (Global و Local) را هم برای تصویر و هم برای متن نمایش داد و چطور در سطح کلان می‌توان بین تصویر و متن هم‌ترازی برقرار کرد. در ادامه، دقیق‌تر خواهیم دید منظور از این هم‌ترازی چیست.

نمودار بالا نشان می‌دهد که در زمان آموزش، وقتی مدل یک جفت ورودی شامل تصویر و متن (imageᵢ, textᵢ) دریافت می‌کند، چه اتفاقی می‌افتد.

اندیس «i» نشان می‌دهد که این جفت، یکی از چندین جفت تصویر–متن موجود در یک mini-batch است که مدل در هر مرحله‌ آموزش با آن‌ها کار می‌کند.

گام ۱: پردازش تصویر

ورودی imageᵢ یک تصویر رنگی با اندازه‌ ثابت ۲۸۸×۲۸۸ پیکسل و سه کانال رنگی RGB است.

این تصویر ابتدا وارد یک کدگذار Vision Transformer (ViT) می‌شود و سپس از یک بخش attention pooling عبور می‌کند. خروجی این دو مرحله، یک تنسور با ابعاد ۲۵۷×۵۱۲ است.

در ادامه‌ مقاله جزئیات این تبدیل توضیح داده می‌شود اما فعلا کافی است بدانیم که این فرایند، تصویر را به ۲۵۶ پچ کوچک (Patch) تقسیم می‌کند، سپس یک پچ مخصوص کلاس (Class Patch) به انتهای فهرست اضافه می‌کند.
سپس، با استفاده از مکانیزم Attention، اطلاعات بین تمام پچ‌ها ترکیب می‌شود تا مدل بتواند درکی یکپارچه از تصویر پیدا کند.

مدل خروجی ۲۵۷×۵۱۲ را به دو بخش تقسیم می‌کند:

۱. img_tokensᵢ (ابعاد ۲۵۶×۵۱۲)

شامل ۲۵۶ پچ رمزگذاری‌شده‌ تصویر است و بیانگر اطلاعات سطح خرد (Local) تصویر محسوب می‌شود.

۲. img_clsᵢ (ابعاد ۱×۵۱۲)

این ردیف آخر، همان پچ اضافه‌شده‌ کلاس است و نماینده‌ اطلاعات سطح کلان (Global) تصویر است. اهمیت این بردار در آن است که خلاصه‌ای فشرده از کل تصویر ارائه می‌دهد؛ فارغ از اینکه تصویر به چند پچ تقسیم شده باشد.
در این مدل، تعداد پچ‌ها همیشه ۲۵۶ است اما اگر در آینده اندازه‌ ورودی یا تعداد پچ‌ها تغییر کند، این بردار ثابت (img_clsᵢ) همچنان نقش خلاصه‌ تصویر را حفظ خواهد کرد.

۳. چرا از ردیف آخر برای سطح کلان استفاده می‌شود؟

این انتخاب صرفا به دلیل سادگی در پیاده‌سازی انجام شده است. از نظر مفهومی، هر ردیفی می‌تواند نماینده‌ اطلاعات سطح کلان باشد اما انتخاب ردیف آخر باعث می‌شود کار با داده‌ها در PyTorch ساده‌تر شود. در PyTorch، انتخاب یا حذف آخرین ردیف از یک تنسور، عملی بسیار متداول و سریع است؛ بنابراین این تصمیم جنبه‌ عملیاتی و بهینه‌سازی در کدنویسی دارد، نه مفهومی.

گام ۲: پردازش متن

ورودی متنی textᵢ یک جمله‌ پد شده (padded) است که حداکثر شامل ۳۹۷ کلمه می‌شود. عدد ۳۹۷ در اینجا یک مقدار دلخواه است و نشان‌دهنده‌ حداکثر طول متنی است که مدل ما از آن پشتیبانی می‌کند. برای متونی که کمتر از ۳۹۷ کلمه دارند، کلمات پدینگ با نماد PAD در انتهای متن اصلی اضافه می‌شوند. سه کلمه‌ خاص START، END و CLS نیز به جمله افزوده می‌شوند. توجه داشته باشید که این کلمات خاص دقیقا مانند سایر کلمات موجود در واژگان مدل در نظر گرفته می‌شوند.

برای مثال، پس از اضافه شدن کلمات خاص ذکرشده، جمله‌

“w₁ w₂ w₃”

به شکل زیر درمی‌آید:

“START w₁ w₂ w₃ PAD PAD … END CLS”.

در نتیجه، ورودی متنی دارای ۴۰۰ کلمه خواهد بود:

کلمه‌ START نشان‌دهنده‌ آغاز متن است.
کلمه‌ END نشان‌دهنده‌ پایان متن است.
کلمه‌ CLS نماینده‌ اطلاعات کلی (global textual information) متن است.

توجه داشته باشید که ورودی متنی textᵢ یک تنسور با ابعاد ۴۰۰×۵۱۲ است، بنابراین یک جمله‌ انگلیسی معمولی نیست. هر سطر از این تنسور، امبدینگ یک کلمه را نمایش می‌دهد. یک مدل امبدکننده واژه (word embedder) که به‌صورت جداگانه آموزش دیده است، این امبدینگ‌ها را تولید می‌کند.

این امبدکننده واژه، شاخص واژگانی هر کلمه، چه کلمات معمولی مانند «two» و «dogs» و چه کلمات خاص مانند START، END، PAD و CLS را دریافت می‌کند و آن را به یک بردار ۵۱۲‌بعدی تبدیل می‌کند.

«شاخص واژگانی» یک عدد صحیح است که به هر کلمه در واژگان انگلیسی اختصاص داده شده است.

برای مثال، کلمه‌ «two» شاخص ۱۲۳۴۵ دارد و کلمه‌ «dogs» شاخص ۵۴۳۲۱. واژگان معمول زبان انگلیسی معمولا شامل حدود ۱۰۰هزار کلمه است.

یک کدگذار زبان (Language Model Encoder) این ورودی با ابعاد ۴۰۰×۵۱۲ را به یک خروجی با همان ابعاد ۴۰۰×۵۱۲ تبدیل می‌کند. توجه داشته باشید که یکسان بودن ابعاد ورودی و خروجی، به‌ویژه در بُعد ۵۱۲ ویژگی (feature dimension)، کاملا هدفمند است. این طراحی باعث می‌شود که خروجی این کدگذار بتواند مستقیما به ورودی یک کدگذار زبانی دیگر ارسال شود. در ادامه‌ مقاله خواهید دید که این مدل چگونه از این ساختار زنجیره‌ای استفاده می‌کند.

اکنون این تنسور خروجی را attended_textᵢ می‌نامیم.

این کدگذار زبانی برای هر کلمه‌ ورودی، در همان ترتیب، یک embedding تولید می‌کند. بنابراین هر سطر در attended_textᵢ نشان‌دهنده‌ embedding متناظر با همان کلمه در جمله است.

این ماتریس ۴۰۰×۵۱۲ به دو بخش تقسیم می‌شود:

۳۹۹ سطر اول، با نام text_tokenᵢ و ابعاد ۳۹۹×۵۱۲، مربوط به کلمات واقعی جمله هستند و نمایانگر اطلاعات سطح خرد (local level) در متن‌اند.
سطر آخر، با نام text_clsᵢ و ابعاد ۱×۵۱۲، نشان‌دهنده‌ اطلاعات سطح کلان (global level) متن است.

باز هم باید بر اهمیت این بردار ثابت تاکید کرد:

text_clsᵢ یک بردار ۵۱۲‌بعدی است که بدون توجه به طول جمله‌ ورودی، اندازه‌اش همیشه ثابت می‌ماند.

از آنجا که اندازه‌ این بردار با اندازه‌ بردار اطلاعات کلی تصویر (img_clsᵢ) برابر است، می‌توان به‌سادگی شباهت میان یک تصویر و یک جمله را با محاسبه‌ حاصل‌ضرب نقطه‌ای (dot product) بین این دو بردار محاسبه کرد؛ همان روشی که می‌توان حدس زد API امبدینگ متنی OpenAI نیز از آن استفاده می‌کند.

در این مدل، برخلاف بسیاری از رویکردها، از یک ترنسفورمر زبانی از پیش آموزش‌داده‌شده و فریز‌شده (frozen pre-trained model) استفاده نمی‌شود؛ بلکه پارامترهای درون این ترنسفورمر در طول آموزش بهینه‌سازی می‌شوند تا مدل بتواند یاد بگیرد تصویر و متن را به‌صورت هم‌زمان هم‌تراز کند.

پیشنهاد مطالعه: مدل‌های از پیش آموزش داده شده: مزایا و محدودیت‌ها

گام ۳: سنجش شباهت بین تصویر و متن با Dot Product و Contrastive Loss

در این مرحله، تابع زیان کنتراستیو (Contrastive Loss) وظیفه‌ ایجاد هم‌ترازی (Alignment) میان تنسور اطلاعات کلی تصویر img_clsᵢ و تنسور اطلاعات کلی متن text_clsᵢ را برعهده دارد.

هر دو این تنسورها بردارهایی با ابعاد ۱×۵۱۲ هستند.

هم‌ترازی میان این دو، به‌صورت حاصل‌ضرب نقطه‌ای (Dot Product) بین آن‌ها تعریف می‌شود. حاصل‌ضرب نقطه‌ای معیاری برای سنجش شباهت برداری (Vector Similarity) است؛ به این معنا که هرچه مقدار dot product بزرگ‌تر باشد، دو بردار شباهت و هم‌ترازی بیشتری با یکدیگر دارند.

در این مدل، حاصل‌ضرب نقطه‌ای برای محاسبه‌ شباهت میان img_clsᵢ و text_clsᵢ در ورودی (imageᵢ, textᵢ) استفاده می‌شود. اما علاوه بر تعیین اینکه کدام جفت‌ها باید مشابه باشند، تابع زیان کنتراستیو باید مشخص کند کدام جفت‌ها نباید مشابه باشند:

بردار اطلاعات کلی تصویر img_clsᵢ مربوط به imageᵢ نباید با تنسورهای اطلاعات کلی متنی سایر جملات در جفت‌های دیگر (imageᵢ, textᵢ) شباهت داشته باشد.
به همین شکل، بردار اطلاعات کلی متن text_clsᵢ مربوط به textᵢ نباید با تنسورهای اطلاعات کلی تصویری سایر تصاویر در جفت‌های دیگر (image, text) مشابه باشد.

محاسبه‌ این عدم تشابهات برای تمام جفت‌های (image, text) در کل دیتاست آموزشی، از نظر محاسباتی بسیار پرهزینه است. به همین دلیل، در عمل، Contrastive Loss تنها در سطح mini-batch محاسبه می‌شود.

در هر گام آموزش، یک mini-batch شامل N جفت ورودی است، به‌صورت:

(image₁, text₁), (image₂, text₂), …, (image_N, text_N).

فرمول کامل تابع زیان کنتراستیو به شکل زیر است:

\( L_{\text{con}} =
-\frac{1}{N}
\left(
\underbrace{
\sum_{i=1}^{N}
\log
\frac{
\exp(\mathrm{img\_cls}_i \cdot \mathrm{text\_cls}_i / \sigma)
}{
\sum_{j=1}^{N}
\exp(\mathrm{img\_cls}_i \cdot \mathrm{text\_cls}_j / \sigma)
}
}_{\text{image-to-text}}
+
\underbrace{
\sum_{i=1}^{N}
\log
\frac{
\exp(\mathrm{text\_cls}_i \cdot \mathrm{img\_cls}_i / \sigma)
}{
\sum_{j=1}^{N}
\exp(\mathrm{text\_cls}_i \cdot \mathrm{img\_cls}_j / \sigma)
}
}_{\text{text-to-image}}
\right)\)

در فرمول بالا:

img_clsᵢ بردار اطلاعات سطح کلان تصویر است که از تصویر موجود در جفت (imageᵢ, textᵢ) استخراج می‌شود.
text_clsᵢ بردار اطلاعات سطح کلان متن است که از متن موجود در همان جفت (imageᵢ, textᵢ) به‌دست می‌آید.
“·” عملگر حاصل‌ضرب نقطه‌ای (dot product) بین دو بردار است.
“exp” تابع نمایی را نشان می‌دهد.

چرا اینجا از تابع نمایی استفاده می‌شود؟

تابع نمایی به تغییرات کوچک در ورودی بسیار حساس است.

برای مثال، مقدار exp(5) برابر با ۱۴۸ است، در حالی که exp(5.1) برابر با ۱۶۴ می‌شود، یعنی فقط با ۰.۱ اختلاف در ورودی، خروجی ۱۶ واحد تغییر می‌کند. بنابراین، استفاده از تابع نمایی باعث می‌شود مدل نسبت به تفاوت‌های جزئی در میزان شباهت بردارها حساس‌تر شود.

σ یک فراپارامتر (hyper-parameter) است که معمولا دما (temperature) نامیده می‌شود. این پارامتر تعیین می‌کند که مدل تا چه حد نسبت به تفاوت‌های شباهت حساس باشد. اگر مقدار σ خیلی بزرگ باشد (نزدیک به بی‌نهایت)، کسر داخل تابع لگاریتم تقریبا به ۱/N میل می‌کند؛ یعنی تابع زیان، دیگر به شباهت بردارها حساس نخواهد بود. در مقابل، هرچه مقدار σ کوچک‌تر باشد، مدل به اختلاف‌های کوچک در شباهت حساس‌تر می‌شود. در نتیجه، تابع نمایی حساسیت را افزایش می‌دهد و پارامتر σ شدت این حساسیت را کنترل می‌کند.
“log” همان تابع لگاریتم است. از آن برای جلوگیری از سرریز عددی (numeric overflow) استفاده می‌شود؛ زیرا توابع نمایی تمایل دارند مقادیر بسیار بزرگی تولید کنند و لگاریتم این مقادیر را در مقیاس کوچک‌تری نگه می‌دارد.

تابع زیان کنتراستیو شامل دو بخش است:

بخش تصویر به متن (image-to-text term)
- در بخش image-to-text، مدل تلاش می‌کند شباهت بین بردارهای اطلاعات کلی تصویر (img_clsᵢ) و متن (text_clsᵢ) در جفت صحیح (imageᵢ, textᵢ) را بیشتر از مجموع شباهت‌های بین همان تصویر (img_clsᵢ) و تمام متون دیگر در mini-batch کند. به عبارت دیگر، مدل باید یاد بگیرد که تصویر و متن مربوط به هم، شباهت بیشتری از سایر ترکیب‌ها داشته باشند.
- هدف نهایی، بیشینه کردن مقدار term تصویر به متن است تا شباهت بین جفت‌های درست زیاد و شباهت بین جفت‌های نادرست کم شود. به‌صورت معادل، می‌توان منفی این مقدار را کمینه کرد که دقیقا همان کاری است که در تعریف تابع زیان انجام می‌شود.
بخش متن به تصویر (text-to-image term)
- بخش دوم یعنی text-to-image term ساختاری مشابه دارد، با این تفاوت که جهت رابطه برعکس است؛ یعنی شباهت بین متن و تصاویر mini-batch بررسی می‌شود.
- نکته‌ جالب اینجاست که درون تابع لگاریتم، هر دو بخش (image-to-text و text-to-image) صورت یکسانی دارند، زیرا برای دو بردار a و b، همیشه aᵀb = bᵀa است اما مخرج‌ها (denominators) متفاوت هستند.

چرا دو بخش مجزا برای image-to-text و text-to-image وجود دارد؟

زیرا حتی اگر شباهت بین imageᵢ و textᵢ برابر با شباهت بین textᵢ و imageᵢ باشد (به‌دلیل تقارن حاصل‌ضرب نقطه‌ای)، دو رویکرد متفاوت برای سنجش ناشباهت‌ها (dis-similarities) وجود دارد:

در حالت اول، تصویر imageᵢ ثابت نگه داشته می‌شود و dot product بین آن و تمام متون موجود در mini-batch محاسبه می‌شود؛ این همان بخش image-to-text است.
در حالت دوم، متن textᵢ ثابت نگه داشته می‌شود و dot product بین آن و تمام تصاویر موجود در mini-batch محاسبه می‌شود؛ این همان بخش text-to-image است.

این مدل هم‌تراز در سطح کلان (Global) چه کارهایی می‌تواند انجام دهد؟

مدل متن–تصویر که با استفاده از تابع زیان کنتراستیو (Contrastive Loss) آموزش دیده، می‌تواند مجموعه‌ای از وظایف زیر را انجام دهد:

۱- جست‌وجوی تصویر بر اساس متن

برای یک پرس‌وجوی متنی مانند:

«دو سگ در حال دویدن»

ابتدا مدل زبانی (language-model transformer) را برای تولید تنسور اطلاعات کلی متن (global level text information tensor) به کار می‌بریم. سپس از این تنسور به‌عنوان کلید جست‌وجو (search key) در یک پایگاه داده شامل تنسورهای اطلاعات کلی تصاویر استفاده می‌کنیم تا تصاویری را بیابیم که بیشترین شباهت را با متن ورودی دارند. مبنای رتبه‌بندی نتایج، شباهت حاصل‌ضرب نقطه‌ای (dot-product similarity) بین بردارهای تصویر و متن است.

۲- جست‌وجوی تصاویر مشابه

برای یک تصویر ورودی (مثلا تصویر دو سگ در حال دویدن)، از بخش ViT + Attention Pooling استفاده می‌کنیم تا تنسور اطلاعات کلی تصویر را به‌دست آوریم. سپس از این بردار به عنوان کلید جست‌وجو در همان پایگاه داده‌ تصویری استفاده می‌شود تا تصاویر مشابه از نظر محتوایی بازیابی شوند.

۳- دسته‌بندی تصویر

در یک مسئله‌ دسته‌بندی تصویر، مجموعه‌ای از کلاس‌ها از پیش تعریف شده‌اند، برای مثال:

“dog”، “cat”، “tennis racket”

برای طبقه‌بندی یک تصویر ورودی:

ابتدا با استفاده از مولفه‌ ViT + Attention Pooling، تنسور اطلاعات کلی تصویر مربوط به آن تصویر را تولید می‌کنیم.
سپس برای هر کلاس، با استفاده از یک الگوی جمله (template)، جمله‌ای می‌سازیم.

مثلا قالب زیر را در نظر بگیر:

“this is a picture of <class>”

در نتیجه:

برای کلاس dog جمله‌ “This is a picture of a dog”
و برای کلاس cat جمله‌ “This is a picture of a cat” ساخته می‌شود.

حالا برای هر جمله، با کمک مدل زبانی، تنسور اطلاعات کلی متن مربوط به آن تولید می‌شود.

در نهایت، تصویر ورودی در کلاسی قرار می‌گیرد که تنسور اطلاعات کلی متنی آن، بیشترین شباهت (در معنای dot product) را با تنسور اطلاعات کلی تصویر داشته باشد.

به این ترتیب، مدل می‌تواند جست‌وجوی تصویر با متن، یافتن تصاویر مشابه و حتی دسته‌بندی تصاویر جدید را تنها بر اساس بردارهای هم‌تراز (aligned embeddings) انجام دهد؛ بدون نیاز به آموزش جداگانه برای هر وظیفه.

چگونه از قابلیت تولید کپشن برای تصویر پشتیبانی کنیم؟

وظیفه‌ توضیح‌نویسی تصویر (Image Captioning) به این صورت است که مدل تنها با دریافت یک تصویر، بتواند یک توضیح متنی تولید کند. مدل فعلی ما که فقط در سطح کلان (Global) تصویر و متن را هم‌تراز می‌کند، هنوز قادر به انجام این کار نیست. برای اضافه‌کردن این قابلیت، باید اطلاعات سطح خرد (Local level) تصویر و متن را نیز با یکدیگر هم‌تراز (align) کنیم.

یک کپشن در واقع یک جمله است. اما مدل چطور می‌تواند بر اساس تصویر ورودی، این جمله (caption) را پیش‌بینی کند؟ در این مدل، برای آموزش، به جمله کلمات ویژه‌ای اضافه می‌کنیم؛ مثلا:

“START two running dogs END”

در این حالت، مدل به‌صورت زیر آموزش می‌بیند:

با داشتن تصویر و اولین کلمه‌ “START”، مدل کلمه‌ بعدی “two” را پیش‌بینی می‌کند.
مزیت وجود کلمه‌ی ویژه‌ START این است که همیشه در ابتدای جمله وجود دارد و مدل می‌تواند آن را به‌عنوان نقطه‌ شروع پیش‌بینی در نظر بگیرد.
سپس با داشتن تصویر و کلمات پیش‌بینی‌شده تا این لحظه، یعنی “START two”، مدل کلمه‌ بعدی “running” را پیش‌بینی می‌کند.
در مرحله‌ بعد، با داشتن تصویر و کلمات “START two running”، مدل کلمه‌ بعدی “dogs” را پیش‌بینی می‌کند.
در نهایت، با داشتن تصویر و کلمات “START two running dogs”، مدل کلمه‌ پایانی “END” را پیش‌بینی می‌کند.
به این ترتیب، مدل می‌آموزد که با استفاده از تصویر و کلمات تولیدشده‌ قبلی، به‌صورت گام‌به‌گام جمله‌ کپشن را کامل کند.

پیش‌بینی احتمال کلمات در واژگان

در یادگیری ماشین، پیش‌بینی کلمه‌ بعدی معمولا به این صورت انجام می‌شود که مدل برای تمام کلمات موجود در واژگان، یک آرایه‌ احتمال تولید می‌کند. در این آرایه، مقدار احتمالِ کلمه‌ درست باید بیشتر از تمام کلمات دیگر باشد.
در وظیفه‌ توضیح‌نویسی تصویر (image captioning) و برای هر جفت (imageᵢ, textᵢ)، هدف این است که مدل بتواند احتمال کلمه‌ بعدی را بر اساس دو عامل پیش‌بینی کند:

تمام کلمات پیش‌بینی‌شده‌ قبلی
و اطلاعات سطح خرد تصویر (local level image information) که از img_tokensᵢ به‌دست می‌آید.

از نظر نمادگذاری، این پیش‌بینی‌کننده‌ احتمال کلمه به صورت زیر تعریف می‌شود:

\( P\left(w_t \mid START, w_1, w_2, \ldots, w_{t-1}, \mathrm{img\_tokens}_i \right)
\quad \text{where } 2 \le t \le T\)

در این رابطه:

textᵢ همان متن اصلی است که کلمات ویژه‌ START و END به آن اضافه شده‌اند، برای مثال:

“START w₁ w₂ w₃ END”

T طول جمله یا همان تعداد کلمات موجود در textᵢ است.
img_tokensᵢ تنسور اطلاعات سطح خرد تصویر (local level image information tensor) است که توسط مولفه‌ ViT + Attention Pooling تولید می‌شود.

شبکه عصبی ما چگونه پیش‌بینی‌کننده احتمال کلمه فوق را پیاده‌سازی می‌کند؟

نمودار زیر ادامه‌ نمودار قبلی است و نشان می‌دهد پیش‌بینی‌کننده‌ احتمال کلمه که در بالا تعریف شد، چگونه در شبکه عصبی پیاده‌سازی می‌شود.

این شکل برای صرفه‌جویی در فضا، گام ۳ (محاسبه‌ Contrastive Loss) را از نمودار قبلی حذف کرده است؛ اما توجه داشته باشید که گام ۳ همچنان در مدل وجود دارد و زیان کنتراستیو را تولید می‌کند.

گام ۴: هم‌ترازی محلی تصویر و متن با Cross-Attention

همان ترنسفورمر مدل زبانی، تنسور اطلاعات سطح خرد متن یعنی text_tokensᵢ با ابعاد ۳۹۹×۵۱۲ (به‌جز سطر مربوط به کلمه‌ CLS) را به تنسوری جدید به نام cross_attended_textᵢ با همان ابعاد تبدیل می‌کند.

در طول این تبدیل، تنسور اطلاعات سطح خرد تصویر یعنی img_tokensᵢ از طریق Cross-Attention در تنسور خروجی ادغام (blend) می‌شود. این همان سازوکاری است که هم‌ترازی بین اطلاعات سطح خرد متن و سطح خرد تصویر را برقرار می‌کند.

اگر به خاطر داشته باشید، در Cross-Attention، محاسبه‌ اصلی نیز بر پایه‌ حاصل‌ضرب نقطه‌ای (dot-product) است؛ بنابراین این هم‌ترازی بین تفسیر محلی تصویر و متن قابل اتکاتر و اقناع‌کننده‌تر می‌شود.
توجه کنید که گام ۴ دومین فراخوانیِ ترنسفورمر زبانی است.

تنسور ورودی به این فراخوانی دوم، ۳۹۹ سطر اولِ text_tokensᵢ است؛ زیرا به کلمه‌ CLS در فرایند تولید کپشن نیازی نیست. یک ترنسفورمر زبانی می‌تواند ورودی‌هایی با طول‌های متفاوت بپذیرد؛ درونی‌سازیِ مدل، این ورودی‌های با طول متغیر را به طول ثابت pad می‌کند.

برای برجسته‌کردن این نکته که شکل تنسور ورودی–خروجیِ فراخوانی دومِ کدگذار زبانی، ۳۹۹×۵۱۲ است، در شکل از یک کادر (box) برای محصور کردن این فراخوانی دوم و پروژکشن خطی پایین‌دستی‌اش استفاده شده است.
همچنین توجه کنید که در فراخوانی دومِ مدل زبانی، یک ورودی دیگر نیز وجود دارد: img_tokensᵢ.

این موضوع منطقی‌ است؛ زیرا ترنسفورمر زبانی طوری آموزش داده شده که یک تنسور اختیاری برای Cross-Attention را بپذیرد.

در فراخوانی اول، این تنسور Cross-Attention روی null تنظیم می‌شود؛ بنابراین تمام عملیات‌های Cross-Attention در ترنسفورمر نادیده گرفته می‌شوند.

در فراخوانی دوم، این تنسور روی img_tokensᵢ قرار می‌گیرد و به این ترتیب تمام عملیات‌های Cross-Attention فعال می‌شوند.

این نمودار همچنین نحوه‌ استفاده‌ آموزشی از encoder مدل زبانی را از طریق فراخوانی اول و دوم نشان می‌دهد.

گام ۵: تولید ماتریس احتمال کلمات با فرافکنی خطی

تنسور cross_attended_textᵢ با ابعاد ۳۹۹×۵۱۲ به‌صورت خطی (Linear Projection) به یک word_probability_matrixᵢ با ابعاد ۳۹۹×۲۰۰۰۰ نگاشت می‌شود. عدد ۲۰۰۰۰ یک مقدار دلخواه و نشان‌دهنده‌ اندازه‌ واژگان (vocabulary size) است. در این لایه‌ فرافکنی خطی، پارامترهای قابل‌آموزش وجود دارد.

مقادیر هر سطر در word_probability_matrixᵢ مثل w₁_prob، w₂_prob به گونه‌ای نُرمال‌سازی می‌شوند که در بازه‌ [۰، ۱] قرار گیرند و مجموع‌شان برابر ۱ باشد تا بتوان هر سطر را به‌عنوان بردار احتمالات پیش‌بینی‌شده برای هر ۲۰۰۰۰ کلمه‌ واژگان تفسیر کرد.

یک مشاهده‌ مهم این است که در ماتریس word_probability_matrixᵢ،

سطر اول به‌عنوان احتمال‌های کلمات برای w₁ تفسیر می‌شود، با توجه به کلمه‌ آغازین START،

که خود اولین سطر در تنسور cross_attended_textᵢ است.

سطر دوم بیانگر احتمال‌های w₂ با توجه به کلمات START و w₁ است.

و سطر سوم احتمال‌های w₃ را با توجه به START، w₁ و w₂ نشان می‌دهد.

این هم‌ترازی یک‌به‌یک بین تنسور ورودی و خروجی، در واقع مکانیزم پیش‌بینی کلمه‌ بعدی (Next-Word Prediction) را بر اساس تمام کلمات قبلی پیاده‌سازی می‌کند.

اما منظور از عبارت «به‌عنوان احتمال‌های کلمات برای w₁ تفسیر می‌شود» چیست؟

این عبارت در زمینه‌ یک تابع زیان جدید به نام Caption Loss معنا پیدا می‌کند؛ تابعی که میزان دقت مدل در پیش‌بینی کلمات را اندازه‌گیری می‌کند.

تابع Caption Loss از آنتروپی متقاطع (Cross-Entropy) میان بردار احتمال پیش‌بینی‌شده‌ هر کلمه و کلمه‌ واقعی (Ground Truth) استفاده می‌کند تا دقت پیش‌بینی را بسنجد. هدف ما در آموزش این است که این دقت را بیشینه کنیم، یا به‌صورت معادل، منفی آن را کمینه کنیم.

به عنوان مثال، در مورد w₁_prob که یک بردار ۲۰۰۰۰‌بعدی است (هر ورودی‌اش مقداری بین ۰ و ۱ دارد و مجموع آن‌ها ۱ است)، تابع آنتروپی متقاطع الزام می‌کند که ورودی متناظر با کلمه‌ درست (مثلا “two”) مقدار بالایی داشته باشد؛ چون با توجه به اطلاعات سطح خرد تصویر (img_tokensᵢ) و کلمه‌ شروع “START”، مدل باید یاد بگیرد که کلمه‌ بعدی “two” را با احتمال بالا پیش‌بینی کند.

زیان آنتروپی متقاطع برای یک کلمه‌ پیش‌بینی‌شده

نمودار زیر نشان می‌دهد که چگونه بردار احتمال کلمه‌ پیش‌بینی‌شده‌ w₁_prob، با روش کدگذاری وان‌هات (one-hot encoding) کلمه‌ واقعی “two” مقایسه می‌شود تا مدل یاد بگیرد مقدار مربوط به کلمه‌ “two” در w₁_prob بزرگ‌تر از سایر مقادیر باشد. به‌عبارت دیگر، این یعنی مدل باید در این موقعیت، کلمه‌ “two” را پیش‌بینی کند.

در نمایش one-hot encoding برای کلمه‌ی “two”، خانه‌ مربوط به کلمه‌ “two” مقدار ۱ دارد و تمام خانه‌های دیگر مقدار ۰ دارند.

در مقابل، در بردار احتمال پیش‌بینی‌شده‌ w₁_prob، مقادیر عددی تصادفی (که در شکل نشان داده شده‌اند) بیانگر خروجی‌هایی هستند که توسط ترنسفورمر مدل زبانی تولید شده‌اند.

آنتروپی متقاطع (Cross-Entropy) برای کلمه‌ی w₁ در جمله‌ی textᵢ به‌صورت زیر تعریف می‌شود:

که در آن j روی تمام ورودی‌های بردار one-hot واقعی و بردار احتمال کلمه تکرار می‌شود.

\( L_{w_1}^{(i)} = – \sum_{j=1}^{20000}
w_{1\_\text{one\_hot},\,j} \; \log\left(w_{1\_\text{prob},\,j}\right)\)

توجه داشته باشید که زیان بالا برای یک کلمه در جفت (imageᵢ, textᵢ) است، به همین دلیل دارای نمای بالای “i” است.

با تعریف زیان کپشن برای یک کلمه، آنتروپی متقاطع برای کل جمله در textᵢ برابر است با مجموع آنتروپی متقاطع تمام ۳۹۹ کلمه‌ آن:

\( L^{(i)} = \sum_{t=1}^{399} L_{w_t}^{(i)}\)

و زیان کپشن برای کل mini-batch با N جفت (imageₖ, textₖ)، که در آن k عددی بین ۱ و N است، به‌صورت زیر است:

\( L_{\mathrm{cap}} = \sum_{k=1}^{N} L^{(k)}\)

تمام کلمات به‌صورت هم‌زمان پیش‌بینی می‌شوند

حال به گام ۵ در نمودار قبلی برگردیم. اکنون می‌توان دید که تمام کلمات توضیح (caption) به‌طور هم‌زمان تولید می‌شوند:

سطر اول در word_probability_matrixᵢ نمایش‌دهنده‌ P(w₁|START, img_tokensᵢ) است.
سطر دوم نمایش‌دهنده‌ P(w₂|START, w₁, img_tokensᵢ) است.
سطر سوم نمایش‌دهنده‌ P(w₃|START, w₁, w₂, img_tokensᵢ) است.

و به همین ترتیب ادامه دارد.

به استفاده از واژه‌ “produced” دقت کنید.

در اینجا در مورد زیان آموزش مدل (training loss) صحبت می‌کنیم، نه فرایند استنتاج مدل (inference). در زمان آموزش، احتمال تمام کلمات خروجی به‌صورت هم‌زمان و یک‌باره محاسبه می‌شود اما در زمان استنتاج (که بعدا توضیح داده خواهد شد)، کلمات خروجی به‌صورت گام‌به‌گام و بازگشتی (recursive) پیش‌بینی می‌شوند.

زیان کامل (Full Loss)

تابع زیان کلی مدل ما ترکیب خطی از دو بخش است:

زیان کنتراستیو (Contrastive Loss)
زیان کپشن (Caption Loss)

\( \mathcal{L}_{\mathrm{CoCa}}
= \lambda_{\mathrm{Con}} \cdot \mathcal{L}_{\mathrm{Con}}
+ \lambda_{\mathrm{Cap}} \cdot \mathcal{L}_{\mathrm{Cap}}\)

دو ضریب λ پارامترهای اَبَرتنظیم (hyper-parameters) هستند که برای تنظیم وزن میان این دو مولفه‌ زیان به کار می‌روند.

تولید کپشن تصویر: استنتاج مدل

اکنون می‌توان دید که این مدل، که با زیان کامل (Full Loss) آموزش داده شده است، چگونه می‌تواند برای یک تصویر کپشن تولید کند:

۱. از مولفه‌ ViT + Attention Pooling برای تولید تنسورهای اطلاعات سطح خرد تصویر (local level image information tensors) از تصویر ورودی استفاده می‌شود.

۲. پیشوند کپشن (caption prefix) ساخته می‌شود که در ابتدا فقط شامل کلمه‌ START است.

۳. ترنسفورمر مدل زبانی (language-model transformer) دو بار اجرا می‌شود؛ بار اول برای تولید attended_text و بار دوم برای تولید cross_attended_text. سپس با یک فرافکنی خطی (linear projection)، احتمالات کلمات تولید می‌شوند تا مدل بتواند کلمه‌ی بعدی را بر اساس پیشوند فعلی کپشن پیش‌بینی کند. این کلمات پیش‌بینی‌شده را predicted_w₁، predicted_w₂ می‌نامیم. توجه داشته باشید که این دو کلمه از دو اجرای جداگانه از گام ۳ به‌دست می‌آیند.

۴. کلمه‌ی پیش‌بینی‌شده به پیشوند کپشن اضافه می‌شود.

۵. گام‌های ۳ و ۴ به‌صورت بازگشتی (recursive) تکرار می‌شوند تا زمانی که مدل کلمه‌ی END را پیش‌بینی کند.

پدینگ

توجه داشته باشید که ترنسفورمر مدل زبانی (language-model transformer) تنها ورودی‌هایی با طول ثابت ۴۰۰ کلمه را می‌پذیرد. بنابراین، در ابتدای فرایند تولید کپشن، ورودی‌های مدل شامل تعداد زیادی کلمه‌ پد (PAD) خواهند بود.

برای مثال:

جمله‌ ورودی اول به شکل “START PAD … PAD” است،
جمله‌ دوم به شکل “START predicted_w₁ PAD … PAD”،
جمله‌ سوم به شکل “START predicted_w₁ predicted_w₂ PAD … PAD” و به همین ترتیب ادامه پیدا می‌کند.

به‌عبارت دیگر، در هر مرحله جمله به‌گونه‌ای پد می‌شود که همیشه شامل ۳۹۹ کلمه باشد قبل از آنکه به ترنسفورمر مدل زبانی ارسال شود.

خروجی ترنسفورمر مدل زبانی (پس از دو بار اجرا) یک ماتریس احتمال کلمه با ابعاد ۳۹۹×۲۰۰۰۰ است.

در هر بار اجرا، فقط یک سطر از این ماتریس برای پیدا کردن بیشترین احتمال کلمه‌ی بعدی و سپس تعیین کلمه‌ واقعی بعدی استفاده می‌شود. سایر سطرهای این ماتریس ۳۹۹×۲۰۰۰۰ در آن مرحله مورد استفاده قرار نمی‌گیرند.
روش‌هایی برای بهینه‌سازی این فرایند وجود دارد اما در این مقاله تنها بر درک مفهوم کلی تمرکز داریم و به جزئیات بهینه‌سازی نمی‌پردازیم.

چرا برای پشتیبانی از توضیح‌نویسی تصویر از یک کدگذار مدل زبانی استفاده می‌کنیم؟

مدل CoCa از یک کدگذار مدل زبانی (language-model encoder) استفاده می‌کند و برای پشتیبانی از تولید کپشن تصویر، این کدگذار را دو بار فراخوانی می‌کند.

سوال اینجاست: چرا باید وارد چنین پیچیدگی‌ای شد؟

به بیان دیگر، آیا نمی‌توان مدلی طراحی کرد که تصویر را به‌عنوان ورودی بگیرد و مستقیما یک جمله را به‌عنوان خروجی تولید کند؟

از نظر تئوری، چنین مدلی ممکن است؛ اما از آنجا که کپشن تصاویر طول‌های متفاوتی دارند، یک شبکه‌ معمولی با خروجیِ با طول ثابت مجبور می‌شود تمام کلمات کپشن را به‌صورت یک‌جا پیش‌بینی کند و برای کپشن‌های کوتاه‌تر از پدینگ (padding) استفاده کند.

این کار بسیار دشوار است؛ زیرا داده‌های آموزشی شامل جفت‌های (image, caption) به اندازه‌ کافی فراوان نیستند. در مقابل، کدگذار مدل زبانی از یک مکانیزم پیش‌بینی بازگشتی (recursive prediction) استفاده می‌کند؛ یعنی پیش‌بینی کلمه‌ بعدی به تمام کلمات پیش‌بینی‌شده‌ قبلی وابسته است.

این کدگذار می‌تواند ابتدا با داده‌های متنی خالص که به‌وفور در دسترس‌اند، پیش‌آموزش (pre-train) داده شود و سپس با داده‌های (image, caption)، مانند کاری که CoCa انجام می‌دهد، فاین‌تیون (fine-tune) شود. چنین الگوی آموزشی‌ای، در عمل شانس موفقیت بسیار بیشتری دارد.

آموزش مدل (Model Training)

برای به‌دست آوردن یک مدل تولید کپشن تصویر، لازم است مدل را دوباره با یک دیتاست شامل جفت‌های (image, caption) آموزش دهیم.

پیشنهاد مطالعه: آموزش مدل در یادگیری ماشین چیست و چرا اهمیت دارد؟

چگونه از پاسخ‌گویی به پرسش‌های تصویری پشتیبانی کنیم؟

پس از آنکه نحوه‌ کار تولید کپشن تصویر را درک کردیم، فهم سازوکار پاسخ‌گویی به پرسش‌های تصویری ساده‌تر می‌شود:

در تولید کپشن تصویر، ورودی شامل تصویر و پیشوند متنی “START” است.
در پاسخ‌گویی به پرسش تصویری، ورودی شامل تصویر و سوال به‌عنوان پیشوند متنی است.

البته یک ظرافت در مورد سطرهای ماتریس احتمال کلمات پیش‌بینی‌شده وجود دارد، زیرا کلمات مربوط به سوال باید نادیده گرفته شوند؛ اما احتمالا با صرف کمی زمان، می‌توانید منطق آن را به‌خوبی درک کنید.

توجه داشته باشید که برای به‌دست آوردن یک مدل پاسخ‌گویی به پرسش‌های تصویری، باید کل مدل دوباره آموزش داده شود، آن هم با یک مجموعه‌داده‌ جدید شامل سه‌تایی‌های (image, question, answer).

مدل‌های پایه (Foundation Models)

اکنون می‌بینیم که مدل ما پس از آموزش، می‌تواند به‌صورت آماده (out of the box) وظایف مختلفی را انجام دهد، یا برای انجام وظایف جدید دوباره آموزش داده شود.

به همین دلیل به آن مدل پایه گفته می‌شود؛ زیرا یک مدل پایه یا نیمه‌آماده را فراهم می‌کند که می‌تواند به‌عنوان نقطه‌ شروع برای وظایف پایین‌دستی (downstream tasks) مختلف مورد استفاده قرار گیرد.

کدگذار ViT و Attention Pooling

اکنون که بخش عمده‌ای از مدل توضیح داده شد، به سراغ آخرین قطعه می‌رویم: اینکه مدل چگونه با استفاده از کدگذار ViT و Attention Pooling، تنسورهای اطلاعات تصویری در سطح کلان و سطح خرد را تولید می‌کند.

کدگذار ViT

کدگذار ViT یک تصویر با اندازه‌ ثابت را به مجموعه‌ای از پچ‌ها (patches) تقسیم می‌کند و هر پچ را به‌صورت جداگانه رمزگذاری (encode) می‌کند. نمودار زیر نشان می‌دهد که کدگذار ViT چگونه پچ‌های تصویر را به‌صورت رمزگذاری‌شده تولید می‌کند.

توجه داشته باشید که در اینجا اندیس i (که قبلا در نمادهایی مثل img_tokensᵢ استفاده می‌شد) نادیده گرفته شده است. دلیلش این است که در بخش‌های قبلی لازم بود درباره‌ تنسورها در قالب mini-batch صحبت کنیم؛ چون توابع زیان در سطح mini-batch تعریف می‌شوند. اما در اینجا دیگر نیازی به صحبت درباره‌ mini-batchها نیست.

کدگذار ViT فریز می‌شود

توجه داشته باشید که پارامترهای کدگذار ViT در طول فرایند رمزگذاری پچ‌های تصویر فریز (frozen) هستند؛ بنابراین هیچ پارامتر قابل‌آموزشی در کدگذار ViT وجود ندارد.

این سوال مطرح می‌شود که چرا ترنسفورمر مدل زبانی که قبلا معرفی شد فریز نشده و دارای پارامترهای قابل‌آموزش است، اما کدگذار ViT در اینجا فریز شده است؟ به نظر می‌رسد نویسنده‌ مقاله استفاده از یک ترنسفورمر زبانی فریز‌شده را نیز امتحان کرده اما نتیجه به اندازه‌ نسخه‌ قابل‌آموزش خوب نبوده است.

می‌توان این انتخابِ فریز یا غیرفریز بودن را عمیق‌تر بررسی کرد.

برای هم‌تراز کردن دو مجموعه بردار، یکی حاصل از کدگذار ViT و دیگری حاصل از ترنسفورمر مدل زبانی، کافی است یکی از بخش‌های مدل که یکی از این مجموعه‌بردارها را تولید می‌کند ثابت نگه داشته شود و به بهینه‌ساز اجازه داده شود پارامترهای بخش دیگر را که مجموعه‌بردار دوم را تولید می‌کند، تنظیم کند. لزومی ندارد هر دو مولفه‌ مدل به‌طور هم‌زمان تغییر کنند.

با فریز کردن بخشی از مدل، کار بهینه‌ساز ساده‌تر می‌شود، زیرا تعداد پارامترهای قابل‌آموزش کاهش می‌یابد و فرایند بهینه‌سازی پایدارتر و قابل‌کنترل‌تر خواهد بود.

Attention Pooling پارامترهای قابل‌آموزش را با پچ‌های رمزگذاری‌شده‌ی تصویر ترکیب می‌کند

گام بعدی، یعنی Attention Pooling، خروجی encoded_img_patches را با تعدادی پارامتر قابل‌آموزش مدل ترکیب می‌کند. این رویکرد یکی از روش‌های بسیار رایج در طراحی معماری شبکه‌های عصبی برای استفاده‌ مجدد از encoderهای آماده (off-the-shelf) است:

encoder را به‌صورت فریز‌شده استفاده می‌کنیم و سپس با اضافه‌کردن لایه‌های قابل‌آموزش در مدل خودمان، خروجی encoder فریز‌شده را با سایر بخش‌های شبکه ادغام می‌کنیم. نمودار زیر نشان می‌دهد که Attention Pooling چگونه این فرایند ترکیب را انجام می‌دهد.

گام ۱. خروجی encoded_img_patches با ابعاد ۲۵۶×۱۰۲۴ که توسط ViT تولید شده است، به‌صورت خطی به تنسوری دیگر با همان ابعاد نگاشت می‌شود. در این لایه‌ی فرافکنی خطی، پارامترهای قابل‌آموزش وجود دارد. این فرافکنی خطی روشی است برای تزریق پارامترهای قابل‌آموزش به یک ماژول ثابت، یعنی ترنسفورمر ViT.

گام ۲. تنسور encoded_img_patches که به‌صورت خطی فرافکنی شده است، در بعد ویژگی‌ها (بعد ۱۰۲۴) به دو تنسور کوچک‌تر با ابعاد یکسان ۲۵۶×۵۱۲ تقسیم می‌شود. یکی از این دو تنسور v نام دارد و دیگری k. احتمالا با نام‌گذاری k و v آشنا هستید، زیرا این‌ها ماتریس‌های کلیدی (key) و مقدار (value) در مکانیزم attention هستند.

چرا encoded_img_patches به دو بخش مساوی تقسیم می‌شود؟

برای ساخت تنسورهای v و k، به‌طوری که هر دو شامل اطلاعات پچ‌های تصویر باشند. در ادامه، در گام ۵، یک عملیات cross-attention میان آن‌ها انجام می‌شود که باعث می‌شود اطلاعات از تمام پچ‌ها به تمام پچ‌ها منتقل و ترکیب شود.

گام ۳. یک تنسور به نام img_queries با ابعاد ۲۵۷×۵۱۲ معرفی می‌شود. این تنسور از کلاس Embedding در PyTorch ساخته می‌شود و شامل پارامترهای قابل‌آموزش است. این نیز یکی دیگر از روش‌های تزریق پارامترهای قابل‌آموزش به یک ماژول ثابت محسوب می‌شود.

تنسور img_queries سپس به‌صورت خطی به تنسور q با همان ابعاد نگاشت می‌شود. در این فرافکنی خطی نیز پارامترهای قابل‌آموزش وجود دارد. توجه داشته باشید که img_queries دارای ۲۵۷ سطر است؛ یعنی یک بردار بیشتر از تعداد پچ‌های تصویر رمزگذاری‌شده که ۲۵۶ عدد هستند.

این بردار اضافه برای نمایش اطلاعات سطح کلان (Global) تصویر استفاده می‌شود.

گام ۴. این مرحله همان ضرب ماتریسی معروف cross-attention یعنی q@kᵀ است. نتیجه‌ این ضرب، تنسور sim با ابعاد ۲۵۷×۲۵۶ خواهد بود. ماتریس sim یک ماتریس حاصل‌ضرب نقطه‌ای (dot-product matrix) است؛ هر درایه‌ آن، میزان شباهت حاصل‌ضرب نقطه‌ای بین یک سطر از تنسور img_queries و یک سطر از تنسور k را نشان می‌دهد که هر سطر از k نماینده‌ی یک پچ از تصویر ورودی است.

گام ۵. یک ضرب ماتریسی دیگر از نوع cross-attention یعنی sim@v انجام می‌شود که نتیجه‌ آن تنسوری با ابعاد ۲۵۷×۵۱۲ است. گام‌های ۴ و ۵ همان ضرب‌های کلاسیک q، k و v در مکانیزم attention هستند.

توجه داشته باشید که این ضرب، اطلاعات تمام پچ‌ها را در هر پچ ترکیب می‌کند. برای درک این موضوع، باید توجه کنیم که هر دو ورودی این ضرب، یعنی v و k، از پچ‌هایی می‌آیند که توسط ترنسفورمر ViT تولید شده‌اند. بنابراین این ضرب، در عمل یک ماتریس شباهت پچ‌به‌پچ ایجاد می‌کند که باعث می‌شود اطلاعات از تمام پچ‌ها به تمام پچ‌ها منتقل و ترکیب شود. در نتیجه، هر پچِ توجه‌یافته (attended patch) نه‌تنها شامل اطلاعات همان پچ است، بلکه اطلاعات سایر پچ‌ها را نیز در خود دارد. می‌توان این عملیات را به‌عنوان نوعی self-attention نیز در نظر گرفت.

گام ۶. تنسور حاصل از ضرب sim@v با ابعاد ۲۵۷×۵۱۲ به دو تنسور تقسیم می‌شود:

تنسور اول، img_tokens با ابعاد ۲۵۶×۵۱۲ است. این تنسور به‌عنوان نمایش اطلاعات سطح خرد تصویر به‌صورت پچ‌محور تفسیر می‌شود؛ یعنی هر سطر ۱×۵۱۲ در img_tokens نماینده‌ی اطلاعات یکی از ۲۵۶ پچ تصویر است.
تنسور دوم، img_cls با ابعاد ۱×۵۱۲ است. این تنسور به‌عنوان نمایش اطلاعات سطح کلان (Global) تصویر تفسیر می‌شود که کل تصویر را خلاصه می‌کند.

این دو تنسور برای ایجاد هم‌ترازی بین تصویر و متن استفاده می‌شوند؛ همان‌طور که پیش‌تر در این مقاله توضیح داده شد.

جمع‌بندی

این مقاله طراحی یک مدل پایه‌ دووجهی تصویر–متن را توضیح می‌دهد. بخش کلیدی این طراحی، ایجاد هم‌ترازی بین تصویر و متن است؛ در سطح کلان (Global) با استفاده از تابع زیان کنتراستیو (contrastive loss) و در سطح خرد (Local) با استفاده از تابع زیان آنتروپی متقاطع (cross-entropy loss).

هم‌ترازی تصویر–متن در سطح کلان از وظایفی مانند دسته‌بندی تصویر، جست‌وجوی تصویر بر اساس متن و یافتن تصاویر مشابه به‌صورت عمیق پشتیبانی می‌کند. در مقابل، هم‌ترازی تصویر–متن در سطح خرد امکان انجام وظایفی مانند تولید کپشن برای تصویر و پاسخ‌گویی به پرسش‌های تصویری را فراهم می‌سازد.

منابع

medium.com

یک مدل چندوجهی تصویر-متن چگونه کار می‌کند؟

چرا به مدل‌های متن–تصویر نیاز داریم؟

مدل مبتنی بر تصویر

مدل مبتنی بر متن

کاربردهایی که مدل‌های تک‌وجهی از پس آن برنمی‌آیند

چطور اطلاعات کلی (Global) تصویر و متن هم‌تراز می‌شوند

گام ۱: پردازش تصویر

گام ۲: پردازش متن

گام ۳: سنجش شباهت بین تصویر و متن با Dot Product و Contrastive Loss

چرا اینجا از تابع نمایی استفاده می‌شود؟

چرا دو بخش مجزا برای image-to-text و text-to-image وجود دارد؟

این مدل هم‌تراز در سطح کلان (Global) چه کارهایی می‌تواند انجام دهد؟

۱- جست‌وجوی تصویر بر اساس متن

۲- جست‌وجوی تصاویر مشابه

۳- دسته‌بندی تصویر

چگونه از قابلیت تولید کپشن برای تصویر پشتیبانی کنیم؟

پیش‌بینی احتمال کلمات در واژگان

شبکه عصبی ما چگونه پیش‌بینی‌کننده احتمال کلمه فوق را پیاده‌سازی می‌کند؟

گام ۴: هم‌ترازی محلی تصویر و متن با Cross-Attention

گام ۵: تولید ماتریس احتمال کلمات با فرافکنی خطی

زیان آنتروپی متقاطع برای یک کلمه‌ پیش‌بینی‌شده

زیان کامل (Full Loss)

تولید کپشن تصویر: استنتاج مدل

پدینگ

آموزش مدل (Model Training)

چگونه از پاسخ‌گویی به پرسش‌های تصویری پشتیبانی کنیم؟

مدل‌های پایه (Foundation Models)

کدگذار ViT و Attention Pooling

کدگذار ViT

کدگذار ViT فریز می‌شود

چرا encoded_img_patches به دو بخش مساوی تقسیم می‌شود؟

دیدگاه‌ها

دیدگاهتان را بنویسید لغو پاسخ

یک مدل چندوجهی تصویر-متن چگونه کار می‌کند؟

چرا به مدل‌های متن–تصویر نیاز داریم؟

مدل مبتنی بر تصویر

مدل مبتنی بر متن

کاربردهایی که مدل‌های تک‌وجهی از پس آن برنمی‌آیند

چطور اطلاعات کلی (Global) تصویر و متن هم‌تراز می‌شوند

گام ۱: پردازش تصویر

گام ۲: پردازش متن

گام ۳: سنجش شباهت بین تصویر و متن با Dot Product و Contrastive Loss

چرا اینجا از تابع نمایی استفاده می‌شود؟

چرا دو بخش مجزا برای image-to-text و text-to-image وجود دارد؟

این مدل هم‌تراز در سطح کلان (Global) چه کارهایی می‌تواند انجام دهد؟

۱- جست‌وجوی تصویر بر اساس متن

۲- جست‌وجوی تصاویر مشابه

۳- دسته‌بندی تصویر

چگونه از قابلیت تولید کپشن برای تصویر پشتیبانی کنیم؟

پیش‌بینی احتمال کلمات در واژگان

شبکه عصبی ما چگونه پیش‌بینی‌کننده احتمال کلمه فوق را پیاده‌سازی می‌کند؟

گام ۴: هم‌ترازی محلی تصویر و متن با Cross-Attention

گام ۵: تولید ماتریس احتمال کلمات با فرافکنی خطی

زیان آنتروپی متقاطع برای یک کلمه‌ پیش‌بینی‌شده

زیان کامل (Full Loss)

تولید کپشن تصویر: استنتاج مدل

پدینگ

آموزش مدل (Model Training)

چگونه از پاسخ‌گویی به پرسش‌های تصویری پشتیبانی کنیم؟

مدل‌های پایه (Foundation Models)

کدگذار ViT و Attention Pooling

کدگذار ViT

کدگذار ViT فریز می‌شود

چرا encoded_img_patches به دو بخش مساوی تقسیم می‌شود؟

مطالب مرتبط

دیدگاه‌ها

دیدگاهتان را بنویسید لغو پاسخ