جمینی ۳ فلش با قابلیت بینش عاملی (Agentic Vision) ارتقا یافت

نویسنده:

دریا بهرامی

انتشار:

به‌روزرسانی:

تعداد نظرات: 0

زمان مطالعه: 3 دقیقه

👀 خبر در یک نگاه:

جمینی ۳ فلش با بینش عاملی (Agentic Vision) ارتقا یافته که استدلال بصری را با اجرای کد ترکیب می‌کند. مدل اکنون تصاویر را چندمرحله‌ای تحلیل، دست‌کاری و حاشیه‌نویسی می‌کند تا دقت افزایش یافته و رفتارهای جدید هوش مصنوعی فعال شود. این قابلیت در API و اپ جمینی در دسترس است.

گوگل قابلیت بینش عاملی (Agentic Vision) را به جمینی ۳ فلش (Gemini 3 Flash) اضافه کرده است؛ قابلیتی که استدلال بصری را با اجرای کد ترکیب می‌کند تا پاسخ‌ها را «بر شواهد بصری متکی کند».

به گفته گوگل، این قابلیت نه‌تنها دقت را افزایش می‌دهد، بلکه مهم‌تر از آن، رفتارهای کاملا جدید مبتنی بر هوش مصنوعی را فعال می‌کند.

به‌طور خلاصه، جمینی ۳ فلش به‌جای تحلیل تصویر در یک مرحله، اکنون پردازش بینایی را به‌صورت یک بررسی عاملی انجام می‌دهد؛ رویکردی که در آن مراحل را برنامه‌ریزی می‌کند، تصویر را دست‌کاری می‌کند و پیش از ارائه پاسخ، با استفاده از کد جزئیات را راستی‌آزمایی می‌کند.

این رویکرد به یک چرخه «فکر کن → عمل کن → مشاهده کن» (think → act → observe) منجر می‌شود؛ چرخه‌ای که در آن مدل ابتدا با تحلیل درخواست و تصویر، یک رویکرد چندمرحله‌ای را برنامه‌ریزی می‌کند؛ سپس کد پایتون تولید و اجرا می‌کند تا تصویر را دست‌کاری کرده و اطلاعات بیشتری از آن استخراج کند، مثل برش دادن، بزرگ‌نمایی، حاشیه‌نویسی یا محاسبه؛ و در نهایت، تصویر تغییر‌یافته را به بافت (context) خود اضافه می‌کند و بعد از آن یک پاسخ جدید تولید می‌کند.

به گفته گوگل، این رویکرد باعث ۵ تا ۱۰ درصد افزایش دقت در وظایف بینایی (vision tasks) در بیشتر بنچمارک‌ها می‌شود که ناشی از دو عامل اصلی است.

اول، اجرای کد امکان بررسی دقیق جزئیات تصویر را فراهم می‌کند، با بزرگ‌نمایی عناصر کوچک بصری مثل متن ریز، به جای اتکا به حدس و گمان. جمینی همچنین می‌تواند با کشیدن جعبه‌های محدوده و برچسب‌گذاری روی تصویر، استدلال بصری خود را تقویت کند، برای مثال با شمارش درست اشیا. گوگل ادعا می‌کند که با استفاده از چنین حاشیه‌نویسی‌هایی، مشکل مشهور و سخت شمارش ارقام روی دست را حل کرده است.

دوم، محاسبات بصری و مصورسازی داده‌ها (Visual Arithmetic and Data Visualization) می‌توانند با استفاده از کد پایتون قطعی (deterministic Python code) و کتابخانه Matplotlib انجام شوند، که باعث کاهش خطاهای تخیلی (Hallucinations) در ریاضیات پیچیده مبتنی بر تصویر می‌شود.

در واکنش به اعلام گوگل، کاربر کانیکا (Kanika) در X نوشت:

«خواندن این مطلب باعث می‌شود ابزارهای بینایی قبلی در نگاه گذشته ناتمام به نظر برسند. بسیاری از موارد خاص و پیچیده وجود داشتند صرفا به این دلیل که مدل‌ها نمی‌توانستند مداخله کرده یا از نظر بصری صحت را بررسی کنند. بینش عاملی به نظر می‌رسد مسیری است که همه در نهایت آن را دنبال خواهند کرد.»

کاربر ایزنتو (Izento) در ردیت نوشت:

«پیامدهای این موضوع عظیم است. اساسا، آن‌ها استدلال بصری را برای هوش مصنوعی باز کرده‌اند تا در ربات‌های فیزیکی واقعی پیاده شود. ربات‌ها اکنون آگاهی زمینه‌ای بیشتر و قابلیت‌های عاملی بسیار بیشتری خواهند داشت.»

کاربران دیگر ردیت اشاره کردند که چت‌جی‌پی‌تی مدتی است از رویکرد مشابهی از طریق تفسیرگر کد استفاده می‌کند؛ با این حال، هنوز به نظر می‌رسد قادر به شمارش دقیق ارقام روی دست نیست.

نقشه راه گوگل برای بینش عاملی شامل رفتارهای ضمنی بیشتر است، مانند فعال‌سازی خودکار بزرگ‌نمایی، چرخش و سایر اقدامات بدون نیاز به درخواست صریح؛ افزودن ابزارهای جدید مانند جستجوی وب و جستجوی معکوس تصویر برای افزایش شواهد در دسترس مدل؛ و گسترش پشتیبانی به سایر مدل‌های خانواده جمینی فراتر از فلش.

بینش عاملی از طریق API جمینی در Google AI Studio و Vertex AI قابل دسترسی است و به تدریج در اپلیکیشن جمینی در Thinking mode نیز عرضه می‌شود.

منبع: infoq.com

🏷️ برچسب‌ها: ابزار هوش مصنوعی

فرصت‌های شغلی

ایجاد محیطی با ارزش های انسانی، توسعه محصولات مالی کارامد برای میلیون ها کاربر و استفاده از فناوری های به روز از مواردی هستند که در آسا به آن ها می بالیم. اگر هم مسیرمان هستید، رزومه تان را برایمان ارسال کنید.

همکاری با آسا