| 👀 خبر در یک نگاه:
جمینی ۳ فلش با بینش عاملی (Agentic Vision) ارتقا یافته که استدلال بصری را با اجرای کد ترکیب میکند. مدل اکنون تصاویر را چندمرحلهای تحلیل، دستکاری و حاشیهنویسی میکند تا دقت افزایش یافته و رفتارهای جدید هوش مصنوعی فعال شود. این قابلیت در API و اپ جمینی در دسترس است. |
گوگل قابلیت بینش عاملی (Agentic Vision) را به جمینی ۳ فلش (Gemini 3 Flash) اضافه کرده است؛ قابلیتی که استدلال بصری را با اجرای کد ترکیب میکند تا پاسخها را «بر شواهد بصری متکی کند».
به گفته گوگل، این قابلیت نهتنها دقت را افزایش میدهد، بلکه مهمتر از آن، رفتارهای کاملا جدید مبتنی بر هوش مصنوعی را فعال میکند.
بهطور خلاصه، جمینی ۳ فلش بهجای تحلیل تصویر در یک مرحله، اکنون پردازش بینایی را بهصورت یک بررسی عاملی انجام میدهد؛ رویکردی که در آن مراحل را برنامهریزی میکند، تصویر را دستکاری میکند و پیش از ارائه پاسخ، با استفاده از کد جزئیات را راستیآزمایی میکند.
این رویکرد به یک چرخه «فکر کن → عمل کن → مشاهده کن» (think → act → observe) منجر میشود؛ چرخهای که در آن مدل ابتدا با تحلیل درخواست و تصویر، یک رویکرد چندمرحلهای را برنامهریزی میکند؛ سپس کد پایتون تولید و اجرا میکند تا تصویر را دستکاری کرده و اطلاعات بیشتری از آن استخراج کند، مثل برش دادن، بزرگنمایی، حاشیهنویسی یا محاسبه؛ و در نهایت، تصویر تغییریافته را به بافت (context) خود اضافه میکند و بعد از آن یک پاسخ جدید تولید میکند.
به گفته گوگل، این رویکرد باعث ۵ تا ۱۰ درصد افزایش دقت در وظایف بینایی (vision tasks) در بیشتر بنچمارکها میشود که ناشی از دو عامل اصلی است.
اول، اجرای کد امکان بررسی دقیق جزئیات تصویر را فراهم میکند، با بزرگنمایی عناصر کوچک بصری مثل متن ریز، به جای اتکا به حدس و گمان. جمینی همچنین میتواند با کشیدن جعبههای محدوده و برچسبگذاری روی تصویر، استدلال بصری خود را تقویت کند، برای مثال با شمارش درست اشیا. گوگل ادعا میکند که با استفاده از چنین حاشیهنویسیهایی، مشکل مشهور و سخت شمارش ارقام روی دست را حل کرده است.
دوم، محاسبات بصری و مصورسازی دادهها (Visual Arithmetic and Data Visualization) میتوانند با استفاده از کد پایتون قطعی (deterministic Python code) و کتابخانه Matplotlib انجام شوند، که باعث کاهش خطاهای تخیلی (Hallucinations) در ریاضیات پیچیده مبتنی بر تصویر میشود.
در واکنش به اعلام گوگل، کاربر کانیکا (Kanika) در X نوشت:
«خواندن این مطلب باعث میشود ابزارهای بینایی قبلی در نگاه گذشته ناتمام به نظر برسند. بسیاری از موارد خاص و پیچیده وجود داشتند صرفا به این دلیل که مدلها نمیتوانستند مداخله کرده یا از نظر بصری صحت را بررسی کنند. بینش عاملی به نظر میرسد مسیری است که همه در نهایت آن را دنبال خواهند کرد.»
کاربر ایزنتو (Izento) در ردیت نوشت:
«پیامدهای این موضوع عظیم است. اساسا، آنها استدلال بصری را برای هوش مصنوعی باز کردهاند تا در رباتهای فیزیکی واقعی پیاده شود. رباتها اکنون آگاهی زمینهای بیشتر و قابلیتهای عاملی بسیار بیشتری خواهند داشت.»
کاربران دیگر ردیت اشاره کردند که چتجیپیتی مدتی است از رویکرد مشابهی از طریق تفسیرگر کد استفاده میکند؛ با این حال، هنوز به نظر میرسد قادر به شمارش دقیق ارقام روی دست نیست.
نقشه راه گوگل برای بینش عاملی شامل رفتارهای ضمنی بیشتر است، مانند فعالسازی خودکار بزرگنمایی، چرخش و سایر اقدامات بدون نیاز به درخواست صریح؛ افزودن ابزارهای جدید مانند جستجوی وب و جستجوی معکوس تصویر برای افزایش شواهد در دسترس مدل؛ و گسترش پشتیبانی به سایر مدلهای خانواده جمینی فراتر از فلش.
بینش عاملی از طریق API جمینی در Google AI Studio و Vertex AI قابل دسترسی است و به تدریج در اپلیکیشن جمینی در Thinking mode نیز عرضه میشود.
منبع: infoq.com




دیدگاهتان را بنویسید