| 👀 خبر در یک نگاه:
گوگل API جمینی را برای پشتیبانی از مدل هوش مصنوعی جمینی ۳ بهروزرسانی کرد. این بهبودها شامل کنترل سادهتر فرایند فکر کردن، مدیریت دقیقتر پردازش بینایی چندمدلی، «امضاهای فکری» برای حفظ استدلال و ترکیب خروجیهای ساختاریافته با ابزارهای جمینی برای کارهای عاملیتدار است. |
گوگل API جمینی را بهروزرسانی کرده تا از مدل هوش مصنوعی تازه معرفیشده خود، جمینی ۳، پشتیبانی کند. بهروزرسانیهای Gemini API که شامل کنترل سادهتر بر فرایند فکر کردن، مدیریت دقیقتر پردازش بینایی چندمدلی و «امضاهای فکری» (Thought Signatures) برای بهبود فراخوانی توابع و تولید تصویر است، برای پشتیبانی از قابلیتهای استدلال، برنامهنویسی خودکار، درک چندمدلی و تواناییهای عاملیتدار جمینی ۳ طراحی شدهاند.
بهبودهای Gemini API
بهبودهای API جمینی در پستی در وبلاگ گوگل توضیح داده شد. گوگل اعلام کرد این تغییرات به کاربران کنترل بیشتری میدهد روی اینکه مدل چگونه استدلال میکند، رسانهها را پردازش میکند و با دنیای «خارج» تعامل دارد.
پارامتر thinking_level
یکی از بهبودهای API جمینی، سادهسازی پارامترهای کنترل فرایند فکر کردن است که از طریق پارامتری به نام thinking_level انجام میشود. این پارامتر حداکثر عمق استدلال داخلی مدل را قبل از تولید پاسخ تعیین میکند. پارامتر thinking_level را میتوان برای وظایف پیچیده مثل تحلیل استراتژیک کسبوکار روی high و برای برنامههایی که حساس به تاخیر و هزینه هستند روی low تنظیم کرد.
معرفی Media Resolution
API جمینی اکنون کنترل دقیقتری روی پردازش بینایی چندمدلی ارائه میدهد، با پارامتری به نام media_resolution که مشخص میکند برای ورودیهای تصویر، ویدیو و سند از چند توکن استفاده شود. توسعهدهندهها میتوانند بین کیفیت بصری و استفاده از توکن تعادل برقرار کنند. رزولوشن را میتوان با media_resolution_low، media_resolution_medium یا media_resolution_high تنظیم کرد. گوگل میگوید رزولوشن بالاتر توانایی مدل در خواندن متن ریز یا شناسایی جزئیات کوچک را افزایش میدهد.
معرفی Thought Signatures
با شروع از جمینی ۳، API جمینی همچنین «امضاهای فکری» را برای بهبود فراخوانی توابع و تولید تصویر بازگردانده است. امضاهای فکری نمایههای رمزنگاریشدهای از فرایند فکری داخلی مدل هستند. با ارسال این امضاها در فراخوانیهای بعدی API، توسعهدهندهها میتوانند اطمینان حاصل کنند که جمینی ۳ زنجیره استدلال خود را در طول یک گفتگو حفظ میکند. گوگل میگوید این برای جریانهای کاری پیچیده و چندمرحلهای عاملیتدار اهمیت دارد، جایی که حفظ «چرایی» یک تصمیم به اندازه خود تصمیم اهمیت دارد.
خروجیهای ساختاریافته
علاوه بر این، توسعهدهندهها اکنون میتوانند خروجیهای ساختاریافته را با ابزارهای میزبانیشده توسط جمینی، بهویژه Grounding with Google Search و URL Context ترکیب کنند. گوگل میگوید ترکیب خروجیهای ساختاریافته بهویژه برای ساخت عاملهایی مفید است که باید اطلاعات زنده از وب یا صفحات خاص وب دریافت کرده و دادهها را به فرمت JSON برای کارهای بعدی استخراج کنند.
قیمتگذاری
گوگل همچنین اعلام کرده که قیمتگذاری Grounding with Google Search را بهروزرسانی کرده تا از جریانهای کاری عاملیتدار بهتر پشتیبانی کند؛ مدل قیمتگذاری از نرخ ثابت ۳۵ دلار برای هر ۱۰۰۰ درخواست به نرخ مبتنی بر استفاده ۱۴ دلار برای هر ۱۰۰۰ جستجوی وب تغییر یافته است.
منبع: infoworld.com




دیدگاهتان را بنویسید