گوگل Gemini API را برای جمینی (جمنای) ۳ به‌روزرسانی کرد

زمان مطالعه:

5

دقیقه

انتشار:

به‌روزرسانی:

تعداد نظرات: 0

👀 خبر در یک نگاه:

گوگل API جمینی را برای پشتیبانی از مدل هوش مصنوعی جمینی ۳ به‌روزرسانی کرد. این بهبودها شامل کنترل ساده‌تر فرایند فکر کردن، مدیریت دقیق‌تر پردازش بینایی چند‌مدلی، «امضاهای فکری» برای حفظ استدلال و ترکیب خروجی‌های ساختاریافته با ابزارهای جمینی برای کارهای عاملیت‌دار است.

گوگل API جمینی را به‌روزرسانی کرده تا از مدل هوش مصنوعی تازه معرفی‌شده خود، جمینی ۳، پشتیبانی کند. به‌روزرسانی‌های Gemini API که شامل کنترل ساده‌تر بر فرایند فکر کردن، مدیریت دقیق‌تر پردازش بینایی چند‌مدلی و «امضاهای فکری» (Thought Signatures) برای بهبود فراخوانی توابع و تولید تصویر است، برای پشتیبانی از قابلیت‌های استدلال، برنامه‌نویسی خودکار، درک چند‌مدلی و توانایی‌های عاملیت‌دار جمینی ۳ طراحی شده‌اند.

بهبودهای Gemini API

بهبودهای API جمینی در پستی در وبلاگ گوگل توضیح داده شد. گوگل اعلام کرد این تغییرات به کاربران کنترل بیشتری می‌دهد روی اینکه مدل چگونه استدلال می‌کند، رسانه‌ها را پردازش می‌کند و با دنیای «خارج» تعامل دارد.

پارامتر thinking_level

یکی از بهبودهای API جمینی، ساده‌سازی پارامترهای کنترل فرایند فکر کردن است که از طریق پارامتری به نام thinking_level انجام می‌شود. این پارامتر حداکثر عمق استدلال داخلی مدل را قبل از تولید پاسخ تعیین می‌کند. پارامتر thinking_level را می‌توان برای وظایف پیچیده مثل تحلیل استراتژیک کسب‌وکار روی high و برای برنامه‌هایی که حساس به تاخیر و هزینه هستند روی low تنظیم کرد.

معرفی Media Resolution

API جمینی اکنون کنترل دقیق‌تری روی پردازش بینایی چند‌مدلی ارائه می‌دهد، با پارامتری به نام media_resolution که مشخص می‌کند برای ورودی‌های تصویر، ویدیو و سند از چند توکن استفاده شود. توسعه‌دهنده‌ها می‌توانند بین کیفیت بصری و استفاده از توکن تعادل برقرار کنند. رزولوشن را می‌توان با media_resolution_low، media_resolution_medium یا media_resolution_high تنظیم کرد. گوگل می‌گوید رزولوشن بالاتر توانایی مدل در خواندن متن ریز یا شناسایی جزئیات کوچک را افزایش می‌دهد.

معرفی Thought Signatures

با شروع از جمینی ۳، API جمینی همچنین «امضاهای فکری» را برای بهبود فراخوانی توابع و تولید تصویر بازگردانده است. امضاهای فکری نمایه‌های رمزنگاری‌شده‌ای از فرایند فکری داخلی مدل هستند. با ارسال این امضاها در فراخوانی‌های بعدی API، توسعه‌دهنده‌ها می‌توانند اطمینان حاصل کنند که جمینی ۳ زنجیره استدلال خود را در طول یک گفتگو حفظ می‌کند. گوگل می‌گوید این برای جریان‌های کاری پیچیده و چندمرحله‌ای عاملیت‌دار اهمیت دارد، جایی که حفظ «چرایی» یک تصمیم به اندازه خود تصمیم اهمیت دارد.

خروجی‌های ساختاریافته

علاوه بر این، توسعه‌دهنده‌ها اکنون می‌توانند خروجی‌های ساختاریافته را با ابزارهای میزبانی‌شده توسط جمینی، به‌ویژه Grounding with Google Search و URL Context ترکیب کنند. گوگل می‌گوید ترکیب خروجی‌های ساختاریافته به‌ویژه برای ساخت عامل‌هایی مفید است که باید اطلاعات زنده از وب یا صفحات خاص وب دریافت کرده و داده‌ها را به فرمت JSON برای کارهای بعدی استخراج کنند.

قیمت‌گذاری

گوگل همچنین اعلام کرده که قیمت‌گذاری Grounding with Google Search را به‌روزرسانی کرده تا از جریان‌های کاری عاملیت‌دار بهتر پشتیبانی کند؛ مدل قیمت‌گذاری از نرخ ثابت ۳۵ دلار برای هر ۱۰۰۰ درخواست به نرخ مبتنی بر استفاده ۱۴ دلار برای هر ۱۰۰۰ جستجوی وب تغییر یافته است.

منبع: infoworld.com

فرصت‌های شغلی

ایجاد محیطی با ارزش های انسانی، توسعه محصولات مالی کارامد برای میلیون ها کاربر و استفاده از فناوری های به روز از مواردی هستند که در آسا به آن ها می بالیم. اگر هم مسیرمان هستید، رزومه تان را برایمان ارسال کنید.

همکاری با آسا

نویسنده:

دریا بهرامی

گوگل Gemini API را برای جمینی (جمنای) ۳ به‌روزرسانی کرد