مدلهای زبانی بزرگ مثل GPT-4 دنیای هوش مصنوعی را متحول کردهاند. استفاده از GPT-4 و GPT-3.5 در چتبات ChatGPT باعث شد تا گوگل با سرعت و قدرت بیشتری هوش مصنوعی اختصاصی خود را توسعه دهد. نتیجه این رقابت، عرضه Google Gemini از سمت گوگل بود. اما گوگل جمنای دقیقا چیست؟ چه کاربردی دارد و چطور میتواند به تهدیدی علیه ChatGPT تبدیل شود؟ با ما در بلاگ آسا همراه باشید تا هر آنچه را که لازم است در مورد Google Gemini بدانید، پیدا کنید.
Google Gemini چیست؟
Gemini آخرین مدل زبانی بزرگ گوگل (LLM) است. توضیح کامل اینکه LLM چیست به یک مقاله مجزا نیاز دارد اما به عبارت ساده، مدلهای زبانی بزرگ به سیستمهای هوش مصنوعی گفته میشود که با استفاده از میلیاردها پارامتر آموزش دیدهاند تا بتوانند همانند انسانها درک کنند، پاسخ دهند و مطابق با نیازها محتوا تولید کنند.
بر خلاف تصور بسیاری از افراد، مدلهای زبانی مانند GPT و Gemini رباتهای گفتگو یا چتبات نیستند؛ بلکه سیستمهای هوش مصنوعی (AI) هستند که توسعه چنین ابزارهایی را ممکن میسازند. جمنای هم با همین فلسفه متولد شده تا در مجموعه وسیعی از ابزارهای گوگل مانند چتبات گوگل بارد، موتور جستجوی گوگل، یوتیوب، سیستم عامل اندروید و … مورد استفاده قرار بگیرد.
نکته مهم در مورد جمنای، چندوجهی (Multimodal) بودن آن است؛ به این معنی که میتواند متن، صدا، تصویر و حتی ویدئو را درک کند. علاوه بر این، گوگل ادعا میکند که جمنای قادر است مسائل پیچیده فیزیک و ریاضی را درک و حتی کدهایی با کیفیت بالا در زبانهای برنامهنویسی معروف تولید کند. با این توصیفات باید جمنای را پیشرفتهترین و بزرگترین مدل زبانی بزرگ (LLM) دانست، اما بگذارید کمی بیشتر در مورد ویژگیهای Google Gemini صحبت کنیم.
ویژگیهای کلیدی Google Gemini
ویژگیهای کلیدی هوش مصنوعی Gemini شامل موارد زیر است. عمده این ویژگیها به لطف آموزش چندوجهی با میلیاردها داده میسر شده است.
۱. درک متن، تصاویر، صدا و موارد دیگر
گوگل جمنای در حقیقت یک هوش مصنوعی چندوجهی است که در آن انواع دادههای مختلف با الگوریتمهای متعدد ادغام میشوند تا بهترین عملکرد ممکن را ارائه دهند. Gemini از این الگوها استفاده میکند و میتواند تصاویر، صدا، متن، ویدیو و دیگر انواع دادهها را پردازش و درک کند.
۲. قابلیت اطمینان، مقیاسپذیری و کارایی
هوش مصنوعی Gemini از تراشههای TPUv5 گوگل استفاده میکند و بسیاری از رسانهها ادعا دارند که جمنای پنج برابر قویتر از GPT-4 است. با اینکه بنچمارکها چنین اختلافی را نشان نمیدهند، اما پردازش سریعتر، Gemini را قادر میسازد تا کارهای پیچیده را آسانتر از سایر تکنولوژیها انجام دهد و به چندین درخواست به طور همزمان رسیدگی کند.
۳. توانایی درک استدلالهای پیچیده
گوگل جمنای با استفاده از مجموعه داده عظیمی شامل متن، کد، تصویر و.. آموزش دیده است. این تضمین میکند که Gemini میتواند به جدیدترین اطلاعات دسترسی داشته باشد و پاسخهای دقیق و قابل اعتمادی به سؤالات شما ارائه دهد. به گفته گوگل، این مدل در تستهای مختلف هوش (مثل معیار MMLU) از GPT-4 بهتر عمل میکند.
۴. کدنویسی پیشرفته
Google Gemini میتواند کدهایی را با کیفیت بالا، در پرکاربردترین زبانهای برنامهنویسی مانند Python، Java، C++ و Go درک کرده، تولید کند و توضیح دهد. جمنای با چنین قابلیتی میتواند به یک مدل زبانی پیشرو برای کدنویسی تبدیل شود. علاوه بر این، گوگل جمنای در چندین معیار کدنویسی، از جمله HumanEval (یک استاندارد صنعتی برای ارزیابی عملکرد کدینگ)، برتریهای خود را ثابت کرده است.
۵. مسئولیتپذیری و ایمنی
استراتژیهای حفاظتی جدیدی به اصول و خطمشیهای هوش مصنوعی Google اضافه شده تا قابلیتهای چندوجهی Gemini را ایمن و مسئولیتپذیر کند. گوگل میگوید که تحقیقات جدیدی در مورد خطرهای بالقوه مانند حملات سایبری، متقاعد کردن و خودمختاری انجام دادهاند و از بهترین تکنیکهای تست خصمانه برای شناسایی مسائل ایمنی حیاتی استفاده کردهاند.
نسخههای Gemini کدامند؟
گوگل میگوید جمنای، جانشین LaMDA و PalM 2 و انعطافپذیرترین مدل آنها است که میتواند روی همه چیز، از مراکز داده تا دستگاههای تلفن همراه اجرا شود. قابلیتهای پیشرفته Gemini، به توسعهدهندگان و سازمانها کمک میکند تا از هوش مصنوعی برای افزایش مقیاس و ساخت محصولات جدید استفاده کنند.
در حال حاضر سه نسخه از هوش مصنوعی Google Gemini وجود دارد:
۱. Gemini Nano: نسخه Gemini Nano کارآمدترین مدل برای استفاده در دستگاههای روزمره است که استفاده از هوش مصنوعی جمنای را بدون اتصال به سرورهای خارجی ممکن میکند. به عبارت دیگر، جمنای نانو برای اجرا روی گوشیهای هوشمند، به ویژه گوگل پیکسل ۸، طراحی شده است.
۲. Gemini Pro: جمنای پرو برای وظایف پیچیدهتر بهینه شده و در Bard، جدیدترین چتبات گوگل و همچنین یوتیوب و موتور جستجوی گوگل مورد استفاده قرار میگیرد. بنابراین نسخه پرو میتواند پرسوجوهای پیچیده را درک کند و به سرعت به آنها پاسخ دهد.
۳. Gemini Ultra: در نهایت نسخه Ultra را باید بزرگترین و تواناترین مدل جمنای دانست که میتواند اطلاعات ظریف متنی، کد، صدا و تصویر را درک کند و به سوالات مرتبط با موضوعات پیچیده پاسخ دهد. جمنای اولترا در ۳۰ معیار از ۳۲ معیار پرکاربرد مورد استفاده در توسعه LLM، از بهترین نتایج موجود قبلی، عملکرد بهتری داشته است.
گوگل جمنای چگونه کار میکند؟
گوگل میگوید که جمنای یک انقلاب در مدلهای هوش مصنوعی چندوجهی است؛ چرا که قبل از آن، مدلهای هوش مصنوعی چندوجهی با ترکیب چندین مدل آموزشدیده به طور جداگانه توسعه داده میشدند. به عنوان مثال، پردازش متن و تصویر به طور جداگانه آموزش داده و سپس در یک مدل واحد ترکیب میشدند تا ویژگیهای یک مدل چندوجهی واقعی را پیاده کنند.
مهمترین تفاوت جمنای همین است؛ گوگل Gemini را از همان ابتدا با یک مجموعه داده چندین میلیاردی از متون، تصاویر، ویدیو و صدا آموزش داده است. سپس به کمک تکنیکهایی مثل یادگیری تقویتی با بازخورد انسانی (RLHF) مدل را برای پاسخهای بهتر و ایمنتر، تنظیم کردند.
گوگل ادعا میکند که Gemini میتواند «بهطور یکپارچه همه نوع ورودیها را از پایه بفهمد و استدلال کند». برای مثال، میتواند نمودارها و زیرنویسهای همراه آنها را درک کند، متن را از روی نشانهها بخواند و حتی آنها را تحلیل کند. همه اینها به مدلهای Gemini اجازه میدهد تا به درخواستها با متن، تصویر و کد تولید شده پاسخ دهد.
GEMINI چه کارهایی میتواند انجام دهد؟
همانطور که گفتیم، Google Gemini میتواند با اشکال مختلف ورودی و خروجی از جمله متن، کد، صدا، تصویر و ویدئو سروکار داشته باشد که به آن انعطاف زیادی در انجام طیف گستردهای از وظایف میدهد.
در ویدیویی که گوگل درباره هوش مصنوعی خود منتشر کرده است، میبینیم که جمنای میتواند در بازی توپ و فنجان به راحتی توپ کاغذی را پیدا کند و حتی زمانی که فرد دست خود را به شکل بازی سنگ کاغذ قیچی تکان میدهد، جمنای تشخیص میدهد که فرد در حال انجام این بازی است. همچنین جمنای به راحتی توپهای بافتنی و رنگ آنها تشخیص میدهد و زمانی که آزمایشکننده از او میخواهد چند ایده در مورد چیزهایی که میتوان با این بافتنیها ساخت بدهد، جمنای تصاویری از عروسکها و اشیا بافتنی ارائه میدهد که همگی توسط هوش مصنوعی تولید شدهاند.
ویدیو کامل معرفی مدل زبانی گوگل Gemini را میتوانید در اینجا ببینید.
آیا واقعا جمنای تا این حد پیشرفته است؟
با این حال، عملکرد واقعی جمنای هنوز کامل نیست و نمیتوانیم از آن انتظار عملکردی مشابه نسخه نمایشی ویدیو را داشته باشیم. برای مثال، نسخه جمنای پرو که هماکنون در چت بات Google Bard وجود دارد هم اشتباه میکند. جمنای در تشخیص و نام بردن از برندگان اخیر جایزه اسکار و تولید کد دقیق با مشکل مواجه شده است. علاوه بر این جمنای در بسیاری از موارد، هنگام کار به زبانهای غیر انگلیسی به اندازه کافی دقیق نیست. در نتیجه باید گفت که جمنای قدرتمند است اما نه به اندازهای که گوگل ادعا میکند!
بنچمارکهای جمنای و مقایسه آن با GPT-4
مدلهای جمنای قبلا تحت آزمایشهای گستردهای قرار گرفتند تا عملکردشان در وظایف مختلف ارزیابی شود. همانطور که گفتیم، گوگل با اشاره به عملکرد جمنای اولترا در ۳۲ معیار توسعه مدل زبانی بزرگ (LLM)، قدرت آن را به رخ رقبا میکشد. اما جمنای در مقایسه با GPT-4 و GPT-4V (مدل چندوجهی) چگونه عمل میکند؟ بیایید ابتدا تستهای بنچمارک Google Gemini و مقایسه آن با GPT-4 را در وظایف متنی بررسی کنیم.
همانطور که در جدول بالا میبینید، نسخه اولترا گوگل جمنای اولین مدلی است که در زمینه درک زبان چندوظیفهای عظیم (MMLU) با امتیاز ۹۰٪ از متخصصان انسانی پیشی گرفته است. MMLU یا Massive Multitask Language Understanding شامل ۵۷ موضوع مختلف از جمله ریاضی، فیزیک، تاریخ، حقوق، پزشکی و اخلاق است تا توانایی فرد در حل مسائل و درک کلی از جهان را ارزیابی کند. در مقایسه با GPT-4، نتایج جمنای خیلی شگفتانگیز به نظر نمیرسند و تفاوتها تنها چند درصد است.
اما عملکرد Google Gemini در تستهای چندوجهی چگونه است؟ جایی که گوگل میگوید جمنای از همان ابتدا با تریلیونها داده مختلف، از متن تا ویدیو، آموزش دیده است و قرار است انقلابی در مدلهای زبانی چندوجهی باشد. بیایید با بررسی جدول تستهای چندوجهی و مقایسه آن با GPT-4V به این سوال پاسخ دهیم.
همانطور که در جدول بالا مشخص است، جمنای اولترا در تست جدید درک چندوجهی چندرشتهای عظیم یا MMMU (معادل Massive Multidiscipline Multimodal Understanding) با امتیاز ۵۹.۴ درصد به بهترین امتیاز در بین مدلهای زبانی دست یافت، اما باز هم تفاوت نسبت به مدل GPT-4V تنها در حد چند درصد است.
در نهایت باید گفت Google Gemini شاید قدرتمندترین مدل زبانی بزرگ باشد، اما تستها نشان میدهد پیشرفت گوگل آنقدرها که به نظر میرسید چشمگیر نیست. تفاوتهای عملکردی جمنای در مقایسه با GPT-4 چندان محسوس نیست و حتی در برخی از بخشها مثل تولید کد و سازگاری با زبانهای غیرانگلیسی، پشت سر GPT-4 قرار میگیرد.
چگونه میتوانید از Gemini استفاده کنید؟
توسعهدهندگان و مشتریان سازمانی میتوانند از طریق API Gemini در Google AI Studio یا Google Cloud Vertex AI به نسخه پرو جمنای دسترسی داشته باشند. Google AI Studio یک IDE آنلاین (مبتنی بر مرورگر) است که توسعهدهندگان میتوانند از آن برای نمونهسازی اولیه و راهاندازی آسان برنامهها با استفاده از API استفاده کنند.
از طرف دیگر، Google Cloud Vertex یک پلتفرم هوش مصنوعی کاملا مدیریت شده است که همه ابزارهای مورد نیاز برای ساخت و استفاده از هوش مصنوعی مولد را ارائه میدهد. گوگل میگوید Vertex AI امکان سفارشیسازی Gemini را با کنترل کامل دادهها و بهرهمندی از ویژگیهای اضافی Google Cloud برای امنیت سازمانی، ایمنی، حریم خصوصی و حاکمیت دادهها و انطباق ارائه میدهد.
توسعهدهندگان اندروید هم میتوانند با استفاده از AICore، که در اندروید ۱۴ و روی موبایلهای Pixel 8 Pro ارائه شده است، از هوش مصنوعی جمنای نانو برای توسعه برنامههای مورد نظر خود استفاده کنند.
سخن پایانی
در این مقاله تلاش کردیم تا کلیت هوش مصنوعی جمنای، ویژگیهای کلیدی آن و تفاوتهایی که با سایر مدلهای زبانی دارد را بررسی کنیم. مدل زبانی Google Gemini قدرتمندترین هوش مصنوعی گوگل است که به لطف چندوجهی بودن و بهرهمندی از میلیاردها پارامتر، تواناییهای فوقالعادهای دارد. جمنای تواناییهای چشمگیری دارد، اما آن هوش مصنوعی خارقالعاده و همهجانبهای نیست که گوگل میخواهد آن را باور کنید. تنها از یک چیز میتوان مطمئن بود و آن شعلهورتر شدن رقابت در توسعه هوش مصنوعی بین غولهای تکنولوژی دنیاست. باید صبر کرد و دید که این فناوری جذاب و شاید ترسناک تا کجا پیش میرود.
منابع:
دیدگاهتان را بنویسید