خانه / اخبار تکنولوژی / اپل مدل سریع و پیشرفته DiffuCoder را برای کدنویسی متن‌باز کرد

اپل مدل سریع و پیشرفته DiffuCoder را برای کدنویسی متن‌باز کرد

اپل مدل سریع و پیشرفته DiffuCoder را برای کدنویسی متن‌باز کرد

نویسنده:

انتشار:

به‌روزرسانی:

تعداد نظرات: 0

زمان مطالعه: 3 دقیقه
👀 خبر در یک نگاه:

اپل مدل DiffuCoder را متن‌باز کرد؛ یک مدل زبانی بزرگ مبتنی بر دیفیوژن که کدنویسی را سریع‌تر و دقیق‌تر انجام می‌دهد. این مدل با تکنیک یادگیری تقویتی coupled-GRPO بهینه شده و در بنچمارک‌ها عملکردی رقابتی با GPT-4o دارد.

اپل DiffuCoder را متن‌باز کرد؛ یک مدل زبانی بزرگ مبتنی بر دیفیوژن (dLLM) که برای انجام وظایف کدنویسی به‌صورت اختصاصی تنظیم شده است. DiffuCoder بر پایه Qwen-2.5-Coder ساخته شده و در چندین بنچمارک مرتبط با کدنویسی عملکرد بهتری نسبت به دیگر مدل‌های مخصوص کد دارد.

DiffuCoder چگونه کار می‌کند؟

برخلاف مدل‌های زبانی معمول که متن را به‌صورت خودبازگشتی و از «چپ به راست» تولید می‌کنند، مدل‌های dLLM متن را با حذف نویز از کل دنباله به‌صورت موازی تولید می‌کنند. این روش می‌تواند به معنای سرعت تولید بالاتر باشد. پژوهشگران اپل DiffuCoder را توسعه دادند تا بتوانند بهترین راهکارهای تنظیم و استنتاج مدل‌های dLLM را بررسی کنند. در این پژوهش، آن‌ها نوعی از الگوریتم GRPO (بهینه‌سازی نسبی سیاست گروهی) را توسعه دادند که آن را Coupled-GRPO نامیدند و باعث بهبود عملکرد مدل شد. در بنچمارک کدنویسی MBPP، مدل DiffuCoder عملکرد بهتری نسبت به Gemini Diffusion داشت و عملکردی نزدیک به GPT-4o از خود نشان داد.

به گفته اپل:

«روش ما با به‌کارگیری استراتژی نوآورانه‌ای به نام Coupled-Sampling، احتمال‌ها را دقیق‌تر برآورد می‌کند. Coupled-GRPO به‌طور چشم‌گیری عملکرد DiffuCoder را افزایش می‌دهد و نشان می‌دهد که روش‌های یادگیری تقویتی، وقتی با اصول دیفیوژن همسو باشند، می‌توانند بسیار موثر عمل کنند. این کار، درک دقیق‌تری از مدل‌های dLLM در اختیار جامعه پژوهشی قرار می‌دهد. همچنین پایه‌ای قوی برای تحقیقات آینده درباره کاربرد این مدل‌ها در وظایف پیچیده‌ای مثل استدلال و تولید محتوا فراهم می‌کند.»

مقایسه کارکرد LLMها و dLLMها

بیشتر مدل‌های زبانی بزرگ، مانند مدل‌های GPT شرکت OpenAI، متن را به‌صورت خودبازگشتی تولید می‌کنند. در این روش هر بار یک توکن بعدی را پیش‌بینی کرده و آن را به دنباله اضافه می‌کنند، سپس دنباله جدید را دوباره به‌عنوان ورودی استفاده می‌کنند. اما مدل‌های dLLM رویکردی شبیه به مدل‌های تولید تصویر مانند DALL-E دارند: آن‌ها با یک دنباله پر از نویز شروع می‌کنند و به‌صورت مرحله‌به‌مرحله آن را از نویز پاک‌سازی می‌کنند. این روش باعث می‌شود مدل‌های dLLM خروجی را بسیار سریع‌تر از مدل‌های خودبازگشتی تولید کنند؛ در مورد Gemini Diffusion تا پنج برابر سریع‌تر. علاوه بر این، آن‌ها محدود به تولید متن از چپ به راست نیستند و می‌توانند «برنامه‌ریزی سراسری محتوا» انجام دهند، که این ویژگی می‌تواند در وظایف کدنویسی مزیت محسوب شود.

معیار AR-ness چیست؟‌

یکی از نتایج کلیدی پژوهش اپل، ایجاد شاخصی به نام «Autoregessive-ness» یا «AR-ness» بود؛ معیاری که نشان می‌دهد یک مدل تا چه حد به الگوی چپ‌به‌راست مدل‌های زبانی بزرگ پایبند است. آن‌ها دریافتند که مدل‌های dLLM اغلب سطح بالایی از AR-ness را نشان می‌دهند که احتمالا به‌دلیل ماهیت ذاتی تولید متن است. با این حال، هنگام تولید کد، این شاخص کاهش می‌یابد.

آن‌ها همچنین دریافتند که افزایش دمای نمونه‌برداری بر میزان AR-ness مدل تاثیر می‌گذارد؛ به این صورت که مدل را در انتخاب توکن‌ها و ترتیب آن‌ها منعطف‌تر می‌کند. این تغییر باعث بهبود امتیاز «pass@k» مدل در بنچمارک‌های کدنویسی شد. پژوهشگران به تحقیقات قبلی اشاره می‌کنند که نشان می‌دهد توانایی استدلال مدل‌هایی که با یادگیری تقویتی تنظیم شده‌اند، «محدود به توانایی نمونه‌برداری pass@k مدل پایه» است. این موضوع نشان می‌داد که DiffuCoder پتانسیل قابل توجهی برای بهبود دارد. این مسئله منجر به توسعه روش یادگیری تقویتی coupled-GRPO شد که در برخی موارد، نتایج بنچمارک DiffuCoder را بیش از شش درصد بهبود داد.

در یک بحث در Hacker News، یکی از کاربران نوشت:

«مدل دیفیوژن از نظر امکان موازی‌سازی و در نتیجه سرعت، مزایای زیادی دارد؛ به نظر من این معماری برای کدنویسی مناسب‌تر از تولید صرف چپ‌به‌راست است… در کل، جالب است. در نهایت، این مدل‌های محلی به‌اندازه‌ای خوب خواهند شد که بتوانند در «کار واقعی» استفاده شوند و خیلی سریع توسط ارائه‌دهندگان API به‌کار گرفته خواهند شد. تمرکز اپل روی اجرا در دستگاه است؛ فکر می‌کنم طی سال آینده نسخه‌هایی از این مدل‌ها را ببینیم که همراه با Xcode عرضه می‌شوند و بخشی از تجربه برنامه‌نویسی خواهند بود.»

کد DiffuCoder در گیت‌هاب در دسترس است. فایل‌های مدل را می‌توان از Huggingface دانلود کرد.

 

منبع: infoq.com

فرصت‌های شغلی

ایجاد محیطی با ارزش های انسانی، توسعه محصولات مالی کارامد برای میلیون ها کاربر و استفاده از فناوری های به روز از مواردی هستند که در آسا به آن ها می بالیم. اگر هم مسیرمان هستید، رزومه تان را برایمان ارسال کنید.

سوالات متداول

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *