👀 خبر در یک نگاه:
اپل مدل DiffuCoder را متنباز کرد؛ یک مدل زبانی بزرگ مبتنی بر دیفیوژن که کدنویسی را سریعتر و دقیقتر انجام میدهد. این مدل با تکنیک یادگیری تقویتی coupled-GRPO بهینه شده و در بنچمارکها عملکردی رقابتی با GPT-4o دارد. |
اپل DiffuCoder را متنباز کرد؛ یک مدل زبانی بزرگ مبتنی بر دیفیوژن (dLLM) که برای انجام وظایف کدنویسی بهصورت اختصاصی تنظیم شده است. DiffuCoder بر پایه Qwen-2.5-Coder ساخته شده و در چندین بنچمارک مرتبط با کدنویسی عملکرد بهتری نسبت به دیگر مدلهای مخصوص کد دارد.
DiffuCoder چگونه کار میکند؟
برخلاف مدلهای زبانی معمول که متن را بهصورت خودبازگشتی و از «چپ به راست» تولید میکنند، مدلهای dLLM متن را با حذف نویز از کل دنباله بهصورت موازی تولید میکنند. این روش میتواند به معنای سرعت تولید بالاتر باشد. پژوهشگران اپل DiffuCoder را توسعه دادند تا بتوانند بهترین راهکارهای تنظیم و استنتاج مدلهای dLLM را بررسی کنند. در این پژوهش، آنها نوعی از الگوریتم GRPO (بهینهسازی نسبی سیاست گروهی) را توسعه دادند که آن را Coupled-GRPO نامیدند و باعث بهبود عملکرد مدل شد. در بنچمارک کدنویسی MBPP، مدل DiffuCoder عملکرد بهتری نسبت به Gemini Diffusion داشت و عملکردی نزدیک به GPT-4o از خود نشان داد.
به گفته اپل:
«روش ما با بهکارگیری استراتژی نوآورانهای به نام Coupled-Sampling، احتمالها را دقیقتر برآورد میکند. Coupled-GRPO بهطور چشمگیری عملکرد DiffuCoder را افزایش میدهد و نشان میدهد که روشهای یادگیری تقویتی، وقتی با اصول دیفیوژن همسو باشند، میتوانند بسیار موثر عمل کنند. این کار، درک دقیقتری از مدلهای dLLM در اختیار جامعه پژوهشی قرار میدهد. همچنین پایهای قوی برای تحقیقات آینده درباره کاربرد این مدلها در وظایف پیچیدهای مثل استدلال و تولید محتوا فراهم میکند.»
مقایسه کارکرد LLMها و dLLMها
بیشتر مدلهای زبانی بزرگ، مانند مدلهای GPT شرکت OpenAI، متن را بهصورت خودبازگشتی تولید میکنند. در این روش هر بار یک توکن بعدی را پیشبینی کرده و آن را به دنباله اضافه میکنند، سپس دنباله جدید را دوباره بهعنوان ورودی استفاده میکنند. اما مدلهای dLLM رویکردی شبیه به مدلهای تولید تصویر مانند DALL-E دارند: آنها با یک دنباله پر از نویز شروع میکنند و بهصورت مرحلهبهمرحله آن را از نویز پاکسازی میکنند. این روش باعث میشود مدلهای dLLM خروجی را بسیار سریعتر از مدلهای خودبازگشتی تولید کنند؛ در مورد Gemini Diffusion تا پنج برابر سریعتر. علاوه بر این، آنها محدود به تولید متن از چپ به راست نیستند و میتوانند «برنامهریزی سراسری محتوا» انجام دهند، که این ویژگی میتواند در وظایف کدنویسی مزیت محسوب شود.
معیار AR-ness چیست؟
یکی از نتایج کلیدی پژوهش اپل، ایجاد شاخصی به نام «Autoregessive-ness» یا «AR-ness» بود؛ معیاری که نشان میدهد یک مدل تا چه حد به الگوی چپبهراست مدلهای زبانی بزرگ پایبند است. آنها دریافتند که مدلهای dLLM اغلب سطح بالایی از AR-ness را نشان میدهند که احتمالا بهدلیل ماهیت ذاتی تولید متن است. با این حال، هنگام تولید کد، این شاخص کاهش مییابد.
آنها همچنین دریافتند که افزایش دمای نمونهبرداری بر میزان AR-ness مدل تاثیر میگذارد؛ به این صورت که مدل را در انتخاب توکنها و ترتیب آنها منعطفتر میکند. این تغییر باعث بهبود امتیاز «pass@k» مدل در بنچمارکهای کدنویسی شد. پژوهشگران به تحقیقات قبلی اشاره میکنند که نشان میدهد توانایی استدلال مدلهایی که با یادگیری تقویتی تنظیم شدهاند، «محدود به توانایی نمونهبرداری pass@k مدل پایه» است. این موضوع نشان میداد که DiffuCoder پتانسیل قابل توجهی برای بهبود دارد. این مسئله منجر به توسعه روش یادگیری تقویتی coupled-GRPO شد که در برخی موارد، نتایج بنچمارک DiffuCoder را بیش از شش درصد بهبود داد.
در یک بحث در Hacker News، یکی از کاربران نوشت:
«مدل دیفیوژن از نظر امکان موازیسازی و در نتیجه سرعت، مزایای زیادی دارد؛ به نظر من این معماری برای کدنویسی مناسبتر از تولید صرف چپبهراست است… در کل، جالب است. در نهایت، این مدلهای محلی بهاندازهای خوب خواهند شد که بتوانند در «کار واقعی» استفاده شوند و خیلی سریع توسط ارائهدهندگان API بهکار گرفته خواهند شد. تمرکز اپل روی اجرا در دستگاه است؛ فکر میکنم طی سال آینده نسخههایی از این مدلها را ببینیم که همراه با Xcode عرضه میشوند و بخشی از تجربه برنامهنویسی خواهند بود.»
کد DiffuCoder در گیتهاب در دسترس است. فایلهای مدل را میتوان از Huggingface دانلود کرد.
منبع: infoq.com
دیدگاهتان را بنویسید