👀 خبر در یک نگاه:
Qwen تیم مدل برنامهنویسی Qwen3-Coder را معرفی کرد که توانایی پردازش کدهای طولانی و چندمرحلهای در مقیاس بزرگ را دارد. این مدل از یادگیری تقویتی و ابزارهای باز برای بهبود عملکرد بهره میبرد و از طریق API در دسترس توسعهدهندگان جهانی است. |
تیم Qwen مدل جدید Qwen3-Coder را معرفی کرد؛ یک خانواده از مدلهای برنامهنویسی هوشمند که برای وظایف برنامهنویسی چندمرحلهای با زمینههای طولانی طراحی شدهاند. قویترین نسخه، Qwen3-Coder-480B-A35B-Instruct، یک مدل Mixture-of-Experts با مجموع ۴۸۰ میلیارد پارامتر و ۳۵ میلیارد پارامتر فعال در هر Forward Pass است. این مدل بهصورت بومی از ۲۵۶ هزار توکن پشتیبانی و از طریق گسترش کانتکست تا ۱ میلیون توکن را نیز مدیریت میکند. هدف این مدل، پردازش ورودیهایی در مقیاس مخزن کد و تعاملهای پیشرفته با ابزارهاست.
بر خلاف مدلهای تولید کد استاتیک، Qwen3-Coder بر اجرا و تصمیمگیری تاکید دارد. این مدل با استفاده از یادگیری تقویتی روی مجموعهای گسترده از وظایف واقعی آموزش دیده است؛ جایی که موفقیت بر اساس اجرای صحیح کد تولیدشده و حل مسئله سنجیده میشود. این رویکرد که تیم Qwen آن را «سخت برای حل، آسان برای ارزیابی» مینامد، با هدف افزایش پایداری و کاربردپذیری طراحی شده است.
علاوه بر این، تیم Qwen یادگیری تقویتی هوشمند با افق زمانی بلند مدت را در مقیاس وسیع توسعه داد. همچنین میتوان مدل را برای استفاده از ابزارها و پاسخگویی به بازخوردهای چندمرحلهای در محیطهای شبیهسازیشده آموزش داد. برای پشتیبانی از این هدف، Qwen سیستمی را پیادهسازی کرد که توانایی اجرای ۲۰هزار محیط موازی در زیرساخت ابری را دارد و امکان آموزش گسترده مدل در جریانهای کاری شبیه به فعالیت واقعی توسعهدهندگان را فراهم میکند.
Qwen برای پشتیبانی از آزمایشها، ابزار Qwen Code را منتشر کرده است؛ یک رابط خط فرمان متنباز که از Gemini CLI منشعب شده. این ابزار از ساختارهای سفارشی در پرامپتها پشتیبانی میکند و قابلیتهای بهبودیافتهای برای استفاده از ابزارها و فراخوانی توابع دارد. نصب آن از طریق npm امکانپذیر است و با APIهای سازگار با OpenAI کار میکند.
علاوه بر این، کاربران Claude Code میتوانند درخواستها را از طریق DashScope با استفاده از گزینههای تنظیم پراکسی یا مسیریاب ارسال کنند. این کار یک رابط کدنویسی آشنا فراهم میکند و در عین حال امکان ارزیابی خروجیهای Qwen3-Coder را در یک محیط چندمدلی فراهم میسازد.
ابزارهای خط فرمان با محیطهای Cline، Node.js و Python سازگار هستند و پشتیبانی کامل از متغیرهای محیطی و API دارند.
Qwen3-Coder هماکنون از طریق API در DashScope در دسترس است. توسعهدهندههای خارج از چین میتوانند از نقطه انتهایی بینالمللی استفاده کنند و نمونه کد پایتون برای ادغام سریع ارائه شده است. مدلهای با اندازههای بیشتر به زودی منتشر خواهند شد که تمرکز بر حفظ عملکرد در کنار کاهش هزینه استنتاج است.
برخی کاربران ردیت اشاره کردهاند که هرچند Local Deployment ممکن است اما اجرای مدلهای بزرگتر به صورت کارآمد، نیازمند زیرساخت قابلتوجهی است:
«استفاده محلی از Qwen3-Coder صرفهجویی هزینه نیست مگر اینکه سیستم چند GPU مناسب داشته باشید. اجرای نسخههای کوچکتر هنگام انتشار ممکن است هزینهها را کاهش دهد. متعادلکردن هزینه GPU با راهحلهای ابری یا میزبانیشده بسته به نیاز کاری شما رویکرد بهتری است. مصرف انرژی و نگهداری نیز عوامل کلیدی هستند.»
این کمپانی اعلام کرده گسترش قابلیتهای عامل برنامهنویسی Qwen و بررسی مکانیزمهایی برای بهبود خودکار جزو برنامههای آینده آنهاست، جایی که عوامل بتوانند با کمترین نظارت انسانی به صورت تکراری عملکردشان را در وظایف مختلف ارتقا دهند.
منبع: infoq.com
دیدگاهتان را بنویسید