Windsurf حالت Arena را در محیط توسعه یکپارچه (IDE) خود اضافه کرده است تا توسعهدهندهها بتوانند مدلهای زبانی بزرگ (LLM) را کنار هم و همزمان با انجام وظایف واقعی کدنویسی مقایسه کنند. این قابلیت به کاربران اجازه میدهد مدلها را مستقیما در بافت توسعه فعلی خود ارزیابی کنند، به جای اتکا به بنچمارکهای عمومی یا وبسایتهای ارزیابی خارجی.
حالت Arena چطور عمل میکند؟
حالت Arena دو عامل Cascade را بهطور همزمان روی یک درخواست (Prompt) اجرا میکند و هویت مدلهای پشت پرده در طول سشن مخفی میماند. توسعهدهندهها با استفاده از جریان کاری معمول خود با هر دو عامل تعامل دارند، شامل دسترسی به کدبیس، ابزارها و زمینه کاری.
پس از بررسی خروجیها، کاربران میتوانند بهتر بودن پاسخها را انتخاب کنند و این رایها برای محاسبه رتبهبندی مدلها استفاده میشوند. نتایج هم در رتبهبندی شخصی بر اساس رایهای فرد و هم در رتبهبندی جهانی که از کل کاربران Windsurf جمعآوری میشود، لحاظ میشود.
اهمیت و مزایای این مود
به گفته Windsurf، این رویکرد برای رفع محدودیتهای سیستمهای مقایسه مدل موجود طراحی شده است، مانند آزمون بدون زمینه واقعی پروژه، حساسیت به سبک سطحی خروجی و ناتوانی در بازتاب تفاوتها بین وظایف، زبانها یا جریانهای کاری. هدف Windsurf این است که ارزیابیهایی ثبت شود که بیشتر شبیه به کار روزمره توسعه باشد، شامل رفع اشکال، توسعه قابلیتها و درک کد.
حالت Arena امکان آزمون مدلهای مشخص یا انتخاب از گروههای از پیش تعریفشده، مانند مدلهای سریعتر در مقابل مدلهای با قابلیت بالاتر، را فراهم میکند. توسعهدهندهها میتوانند پرسشهای بعدی را بین عاملها همگامسازی کنند یا گفتوگوها را بهطور مستقل شاخهبندی کنند. وقتی خروجی موردنظر مشخص شد، جلسه میتواند نهایی شده و برای رتبهبندی ثبت شود.
دسترسی
حالت Arena برای مدتی محدود دسترسی رایگان به همه گروههای Battle ارائه میدهد و پس از آن، نتایج منتشر شده و مدلهای اضافی به مرور زمان اضافه میشوند. Windsurf همچنین برنامه دارد سیستم را با رتبهبندیهای دقیقتر بر اساس نوع وظیفه، زبان برنامهنویسی و احتمالا ارزیابیهای تیمی برای سازمانهای بزرگتر گسترش دهد.
نظرات جامعه
اعلام حالت Arena واکنشهای متفاوتی در جامعه ایجاد کرده است، شامل هیجان، تحسین و کمی تردید. کاربران در X از رویکرد بنچمارکگیری در دنیای واقعی استقبال کردهاند، اما نگرانیهایی درباره مصرف توکنها و عملی بودن آن مطرح کردهاند.
لید شرکت DevRel، با یوزرنیم @nnennahacks نوشت:
«کدبیس شما همان بنچمارک است. جالب!»
در همین حال، کاربر @BigWum گفت:
«چه روش فوقالعادهای برای مصرف بیشتر توکنها.»
سخن نهایی
چندین ابزار دیگر در حوزه هوش مصنوعی برای توسعهدهندهها ایدههای مشابهی را بررسی میکنند، هرچند با سطوح متفاوت از یکپارچگی و تمرکز. پلتفرمهای ارزیابی عمومی مانند Dpaia Arena به کاربران امکان میدهند خروجی مدلها را کنار هم مقایسه کنند، اما معمولا روی پرسشهای کوتاه و بدون زمینه و خارج از محیط واقعی توسعه کار میکنند. برخی دستیارهای یکپارچه با IDE، شامل GitHub Copilot و Cursor، امکان سوئیچ بین مدلها یا اجرای ارزیابی پسزمینه را فراهم میکنند، اما در حال حاضر بر مقایسه مستقیم و هدایتشده توسط کاربر بهعنوان بخشی از جریان کاری تمرکز ندارند. سایر عاملهای کدنویسی نوظهور بر مسیریابی چندمدلی یا انتخاب خودکار مدل بر اساس نوع وظیفه تاکید دارند، به جای اینکه مقایسه مستقیم را در اختیار توسعهدهندهها قرار دهند.
منبع: infoq.com




دیدگاهتان را بنویسید