OpenAI عامل جدید ChatGPT را معرفی کرد که توانایی تولید فایلهای اکسل و پاورپوینت را دارد. این ابزار با ترکیب مرور وب و تحلیل داده، به توسعهدهندهها امکان میدهد دادهها را جمعآوری، تحلیل و در قالب فایلهای قابل ویرایش تحویل بگیرند. |
OpenAI بهتازگی ChatGPT Agent را معرفی کرده است؛ ابزاری که مهارتهای مرورگر Operator را با توانایی خلاصهسازی Deep Research ترکیب میکند و یک «عامل ChatGPT» واحد میسازد. بهجای کپیکردن بخشهایی از کد یا فرمول در ChatGPT و بعد انتقال پاسخها به اپلیکیشنهای بهرهوری، حالا توسعهدهندهها یک ابزار دارند. آنها تنها با یک دستور میتوانند داده جمعآوری کنند، سپس روی داده استدلال کنند و در نهایت، یک فایل اکسل یا پرزنتیشن قابل ویرایش تحویل میگیرند.
عامل ChatGPT چگونه کار میکند؟
این عامل از طریق تولید کد پایتون در پشتصحنه، فایلهای معتبر .xlsx و .pptx ایجاد میکند؛ بنابراین خروجی بهراحتی در Excel، LibreOffice، PowerPoint، Keynote یا هر کتابخانهای که فرمتهای باز را پشتیبانی کند، باز میشود. تجربه اولیه یکی از کارآفرینها نشان میدهد حتی با دستورهای تکخطی ساده هم ارائههایی منسجم تولید میشود. در پشت پنجره چت، عامل بین یک مرورگر گرافیکی، مرورگر متنی، ترمینالی شبیه POSIX و فراخوانی مستقیم API انتخاب میکند. این عامل میتواند از طریق «کانکتورها» وارد ابزارهای SaaS شود، با مرورگر متنی یک جدول را استخراج کند، کد را در ترمینال اجرا کرده و داده را شکل دهد و در نهایت نتیجه را در LibreOffice قرار دهد و لینک دانلود را در اختیار کاربر بگذارد.
نتایج بنچمارکهای عامل ChatGPT
در آزمون SpreadsheetBench، عامل ChatGPT به دقت ۴۵.۵ درصد دست یافته، در حالی که Copilot در Excel تنها ۲۰ درصد دقت دارد. OpenAI همچنین ادعا کرده که به نتایج جدیدی در سطح بهترینهای جهان در آزمونهای DSBench و BrowseComp رسیده و در آزمون Humanity’s Last Exam نیز نرخ موفقیت ۴۱.۶ درصدی در اجرای صحیح در تلاش اول (pass-at-1) ثبت کرده است. البته این بنچمارکها فرض میکنند که عامل اجازه اجرای کد و مرور وب را دارد.
سم آلتمن (Sam Altman) میگوید:
«من این موضوع را برای خانوادهام اینطور توضیح میدهم: هنوز از این ابزار برای کارهای حساس یا شامل اطلاعات شخصی استفاده نمیکنم، تا زمانی که فرصت کنیم آن را در شرایط واقعی بررسی و بهبود بدهیم. از نگاه یک توسعهدهنده، این عامل فقط یکی دیگر از ابزارهای قابل انتخاب در ChatGPT است، بنابراین هر چیزی که بر پایه Assistants API ساخته شود، بهطور خودکار این قابلیت را به ارث میبرد.»
اتصال عامل ChatGPT به GitHub
کانکتورها به شما اجازه میدهند عامل را به مخزنهای خصوصی GitHub یا داشبوردهای Grafana متصل کنید. در حالی که پروژههایی در GitHub مانند Generative-Excel-Data-Assistant و دفترچه یادداشت Azure با نام «assistant-agent» نشان میدهند که چطور میتوان این جریان کاری را در اپلیکیشنهای داخلی جا داد. فهرستهایی مثل awesome-ai-agents هم دهها پروژه متنباز مشابه را فهرست کردهاند که همین حالا میتوانید فورکشان (Fork) کنید.
این قابلیت در حالی معرفی شده که OpenAI تابستانی پرچالش را پشت سر میگذارد، اما همچنان بهعنوان یک موفقیت پرسروصدا مطرح شده است. در تست زنده TechRadar، این ابزار برنامه سفر توکیو را تهیه کرد و آن را در قالب یک جدول فرمتشده ارائه داد. از سوی دیگر، بنچمارکها نتایج متفاوتی را نشان دادهاند؛ آزمایشهای اولیه ZDNet فقط در یکی از هشت کار چندمرحلهای، خروجی بدون توهم داشتند و The Information از قول یک تستکننده نوشت که برای انجام کاری که انسانها در ۱۵ دقیقه تمام میکنند، ۳۰ دقیقه منتظر مانده است. خود OpenAI هم هشدار داده در شرایطی که عامل بین چند ابزار جابجا میشود، خطر خطا و زمان اجرای بیشتری وجود دارد. این شرکت اخیرا مدل IMO Gold را با Gemini و دیگر مدلهای دارای توانایی استدلال عمیق به اشتراک گذاشته و الکساندر وی (Alexander Wei) نیز اعلام کرده که شرکت بهزودی GPT-5 را منتشر میکند.
آرون لوی (Aaron Levie)، مدیرعامل Box در اینباره میگوید:
«دلیل اینکه احتمالا هیچوقت شاهد فشردهسازی کامل نرمافزار به شکل صرفا یک عامل و یک پایگاه داده نخواهیم بود، این است که منطق زیادی در جریان کار و فرآیندهای خاص هر کسبوکار وجود دارد که باید درون و اطراف آن پایگاه داده پیادهسازی شود… عامل ممکن است ۱٪ مواقع اشتباه کند؛ مثلا اطلاعات اشتباهی را با کسی به اشتراک بگذارد یا دسترسی را برای فرد نادرستی باز کند.»
دادههای با کیفیت و برچسبخورده همچنان نفس اصلی هر جریان کاری عاملیتدار است. همین ضرورت باعث شد متا چکی ۱۴ میلیارد دلاری برای نزدیک به نیمی از شرکت Scale AI بپردازد تا تصاویر با نظارت انسانی، ردیابی کد و نمونههای RLHF برای نسخههای آینده Llama را تامین کند. خدمات جمعسپاری مثل Amazon Mechanical Turk هنوز بخش زیادی از درخواستهای نادر و خاص را پاسخ میدهند؛ در حالی که استارتاپهایی مانند Turing بیش از ۴ میلیون برچسبزن خبره دارند و درآمدشان را سه برابر کردهاند و با ارائه خود بهعنوان گزینهای بیطرف، برای آزمایشگاههایی که نگران دسترسی متا به روندهای Scale هستند، جایگزین شدهاند.
توسعهدهندههایی که قصد پیادهسازی دارند باید خروجیها را بهعنوان پیشنویس در نظر بگیرند، اعتبارنامههای ایزوله (sandboxed) استفاده کنند و لاگها را ثبت کنند. اینها گامهای ابتدایی هستند تا با بلوغ اکوسیستم، روند امنتری شکل بگیرد.
منبع: infoq.com
دیدگاهتان را بنویسید