به گزارش خبرداغ به نقل ازخبرآنلاین؛تینا مزدکی_Gemini ۳ و Grok ۴.۱ در حال حاضر صدرنشین جدول LMArena هستند؛ چالشی که مدلهای مهم هوش مصنوعی امروز را براساس رقابتهای واقعی کاربران رتبهبندی میکند. این سیستم توسط LMSYSهمان تیم پشت Chatbot Arena، اداره میشود و اکنون به یکی از قابلاعتمادترین روشها برای فهم عملکرد واقعی مدلها تبدیل شده است.
در این چالش Gemini ۳ و Grok ۴.۱ در ۹ بخش متفاوت، از معماهای منطقی و کدنویسی گرفته تا نویسندگی خلاقانه مقابل هم قرار گرفتند تا مشخص شود که هر کدام چگونه با درخواستهایی که معمولاً کاربران از دستیارهای هوش مصنوعی دارند، برخورد میکنند. نتایج، تضادهای جالبی را در سبک، عمق و قابل اعتماد بودن آنها نشان میدهد.
پرامپت: دو طناب دارید. هر طناب دقیقاً ۶۰ دقیقه طول میکشد تا از یک سر تا سر دیگر بسوزد، اما سرعت سوختن یکنواخت نیست (بخشهایی سریعتر یا کندتر میسوزند). فقط با استفاده از همین دو طناب و یک فندک، چگونه میتوانید دقیقاً ۴۵ دقیقه را اندازهگیری کنید؟ (You have two ropes. Each rope takes exactly ۶۰ minutes to burn from one end to the other, but they burn at inconsistent rates (different sections burn faster or slower). Using only these two ropes and a lighter, how can you measure exactly ۴۵ minutes?)
در این چالش Gemini ۳.۰ از تیترهای بخشبندیشدهی واضح استفاده کرد و اصل ریاضی مسئله را بهطور صریح توضیح داد و حتی پیشنهاد داد معمای دیگری ارائه کند. اما Grok ۴.۱ لحن محاورهایتری داشت، از جملاتی مانند «این همان ویژگی کلیدی این معماهاست» استفاده کرد و توضیح روانتری ارائه داد. در آخر Grok بهدلیل تأکید بهتر بر «نرخهای غیریکسان سوختن» و اینکه چگونه این ناهمگونی در روش اندازهگیری خنثی میشود، برنده این بخش شد.
پرامپت: در یک روستا، آرایشگر تمام کسانی و فقط کسانی را که خودشان ریش خود را نمیتراشند، اصلاح میکند. آیا آرایشگر خودش ریش خود را اصلاح میکند؟ این پارادوکس و آنچه را که در مورد تعاریف خودارجاعی آشکار میکند، توضیح دهید. (In a village, the barber shaves all those—and only those—who do not shave themselves. Does the barber shave himself? Explain the paradox and what it reveals about self-referential definitions.)
در این بخش Gemini ۳.۰ از تیترهای مشخص استفاده کرد و تناقض منطقی را با یک ساختار if/then شفاف توضیح داد. Grok ۴.۱ نیز زمینهی تاریخی اضافه کرد و با زبانی قاطع گفت چنین سلمانیای اصلاً نمیتواند وجود داشته باشد و دربارهی پیامدهای آن با جدیت بیشتری صحبت کرد. بنابراین، برنده این بخش Gemini ۳.۰ شد به این خاطر که پاسخی پختهتر داد.
پرامپت: یک تابع پایتون بنویسید که تشخیص دهد یک جدول سودوکو (شبکهی ۹×۹ با برخی خانههای پر و برخی صفر) مطابق قوانین سودوکو معتبر است یا نه. موارد لبهای را هم لحاظ کنید و رویکرد خود را توضیح دهید. (Write a Python function that determines if a given Sudoku board (۹x۹ grid with some cells filled, others as ۰) is valid according to Sudoku rules. Include edge case handling and explain your approach.)
Gemini ۳.۰ پاسخی آموزشیتر ارائه داد و توضیحاتی دقیق همراه با بررسی کامل edge caseها مطرح کرد و برای یادگیری مناسبتر بود.اماGrok ۴.۱ در این بخش هم با تنوع ورودیها در دنیای واقعی بهتر کنار آمد و بدون پیچیدهسازی اضافی وظیفه را انجام داد. در نهایت برنده Gemini بهخاطر گزارشدهی خطای بهتر، پشتیبانی بهتر در دیباگ و کدی تمیزتر و قابلنگهداریتر بود.
پرامپت: این کد را اشکالزدایی کنید و توضیح دهید مشکل چیست (Debug this code and explain what's wrong): def fib(n): return fib(n-۱) + fib(n-۲)
Gemini ۳.۰ مستقیماً به سراغ اصل موضوع رفت و فوراً نبودِ حالت پایه را یادآوری کرد. راهحل حداقلی را شفاف ارائه داد و به ناکارآمدی بازگشتِ ساده اشاره کرد. اما Grok ۴.۱ دقیقاً نشان داد که بازگشت بینهایت چگونه رخ میدهد و چند نسخهی اصلاحشده از جمله اعتبارسنجی ورودی ارائه کرد. بنابراین برنده این بخش نیز بهخاطر پاسخی عملیتر و توضیحی آموزشیتر، Gemini ۳.۰ بود.
پرامپت: یک داستان کوتاه ۲۰۰ کلمهای بنویسید که آخرین جملهاش همهچیز قبل از خود را کاملاً بازمعنا کند. (Write a ۲۰۰-word short story where the last sentence completely recontextualizes everything that came before it.)
در این چالش Gemini ۳.۰ داستانی با دیدگاهی هوشمندانه و پیچوتاب طنزآلود ارائه داد. Grok ۴.۱ روایت پیچیدهتری نوشت و پیچش نهایی را از قهرمان به ضدقهرمان منتقل کرد؛ نتیجهای دراماتیکتر و تأملبرانگیزتر؛ پس میتوان گفت برنده این بخش بهخاطر ارائهی یک پایان واقعاً تکاندهنده که باعث میشود خواننده کل روایت را دوباره در ذهن مرور کند، Grok است.

پرامپت: چه استدلالهای قویای برای تایید و یا رد کردن «درآمد پایهی همگانی» وجود دارد؟ هر دو طرف را تا حد ممکن با نهایت انصاف توضیح بده. (What are the strongest arguments both for and against universal basic income? Present each side as charitably as possible.)
Gemini ۳.۰ بهطور مستقیم سراغ مسائل مشخص در سیستمهای فعلی رفاهی رفت و در توضیح پویاییهای تورمی و بازار کار عملکرد بسیار خوبی داشت. با این حال، Grok ۴.۱ شواهد تجربی از آزمایشهای واقعی ارائه کرد و به مباحث مربوط به «کرامت انسانی» و «مالکیت مشترک» نیز پرداخت. در نهایت بهدلیل ساختار بهتر و دامنهی گستردهتر استدلالها Gemini برنده شد.
پرامپت: دقیقاً ۷ حیوان نام ببر. سومی باید یک پرنده باشد. پنجمی باید با حرف E شروع شود. هیچ حیوانی نباید بیش از ۸ حرف داشته باشد. (List exactly ۷ animals. The third must be a bird. The fifth must start with the letter 'E'. No animal can have more than ۸ letters in its name.)
Gemini ۳.۰ فهرستی متنوع ارائه کرد که ترکیبی از حیوانات بزرگ و کوچک بود و Grok ۴.۱ هم فهرستی مطابق شروط ارائه کرد، اما حیوانات انتخابی کمی معمولتر بودند. اما در نهایت هر دو در این بخش با هم برابر شدند، زیرا تمام محدودیتها را رعایت کردند.
پرامپت: چه کسی سقف کلیسای سیستین را نقاشی کرده است؟ این کار در چه سالهایی انجام شده و روایت اصلی اثر چیست؟ (Who painted the Sistine Chapel ceiling, in what years was it painted, and what is the central narrative depicted?)
Gemini ۳.۰ بلافاصله اطلاعات کلیدی را ارائه کرد و سه بخش روایی را با سازماندهی واضح دستهبندی کرد. Grok ۴.۱ تاریخهای دقیقتری ارائه داد و جزئیات بیشتری همراه با زمینهی تاریخی و ساختاری آورد؛ در نهایت به واسطه اطلاعات کاملتر و دقیقتر که Grok ارائه کرد، برنده این چالش شد.
پرامپت: محدودیتهای تو بهعنوان یک هوش مصنوعی چیست؟ سه مثال مشخص از کارهایی بده که ممکن است در آنها دچار خطا شوی یا درست انجام ندهی. (What are your limitations as an AI? Give me three specific examples of tasks you might struggle with or get wrong.)
Gemini ۳.۰ در این سؤال انگار مسیرش را گم کرد؛ حتی برخی از پرسشهای قبلی را تکرار کرد و سعی کرد دوباره پاسخ دهد. «در حال فکر کردن» بود اما همزمان نشانههایی از خطا و هذیان داشت. با این حال، Grok ۴.۱ پاسخ را واضح، مستقیم و با ساختاری خوب ارائه کرد و سه نمونهی مشخص و واقعگرایانه ذکر کرد. بنابراین به خاطر پاسخ روشن و دقیق برنده این بخش Grok شد.
پرامپت: یک پیام قطع رابطه از زبان ماه به زمین بنویس که شاعرانه باشد اما از واقعیات علمی هم در آن استفاده کن. (Write a breakup text from the perspective of the moon to the Earth — make it poetic but include some real science.)
Gemini ۳.۰ متن را در قالب یک پیام واقعی شروع کرد و بلافاصله آن را به زمینهای مدرن و قابلدرک ربط داد؛ همچنین مفاهیم علمی را بسیار استادانه در روایت احساسی گنجاند. با این حال Grok ۴.۱ یک متن علمی-تخیلی بسیار زیبا و خلاقانه نوشت. اما در نهایت Gemini برنده شد زیرا پرامپت را عمیقتر درک کرده بود؛ قالب خلاقانهتر، استعارهها دقیقتر و ترکیب احساس و علم مؤثرتر بود.
در مجموع Gemini پاسخهای بهتری ارائه کرد؛ اما باز هم امتیازی که Grok گرفت قابل توجه بود. موضوع دیگر توهم یا هالوسینیشن (Hallucinations) Gemini بود. شاید بتوان گفت بعد از ساعتها سوال و جواب از چتباتها، این اولین بار بود که این مدل میان سوالات دچار توهم و هذیان گفتن شد. سؤال آخر برای Gemini واقعاً چالشزا بود، اما در بخشهایی مثل رفع اشکال و توضیح مسائل پیچیده عملکرد بسیار خوبی داشت.
با تکامل مداوم این مدلها، چنین مقایسههای دوبهدو کمک میکند تا متوجه شویم که نهتنها کدام مدل بهتر است، بلکه کدام برای کدام کاربر و کدام وظیفه مناسبتر است.
منبع: tomsguide