کد خبر: ۹۹۸۷۸۲
تاریخ انتشار: ۱۱ آذر ۱۴۰۴ - ۱۰:۰۹
تعداد بازدید: ۸۳

هوش مصنوعی ایلان ماسک قوی‌تر است یا گوگل؟

در چالشی که یکی از معتبرترین معیارها برای سنجش عملکرد مدل‌ها در دنیای واقعی محسوب می‌شود، تفاوت‌های جدی میان سبک، دقت و قابلیت اتکای دو هوش مصنوعی Gemini ۳ و Grok ۴.۱ آشکار شد؛ رقابتی نزدیک که در نهایت یک برنده مشخص داشت.

هوش مصنوعی ایلان ماسک قوی‌تر است یا گوگل؟به گزارش خبرداغ به نقل ازخبرآنلاین؛تینا مزدکی_Gemini ۳ و Grok ۴.۱ در حال حاضر صدرنشین جدول LMArena هستند؛ چالشی که مدل‌های مهم هوش مصنوعی امروز را براساس رقابت‌های واقعی کاربران رتبه‌بندی می‌کند. این سیستم توسط LMSYSهمان تیم پشت Chatbot Arena، اداره می‌شود و اکنون به یکی از قابل‌اعتمادترین روش‌ها برای فهم عملکرد واقعی مدل‌ها تبدیل شده است.

در این چالش Gemini ۳ و Grok ۴.۱ در ۹ بخش متفاوت، از معماهای منطقی و کدنویسی گرفته تا نویسندگی خلاقانه مقابل هم قرار گرفتند تا مشخص شود که هر کدام چگونه با درخواست‌هایی که معمولاً کاربران از دستیارهای هوش مصنوعی دارند، برخورد می‌کنند. نتایج، تضادهای جالبی را در سبک، عمق و قابل اعتماد بودن آن‌ها نشان می‌دهد.

۱. استدلال (Reasoning)

پرامپت: دو طناب دارید. هر طناب دقیقاً ۶۰ دقیقه طول می‌کشد تا از یک سر تا سر دیگر بسوزد، اما سرعت سوختن یکنواخت نیست (بخش‌هایی سریع‌تر یا کندتر می‌سوزند). فقط با استفاده از همین دو طناب و یک فندک، چگونه می‌توانید دقیقاً ۴۵ دقیقه را اندازه‌گیری کنید؟ (You have two ropes. Each rope takes exactly ۶۰ minutes to burn from one end to the other, but they burn at inconsistent rates (different sections burn faster or slower). Using only these two ropes and a lighter, how can you measure exactly ۴۵ minutes?)

در این چالش Gemini ۳.۰ از تیترهای بخش‌بندی‌شده‌ی واضح استفاده کرد و اصل ریاضی مسئله را به‌طور صریح توضیح داد و حتی پیشنهاد داد معمای دیگری ارائه کند. اما Grok ۴.۱ لحن محاوره‌ای‌تری داشت، از جملاتی مانند «این همان ویژگی کلیدی این معماهاست» استفاده کرد و توضیح روان‌تری ارائه داد. در آخر Grok به‌دلیل تأکید بهتر بر «نرخ‌های غیریکسان سوختن» و اینکه چگونه این ناهمگونی در روش اندازه‌گیری خنثی می‌شود، برنده این بخش شد.

۲. منطق (Logic)

پرامپت: در یک روستا، آرایشگر تمام کسانی و فقط کسانی را که خودشان ریش خود را نمی‌تراشند، اصلاح می‌کند. آیا آرایشگر خودش ریش خود را اصلاح می‌کند؟ این پارادوکس و آنچه را که در مورد تعاریف خودارجاعی آشکار می‌کند، توضیح دهید. (In a village, the barber shaves all those—and only those—who do not shave themselves. Does the barber shave himself? Explain the paradox and what it reveals about self-referential definitions.)

در این بخش Gemini ۳.۰ از تیترهای مشخص استفاده کرد و تناقض منطقی را با یک ساختار if/then شفاف توضیح داد. Grok ۴.۱ نیز زمینه‌ی تاریخی اضافه کرد و با زبانی قاطع گفت چنین سلمانی‌ای اصلاً نمی‌تواند وجود داشته باشد و درباره‌ی پیامدهای آن با جدیت بیشتری صحبت کرد. بنابراین، برنده این بخش Gemini ۳.۰ شد به این خاطر که پاسخی پخته‌تر داد.

۳. کدنویسی (Coding)

پرامپت: یک تابع پایتون بنویسید که تشخیص دهد یک جدول سودوکو (شبکه‌ی ۹×۹ با برخی خانه‌های پر و برخی صفر) مطابق قوانین سودوکو معتبر است یا نه. موارد لبه‌ای را هم لحاظ کنید و رویکرد خود را توضیح دهید. (Write a Python function that determines if a given Sudoku board (۹x۹ grid with some cells filled, others as ۰) is valid according to Sudoku rules. Include edge case handling and explain your approach.)

Gemini ۳.۰ پاسخی آموزشی‌تر ارائه داد و توضیحاتی دقیق همراه با بررسی کامل edge case‌ها مطرح کرد و برای یادگیری مناسب‌تر بود.اماGrok ۴.۱ در این بخش هم با تنوع ورودی‌ها در دنیای واقعی بهتر کنار آمد و بدون پیچیده‌سازی اضافی وظیفه را انجام داد. در نهایت برنده Gemini به‌خاطر گزارش‌دهی خطای بهتر، پشتیبانی بهتر در دیباگ و کدی تمیزتر و قابل‌نگهداری‌تر بود.

۴. دیباگ (Debugging)

پرامپت: این کد را اشکال‌زدایی کنید و توضیح دهید مشکل چیست (Debug this code and explain what's wrong): def fib(n): return fib(n-۱) + fib(n-۲)

Gemini ۳.۰ مستقیماً به سراغ اصل موضوع رفت و فوراً نبودِ حالت پایه را یادآوری کرد. راه‌حل حداقلی را شفاف ارائه داد و به ناکارآمدی بازگشتِ ساده اشاره کرد. اما Grok ۴.۱ دقیقاً نشان داد که بازگشت بی‌نهایت چگونه رخ می‌دهد و چند نسخه‌ی اصلاح‌شده از جمله اعتبارسنجی ورودی ارائه کرد. بنابراین برنده این بخش نیز به‌خاطر پاسخی عملی‌تر و توضیحی آموزشی‌تر،  Gemini ۳.۰ بود.

۵. نویسندگی خلاق (Creative Writing)

پرامپت: یک داستان کوتاه ۲۰۰ کلمه‌ای بنویسید که آخرین جمله‌اش همه‌چیز قبل از خود را کاملاً بازمعنا کند. (Write a ۲۰۰-word short story where the last sentence completely recontextualizes everything that came before it.)

در این چالش Gemini ۳.۰ داستانی با دیدگاهی هوشمندانه و پیچ‌وتاب طنزآلود ارائه داد. Grok ۴.۱ روایت پیچیده‌تری نوشت و پیچش نهایی را از قهرمان به ضدقهرمان منتقل کرد؛ نتیجه‌ای دراماتیک‌تر و تأمل‌برانگیزتر؛ پس می‌توان گفت برنده این بخش به‌خاطر ارائه‌ی یک پایان واقعاً تکان‌دهنده که باعث می‌شود خواننده کل روایت را دوباره در ذهن مرور کند، Grok است.

هوش مصنوعی ایلان ماسک قوی‌تر است یا گوگل؟

۶. درک ظریف و دقیق (Nuanced understanding)

پرامپت: چه استدلال‌های قوی‌ای برای تایید و یا رد کردن «درآمد پایه‌ی همگانی» وجود دارد؟ هر دو طرف را تا حد ممکن با نهایت انصاف توضیح بده. (What are the strongest arguments both for and against universal basic income? Present each side as charitably as possible.)

Gemini ۳.۰ به‌طور مستقیم سراغ مسائل مشخص در سیستم‌های فعلی رفاهی رفت و در توضیح پویایی‌های تورمی و بازار کار عملکرد بسیار خوبی داشت. با این حال، Grok ۴.۱ شواهد تجربی از آزمایش‌های واقعی ارائه کرد و به مباحث مربوط به «کرامت انسانی» و «مالکیت مشترک» نیز پرداخت. در نهایت به‌دلیل ساختار بهتر و دامنه‌ی گسترده‌تر استدلال‌ها Gemini برنده شد.

۷. پیروی از دستور (Instruction following)

پرامپت: دقیقاً ۷ حیوان نام ببر. سومی باید یک پرنده باشد. پنجمی باید با حرف E شروع شود. هیچ حیوانی نباید بیش از ۸ حرف داشته باشد. (List exactly ۷ animals. The third must be a bird. The fifth must start with the letter 'E'. No animal can have more than ۸ letters in its name.)

Gemini ۳.۰ فهرستی متنوع ارائه کرد که ترکیبی از حیوانات بزرگ و کوچک بود و Grok ۴.۱ هم فهرستی مطابق شروط ارائه کرد، اما حیوانات انتخابی کمی معمول‌تر بودند. اما در نهایت هر دو در این بخش با هم برابر شدند، زیرا تمام محدودیت‌ها را رعایت کردند. 

۸. دقت مبتنی بر واقعیت (Factual accuracy)

پرامپت: چه کسی سقف کلیسای سیستین را نقاشی کرده است؟ این کار در چه سال‌هایی انجام شده و روایت اصلی اثر چیست؟ (Who painted the Sistine Chapel ceiling, in what years was it painted, and what is the central narrative depicted?)

Gemini ۳.۰ بلافاصله اطلاعات کلیدی را ارائه کرد و سه بخش روایی را با سازمان‌دهی واضح دسته‌بندی کرد. Grok ۴.۱ تاریخ‌های دقیق‌تری ارائه داد و جزئیات بیشتری همراه با زمینه‌ی تاریخی و ساختاری آورد؛ در نهایت به واسطه اطلاعات کامل‌تر و دقیق‌تر که Grok ارائه کرد، برنده این چالش شد.

۹. خودآگاهی (Self-awareness)

پرامپت: محدودیت‌های تو به‌عنوان یک هوش مصنوعی چیست؟ سه مثال مشخص از کارهایی بده که ممکن است در آن‌ها دچار خطا شوی یا درست انجام ندهی. (What are your limitations as an AI? Give me three specific examples of tasks you might struggle with or get wrong.)

Gemini ۳.۰ در این سؤال انگار مسیرش را گم کرد؛ حتی برخی از پرسش‌های قبلی را تکرار کرد و سعی کرد دوباره پاسخ دهد. «در حال فکر کردن» بود اما هم‌زمان نشانه‌هایی از خطا و هذیان داشت. با این حال، Grok ۴.۱ پاسخ را واضح، مستقیم و با ساختاری خوب ارائه کرد و سه نمونه‌ی مشخص و واقع‌گرایانه ذکر کرد. بنابراین به خاطر پاسخ روشن و دقیق برنده این بخش Grok شد.

پرسش نهایی برای تعیین برنده

پرامپت: یک پیام قطع رابطه از زبان ماه به زمین بنویس که شاعرانه باشد اما از واقعیات علمی هم در آن استفاده کن. (Write a breakup text from the perspective of the moon to the Earth — make it poetic but include some real science.)

Gemini ۳.۰ متن را در قالب یک پیام واقعی شروع کرد و بلافاصله آن را به زمینه‌ای مدرن و قابل‌درک ربط داد؛ همچنین مفاهیم علمی را بسیار استادانه در روایت احساسی گنجاند. با این حال Grok ۴.۱ یک متن علمی-تخیلی بسیار زیبا و خلاقانه نوشت. اما در نهایت Gemini برنده شد زیرا پرامپت را عمیق‌تر درک کرده بود؛ قالب خلاقانه‌تر، استعاره‌ها دقیق‌تر و ترکیب احساس و علم مؤثرتر بود.

برنده‌ی نهایی

در مجموع Gemini پاسخ‌های بهتری ارائه کرد؛ اما باز هم امتیازی که Grok گرفت قابل توجه بود. موضوع دیگر توهم یا هالوسینیشن (Hallucinations) Gemini بود. شاید بتوان گفت بعد از ساعت‌ها سوال و جواب از چت‌بات‌ها، این اولین بار بود که این مدل میان سوالات دچار توهم و هذیان گفتن شد. سؤال آخر برای Gemini واقعاً چالش‌زا بود، اما در بخش‌هایی مثل رفع اشکال و توضیح مسائل پیچیده عملکرد بسیار خوبی داشت.

با تکامل مداوم این مدل‌ها، چنین مقایسه‌های دوبه‌دو کمک می‌کند تا متوجه شویم که نه‌تنها کدام مدل بهتر است، بلکه کدام برای کدام کاربر و کدام وظیفه مناسب‌تر است.

منبع: tomsguide

  •  
بازدید از صفحه اول
ارسال به دوستان
نسخه چاپی
نظر شما
در زمینه ی انشار نظرات مخاطبان رعایت چند نکته ضروری است
لطفا نظرات خود را با حروف فارسی تایپ کنید خبر داغ مجاز به ویرایش ادبی نظرات مخاطبان است خبر داغ از انتشار نظراتی که حاوی مطالب کذب, توهین یا بی احترامی به اشخاص ,قومیت ها, عقاید دیگران, موارد مغایر با قوانین کشور و آموزه های دین مبین اسلام باشد معذور است. نظرات پس از تایید مدیر بخش مربوطه منتشر میشود.