Kirish

Sizningcha, Grok3 oldindan o'qitilgan modellarning "oxirgi nuqtasi" bo'ladimi?

Elon Mask va xAI jamoasi jonli efir vaqtida Grokning so'nggi versiyasi Grok3 ni rasman ishga tushirdi. Ushbu tadbirdan oldin, tegishli ma'lumotlarning katta miqdori Maskning 24/7 reklama shov-shuvi bilan birgalikda Grok3 uchun global kutishlarni misli ko'rilmagan darajaga ko'tardi. Bir hafta oldin Mask jonli efirda DeepSeek R1-ga izoh berar ekan, “xAI yaxshiroq AI modelini ishga tushirish arafasida”, deb ishonch bilan aytdi. Jonli efirda taqdim etilgan maʼlumotlarga koʻra, Grok3 matematika, fan va dasturlash boʻyicha koʻrsatkichlar boʻyicha barcha joriy asosiy modellardan oʻzib ketgan, Mask hatto Grok3 SpaceX’ning Marsdagi missiyalari bilan bogʻliq hisoblash vazifalari uchun ishlatilishini taʼkidlab, “uch yil ichida Nobel mukofoti darajasidagi yutuqlarni” bashorat qilgan. Biroq, bular hozirda faqat Maskning da'volari. Ishga tushirilgandan so'ng, men Grok3 ning so'nggi beta versiyasini sinab ko'rdim va katta modellar uchun klassik hiyla-nayrang savolini berdim: "Qaysi biri kattaroq, 9,11 yoki 9,9?" Afsuski, hech qanday saralash yoki belgilarsiz, eng aqlli deb ataladigan Grok3 hali ham bu savolga to'g'ri javob bera olmadi. Grok3 savolning ma'nosini aniq aniqlay olmadi.

Ushbu test tezda ko'plab do'stlarning e'tiborini tortdi va tasodifan chet elda o'tkazilgan turli xil testlar Grok3ning "Qaysi to'p Piza minorasidan birinchi bo'lib tushadi?" kabi asosiy fizika/matematika savollari bilan kurashayotganini ko'rsatdi. Shunday qilib, u hazil bilan "oddiy savollarga javob berishni istamaydigan daho" deb nomlanadi.

Grok3 yaxshi, lekin u R1 yoki o1-Pro dan yaxshiroq emas.

Grok3 amaliyotda ko'plab umumiy bilim sinovlarida "muvaffaqiyatsizlik" ni boshdan kechirdi. XAIni ishga tushirish tadbiri davomida Mask Grok3-dan foydalanib, Path of Exile 2 oʻyinining xarakter sinflari va effektlarini tahlil qildi, u tez-tez oʻynashini daʼvo qildi, ammo Grok3 tomonidan berilgan javoblarning aksariyati notoʻgʻri edi. Musk jonli efir vaqtida bu aniq muammoni payqamadi.

Bu xato xorijdagi internet foydalanuvchilari uchun Maskni o‘yinda “o‘rinbosar topgani” uchun masxara qilishlari uchun qo‘shimcha dalil bo‘libgina qolmay, balki Grok3 ning amaliy ilovalardagi ishonchliligiga oid jiddiy xavotirlarni ham keltirib chiqardi. Bunday "daho" uchun, uning haqiqiy imkoniyatlaridan qat'i nazar, Marsni o'rganish vazifalari kabi o'ta murakkab dastur stsenariylarida ishonchliligi shubha ostida qolmoqda.

Hozirda Grok3-ga haftalar oldin kirish huquqiga ega bo'lgan ko'plab testerlar va kechagina bir necha soat davomida model imkoniyatlarini sinab ko'rganlarning barchasi umumiy xulosaga ishora qiladilar: "Grok3 yaxshi, lekin u R1 yoki o1-Pro dan yaxshiroq emas".

"Nvidia-ni buzish" ga tanqidiy nuqtai nazar

Chiqarish paytida rasman taqdim etilgan PPT-da Grok3 Chatbot Arenada "uzoqda" ekanligi ko'rsatildi, ammo bu mohirlik bilan ishlatilgan grafik usullar: peshqadamlar panelidagi vertikal o'q faqat 1400-1300 ball oralig'idagi natijalarni sanab o'tdi, bu esa test natijalaridagi dastlabki 1% farqni ushbu taqdimotda juda muhim ko'rinadi.

Haqiqiy modelni baholash natijalari bo'yicha Grok3 DeepSeek R1 va GPT-4.0 dan atigi 1-2% oldinda, bu ko'plab foydalanuvchilarning amaliy sinovlarda "sezilmas farq" topmagan tajribasiga mos keladi. Grok3 o'z vorislaridan atigi 1% -2% ga oshadi.

Garchi Grok3 hozirda omma oldida sinovdan o‘tgan barcha modellardan yuqori ball to‘plagan bo‘lsa-da, ko‘pchilik buni jiddiy qabul qilmaydi: axir, xAI avvalroq Grok2 davrida “ball manipulyatsiyasi” uchun tanqid qilingan. Peshqadamlar jadvali javoblar uzunligi uslubini jazolaganligi sababli, ballar sezilarli darajada pasayib ketdi, bu esa sanoat insayderlarini ko'pincha "yuqori ball, lekin qobiliyat pastligi" fenomenini tanqid qilishiga olib keldi.

Peshqadamlar panelidagi "manipulyatsiya" yoki illyustratsiyalardagi dizayn nayranglari orqali ular xAI va Maskning model imkoniyatlarida "to'plamda etakchilik qilish" tushunchasiga bo'lgan ishtiyoqini ochib beradi. Mask bu marjlar uchun katta narx to'ladi: ishga tushirish vaqtida u 200 000 H100 GPU (jonli efirda "100 000 dan ortiq" deb da'vo qilmoqda) foydalangani va umumiy mashg'ulot vaqti 200 million soatni tashkil etgani bilan maqtandi. Bu ba'zilarning bu GPU sanoati uchun yana bir muhim ne'mat ekanligiga ishonishiga va DeepSeekning sektorga ta'sirini "ahmoqlik" deb hisoblashiga olib keldi. Ta'kidlash joizki, ba'zilar aniq hisoblash kuchi model tayyorlashning kelajagi bo'lishiga ishonishadi.

Biroq, ba'zi internet foydalanuvchilari DeepSeek V3 ishlab chiqarish uchun ikki oy davomida 2000 ta H800 GPU iste'molini taqqoslab, Grok3 ning haqiqiy o'quv quvvati iste'moli V3 dan 263 baravar ko'p ekanligini hisoblab chiqdi. 1402 ball to'plagan DeepSeek V3 va Grok3 o'rtasidagi farq 100 balldan sal kamroq. Ushbu ma'lumotlar e'lon qilinganidan so'ng, ko'pchilik Grok3-ning "dunyodagi eng kuchli" unvoni ortida aniq marjinal foydali effekt mavjudligini tezda anglab etdi - kuchliroq ishlashni keltirib chiqaradigan kattaroq modellarning mantig'i pasayib borayotgan daromadni ko'rsata boshladi.

Hatto "yuqori ball to'plagan, ammo qobiliyati past" bo'lsa ham, Grok2 foydalanishni qo'llab-quvvatlash uchun X (Twitter) platformasidan yuqori sifatli birinchi tomon ma'lumotlariga ega edi. Biroq, Grok3 treningida xAI tabiiy ravishda OpenAI duch keladigan "shipga" duch keldi - yuqori darajadagi o'quv ma'lumotlarining yo'qligi model imkoniyatlarining chegaraviy foydaliligini tezda ochib beradi.

Grok3 va Musk ishlab chiquvchilari, ehtimol, birinchi bo‘lib bu faktlarni chuqur tushunib, aniqlaydilar, shuning uchun Mask ijtimoiy tarmoqlarda doimiy ravishda foydalanuvchilar boshdan kechirayotgan versiya “hali ham beta-versiya” ekanligini va “to‘liq versiya yaqin oylarda chiqariladi” deb ta’kidlab keladi. Musk Grok3 mahsulot menejeri rolini o'z zimmasiga oldi va foydalanuvchilarga sharhlar bo'limida duch kelgan turli muammolar bo'yicha fikr-mulohazalarini bildirishni taklif qildi. U Yer yuzidagi eng ko'p kuzatiladigan mahsulot menejeri bo'lishi mumkin.

Shunga qaramay, bir kun ichida Grok3 ning ishlashi, shubhasiz, kuchliroq katta modellarni tayyorlash uchun "massiv hisoblash mushaklari" ga tayanmoqchi bo'lganlar uchun signallarni kuchaytirdi: ommaviy mavjud Microsoft ma'lumotlariga asoslanib, OpenAI'ning GPT-4 parametr o'lchami 1,8 trillion parametrga ega, bu GPT-3dan o'n baravar ko'proq. Mish-mishlarga ko'ra, GPT-4.5 parametrining o'lchami bundan ham kattaroq bo'lishi mumkin.

Model parametrlarining o'lchamlari oshgani sayin, o'qitish xarajatlari ham keskin oshib bormoqda. Grok3 ishtirokida, GPT-4.5 va boshqalar kabi parametr o'lchamlari orqali modelning yaxshi ishlashiga erishish uchun "pul yoqishni" davom ettirmoqchi bo'lgan da'vogarlar endi aniq ko'rinadigan shiftni ko'rib chiqishlari va uni qanday engish haqida o'ylashlari kerak. Ayni paytda, OpenAIning sobiq bosh olimi Ilya Sutskever o'tgan dekabr oyida "Bizga yaxshi tanish bo'lgan tayyorgarlik tugaydi", deb aytgan edi, bu munozaralarda yana paydo bo'ldi va katta modellarni o'qitishning haqiqiy yo'lini topishga undadi.

Ilyaning nuqtai nazari sanoatda xavotir uyg'otdi. U foydalanish mumkin bo'lgan yangi ma'lumotlarning yaqin orada tugashini aniq oldindan ko'ra oldi, bu esa ma'lumotlarni yig'ish orqali ishlashni davom ettirib bo'lmaydigan vaziyatga olib keldi va uni qazib olinadigan yoqilg'ilarning tugashiga o'xshatdi. Uning ta'kidlashicha, "neft kabi, internetdagi inson tomonidan yaratilgan kontent ham cheklangan manbadir". Sutskeverning bashoratiga ko'ra, yangi avlod modellari, tayyorgarlikdan so'ng, "haqiqiy avtonomiya" va "inson miyasiga o'xshash" fikrlash qobiliyatiga ega bo'ladi.

Asosan tarkibni moslashtirishga (avval o‘rganilgan model mazmuniga asoslanib) tayanadigan bugungi oldindan o‘rgatilgan modellardan farqli o‘laroq, kelajakdagi sun’iy intellekt tizimlari inson miyasi “fikrlash”iga o‘xshash tarzda muammolarni hal qilish uchun metodologiyalarni o‘rganishi va o‘rnatishi mumkin bo‘ladi. Inson asosiy professional adabiyotlar bilan mavzu bo'yicha fundamental bilimga erisha oladi, AIning katta modeli esa boshlang'ich darajadagi eng asosiy samaradorlikka erishish uchun millionlab ma'lumotlar nuqtalarini talab qiladi. So'z biroz o'zgartirilsa ham, ushbu asosiy savollar to'g'ri tushunilmasligi mumkin, bu modelning aql-idrokda chinakam yaxshilanmaganligini ko'rsatadi: maqola boshida keltirilgan asosiy, ammo hal qilib bo'lmaydigan savollar bu hodisaning yorqin misolidir.

Xulosa

Biroq, qo'pol kuchdan tashqari, agar Grok3 haqiqatan ham sanoatga "oldindan o'qitilgan modellar o'z yakuniga yaqinlashayotganini" ochib berishga muvaffaq bo'lsa, bu soha uchun muhim oqibatlarga olib keladi.

Ehtimol, Grok3 atrofidagi g'azab asta-sekin pasayganidan so'ng, biz Fey-Fey Lining misolida ko'proq guvoh bo'lamiz, masalan, "aniq ma'lumotlar to'plamida yuqori samarali modellarni atigi 50 dollarga sozlash" va natijada AGI ga to'g'ri yo'lni kashf qilish.