"Dunyodagi eng aqlli" GROK3-ni sinovdan o'tkazish

AIPU Waton Group (1)

Kirish

Sizningcha, GROK3 oldindan o'qitilgan modellarning "oxirgi nuqtasi" bo'ladimi?

Elon Mushk va Xay jamoasi - Lovest3, Grok3ning so'nggi versiyasini, yiverda joylashgan. Ushbu tadbirdan oldin mujtaladigan ma'lumotlarning katta miqdori, mushakning 24/7 rioyachisi bilan bir qatorda, GROK3 uchun global kutilgan darajada misli ko'rilmagan darajalarga ko'tarildi. Faqat bir hafta oldin, R1 Lastrekis haqida sharhlashda ishonchli tarzda ta'kidladi, "Xay AI modelini yaxshiroq ishga tushirmoqchi." Juda yuqori bo'lgan ma'lumotlar matematika, fan va dasturlash uchun barcha joriy modellardan yuqori bo'lgan holda, "uch yil ichida Nobel mukofot darajasi bo'yicha yutuqlar" deb taxmin qilgan holda, hozirgi kunda joriy asosiy modellardan ustundir. Ammo hozirda bular shunchaki mushkning tasdiqlari. Ishga tushirilgandan so'ng men GROK3 versiyasini sinovdan o'tkazdim va katta modellar uchun klassik hiyla savolini, "9.11 yoki 9,9?" Afsuski, umuman aqlli grok3 deb ataladigan hech qanday saralash yoki belgilarsiz bu savolga to'g'ri javob bera olmadi. GROK3 savolning ma'nosini aniq aniqlay olmadi.

 

Ushbu test tezda ko'pgina do'stlar va tasodifan, chet elda turli xil testlar, "Piza pizasi lazzatini birinchi marta yiqilib tushdimi?" Shunday qilib, u "oddiy savollarga javob berishni istamagan daho" deb belgilangan.

640

GROK3 yaxshi, ammo bu R1 yoki O1-Pro dan yaxshiroq emas.

GROK3 Amaliyot sinovlarida ko'plab umumiy bilimlarni sinovdan o'tkazdi. Xayni boshlagan voqea paytida mushk "Grok3" tomonidan o'ynashni da'vo qilgan o'yin yo'lining o'yin yo'lidan va ta'sirini tahlil qilish uchun "GROK3" dan foydalanib, "GROK3" tomonidan taqdim etilgan ko'plab javoblarni tahlil qildi. Yirtqich hayvonlar paytida mushk bu aniq masalani payqamadi.

 

Ushbu xato nafaqat chet elda netizens uchun mushklarni "o'rnini bosuvchilarni almashtirish" uchun mushk uchun qo'shimcha dalillar keltirilgan, ammo GROK3 amaliy dasturlaridagi ishonchliligi haqida ham katta tashvishlarni keltirib chiqardi. Bunday "daho", "Amaldagi imkoniyatlardan qat'i nazar, bu juda murakkab dastur stsenariylari, masalan, mars qidiruv vazifalari kabi ishonchlilik shubhalanadi.

 

Hozirgi paytda GROK3 hafta oldin, namunaviy imkoniyatlarga ega bo'lgan ko'plab sinovchilar, kechalar umumiy xulosaga kelishadi: "GROK3 - bu R1 yoki O1-Pro dan yaxshiroq emas."

640 (1)

"Nvidia" ni buzish bo'yicha tanqidiy nuqtai nazar

Rasmiy ravishda taqdim etilgan ppt bo'shliq paytida GROK3 ChatBot Arenaida "oldinda", ammo bu eng aqlli grafik usulda "oldinda" ko'rinadi.

640

Haqiqiy amark natijalari bo'yicha R1 va GPT-4.0 dan 1-2% ni tashkil etadi, bu ko'plab foydalanuvchilarning "sezilarli farq yo'q" deb topilgan ko'plab foydalanuvchilarning tajribali tajribalariga mos keladi. GROK3 faqat o'z xodimi tomonidan 1% -2% ga ko'pdir.

640

GROK33 hozirgi paytda ommaviy sinovdan o'tgan modellardan yuqori bo'lgan bo'lsa-da, ko'pchilik buni GROK2 davrida "balpulyatsiya" uchun tanqid qilgan. Kelishuvlar uzunligi bo'yicha peshqadamlik bilan jazolanganligi sababli, ballar keskin kamaydi, sanoat insayderlari ko'pincha "yuqori golli, ammo past qobiliyat" hodisasini tez-tez tanqid qilishadi.

 

"Manipulyatsiya" lideri yoki rasmlaridagi dizaynerlik vositasi orqali ular Xay va mushkning model imkoniyatlarida "paketni olib boradigan" tushunchasini ochib berishadi. Mushk ushbu chegaralar uchun tik narxni to'ladi: ishga tushirish paytida u 20000 H100 GPUS ("100000 dan ortiq" GPUS-dan foydalanishni ("100000 dan ortiq" yoki 200 million soat davomida erishgan. Bu ba'zi birlarga GPU sanoatining yana bir muhim boonini ifodalaydi va "ahmoq" sifatida Sektorga chuqur ta'sir ko'rsatishi mumkin. Xususan, ba'zilar mozaika kuchlari model o'qitishning kelajagi bo'lishiga ishonishadi.

 

Biroq, ba'zi bir netizenlar ikki oy davomida v3 ni ishlab chiqarish uchun 2000 yildan ortiq vaqt davomida v3 ni ishlab chiqarish uchun 2000 yildan ortiq vaqt davomida Internetni ishlab chiqarish uchun 263 baravar ko'p. 1402 ball to'plagan V3 va GROK3 orasidagi bo'shliq 100 ballgacha. Ushbu ma'lumotlarning chiqarilishidan so'ng, ko'pchilik "dunyodagi eng kuchli" nomli unvonining orqasida aniq marjinal foyda keltiradi - kuchli ishlashni keltirib chiqaradigan kattaroq modellarning pasayishi kamayadi.

640 (2)

Hatto "yuqori ball, ammo past qobiliyat", "GROK2" GROK2-dan foydalanishni qo'llab-quvvatlash uchun x (Twitter) platformasidan juda yuqori sifatli birinchi darajali ma'lumotlarga ega edi. Ammo, GROK3 mashg'ulotida Xay tabiiy ravishda "Shife" mashg'ulotlarida, hozirgi paytda Open tomonidan tayyorgarlik ma'lumotlarining yo'qligi modelning imkoniyatlarining cheklangan qo'llanilishini fosh qiladi.

 

GROK3 ishlab chiquvchilari, ehtimol, bu faktlarni birinchi bo'lib tushunishlari mumkin, shuning uchun mushklar har doimgidek "beta" va "kelgusi oylarda" Beta ". Mushk Grok3-ning mahsulot bo'limining rolini egalladi, deb taxmin qiluvchi, foydalanuvchilar bo'limda qatnashgan turli masalalar bo'yicha fikr-mulohazalarni taqdim etishdi. U er yuzidagi mahsulot menejerini eng ko'p kuzatib borishi mumkin.

 

Bir kun ichida "katta hisoblash mushak" ga tayanishga umid qilayotganlar uchun "Massiv hisoblash mushaklari" ga ishonishga umid qilayotganlar uchun "Oprosoft" GPT-4-ga tayanib, OpenAiAiASoft-4 raqami 1,8 trillion parametrlar mavjud. Mish-mishlar GPT-4.5 ning parametr hajmi yanada kattaroq bo'lishi mumkinligini taxmin qiladi.

 

Model parametrlari sara sifatida, trening xarajatlari ham pasayish. Maydonlar hajmi orqali yaxshiroq ishlash uchun "pulni yoqish" ga erishish uchun GROK3-ning mavjudligi bilan "Yonish" ga qarshi kurashish bilan, masalan, parametr hajmi bo'yicha yaxshilanishni davom ettirish, hozirda hozircha ko'rish va uni qanday engish haqida o'ylashi kerak. Ayni paytda, o'tgan yilning dekabr oyida ilgari bo'lib o'tgan Evansi Sentskiy bosh boshliq bo'lgan Ilya Sutskover, "biz tanish bo'lgan mashg'ulotlar yakunlanadi", bu esa katta modellarni o'qitish uchun haqiqiy yo'lni topish uchun harakatlarni amalga oshirishga qaratilgan.

640 (3)

Ilyaning nuqtai nazari sohadagi signal chaldi. U mavjud bo'lgan yangi ma'lumotlarning paydo bo'lishini aniq ko'radi, bu esa ish faoliyatni sotib olish orqali kuchayib boradigan vaziyatga olib keladi, bu uning qazilma yoqilg'isining charchashiga o'xshatadi. Uning ta'kidlashicha, "neft, gohida ishlab chiqarishning Internetdagi mazmuni cheklangan manba." Sutskerning bashoratiga ko'ra, keyingi avlodning keyingi avlodlari, oldindan tayyorgarlik, "Haqiqiy avtonomiya" va inson miyasiga o'xshash fikrlar ta'siriga ega bo'ladi.

 

Bugungi kunda kontentga mos keladigan oldindan o'qitilgan modellardan farqli o'laroq, AI ning kelajakdagi "tafakkuri" ga qadar muammolarni hal qilish uchun kelajakda muammolarni hal qilish va yaratish imkoniyatlarini o'rganish va yaratish. Inson shunchaki asosiy professional adabiyotga ega bo'lgan mavzuniy bilimlarga erishishi mumkin, AI katta model esa, eng asosiy dastur darajasiga erishish uchun millionlab ma'lumotlar punktlarini talab qiladi. Bu so'zlar biroz o'zgarganda, ushbu fundamental savollar to'g'ri tushunilmasa ham, model razvedkada chinakam yaxshilanmasligini tasvirlab, bu hodisaning aniq namunasidir.

♪ _20240614024031.jpg1

Xulosa

Ammo shafqatsiz kuchdan tashqari, agar GROK3 "Sanoatga" oldindan o'qitilgan modellar o'z nihoyasiga yetmoqda ", degani, bu sohada muhim ahamiyatga ega bo'ladi.

Ehtimol, GROK3 atrofidagi g'azabdan keyin Fei-Fii Li-ning "Atigi $ 50 evaziga yuqori darajadagi ma'lumotlardagi yuqori samarali modellarni sozlash" kabi yana bir bor guvohlik beramiz.

Elv kabel echimini toping

Boshqaruv kabellari

BMS, avtobus, sanoat, asbobslash kabeli uchun.

Tuzilgan kabel tizimi

Tarmoq va ma'lumotlar, optik tolali kabel, yamoq shnuri, modullar, dona

2024 ko'rgazma va tadbirlarni ko'rib chiqish

Dubayda 1-aprel - 1824 yilgacha bo'lgan o'rta sharq-energiya

Moskvadagi 2016 yil 18-chi, 2024 yil

Shanxayda yangi mahsulot va texnologiyalarni ishga tushirish

Pekinda 2024 yil oktyabrda joylashgan xavfsizlik xitoy

NO NO.19-20, 2024 yilgi ulangan Dunyo KSA


O'tish vaqti: fevral-19-2025