Reitingo viršūnėje atsidūrė „Google Gemini 2.5 Pro“, aplenkęs kinų „DeepSeek“ ir prancūzų „Magistral“ iš „Mistral“.
„Humaine“ vertina pokalbių robotus pagal tai, kiek patogu ir suprantama su jais bendrauti, kaip jie prisitaiko prie dialogo ir kelia pasitikėjimą.
10 geriausių pokalbių botų pagal vartotojų nuomonę
„Gemini 2.5 Pro“ (Google) – tyrimo lyderis. Išsiskiria lankstumu, suprantamu informacijos pateikimu ir sklandžiu dialogo vedimu. Vartotojai pažymėjo, kad su juo pokalbis atrodo beveik kaip su žmogumi.
„DeepSeek v3“ (Kinija) – antra vieta. Ypač gerai pasirodė stiliumi ir atsakymų pateikimu, tapo vyresnių amžiaus grupių mėgstamu.
Magistral Medium (Mistral, Prancūzija) – trečioji vieta. Maža prancūzų kompanija parodė, kad moka kurti modelius su natūralia komunikacija ir prisitaikymu, nors patikimumo ir saugumo rodikliais šiek tiek nusileido lyderiams.
Grok 4 (xAI) – ketvirta vieta. Po patobulinimų „ginčytini“ aspektai, tokie kaip modelio politinės nuotaikos, buvo pašalinti, ir modelis tapo patikimesnis ir draugiškesnis.
Grok 3 (xAI) – penkta vieta. Pagal kai kuriuos rodiklius, pavyzdžiui, etiką, ji netgi aplenkė Grok 4 tam tikrų vartotojų grupių tarpe.
Gemini 2.5 Flash (Google) – šešta vieta. Jaunesnė Gemini versija rodo gerus rezultatus, bet pralaimi vyresnei modeliui pagal prisitaikymą.
DeepSeek R1 (Kinija) – septinta vieta. Jaunesnė DeepSeek modelis yra stabilus, bet šiek tiek mažiau lankstus dialogo metu.
ChatGPT-4.1 (OpenAI) – aštunta vieta. Nepaisant dominavimo auditorijoje ir populiarumo, Humaine vartotojai įvertino jo „žmogiškumą“ ir prisitaikymą žemiau lyderių.
Gemma (Google) – devinta vieta. Dar vienas Google modelis, demonstruojantis stabilius, bet neišskirtinius rezultatus.
Gemini 2.0 Flash (Google) – dešimta vieta. Jaunesnė Gemini serijos versija užbaigė dešimtuką, nusileisdama pažangesniems konkurentams.
Kaip vyksta „Humaine“ tyrimas
„Humaine“ vertina pokalbių robotus pagal realius vartotojų dialogus.
Tyrime iš viso dalyvavo beveik 25 tūkstančiai žmonių iš JAV ir Jungtinės Karalystės, atstovaujančių įvairioms amžiaus grupėms, rasėms ir politinėms pažiūroms.
Kiekvienas botas buvo vertinamas pagal keturis kriterijus: pagrindinės užduoties atlikimas ir mąstymo logika, gebėjimas palaikyti dialogą ir prisitaikyti prie temos pasikeitimo, bendravimo stilius ir informacijos pateikimas, pasitikėjimas, etiškumas ir atsakymų saugumas.
Tyrimo ypatumas – tiesioginis palyginimas: vartotojai vedė dialogą su dviem anoniminiais modeliais ir rinko nugalėtoją.
Toks metodas leidžia realiai įvertinti, kaip botas bendrauja su žmogumi, o ne tik sprendžia testines užduotis.
„Humaine“ rodo, kad daugumai žmonių svarbu ne tik teisingas užduoties sprendimas, bet ir bendravimo patogumas, natūralumas ir suprantamumas.

Rašyti komentarą