Szerdán a Google piacra dobta az új multimodális általános mesterséges intelligencia (mesterséges intelligencia) modellt, a Geminit, hogy versenyezzen az OpenAI, a Microsoft és a Meta termékeivel.
A Google bemutatja legerősebb mesterséges intelligencia modelljét, a Geminit
A keresőóriás szerint a Gemini a „legnagyobb és legtehetősebb” nagynyelvi modell (LLM), amelyet a vállalat valaha épített, és a legkorszerűbb teljesítményt nyújtja számos vezető benchmark között.
A Google DeepMind AI-egység által kifejlesztett rugalmas AI-modellt a Google Tensor Processing Units-jain (TPU) képezték ki, ami jelentősen gyorsabbá teszi, mint a korábbi, kisebb és kevésbé képes modellek. Képes általánosítani és zökkenőmentesen megérteni, átdolgozni és kombinálni különböző típusú információkat, beleértve a szöveget, kódot, hangot, képet és videót.
A Google három különböző méretben kínálja a Gemini 1.0-t, első verzióját: a Gemini Ultra, a legnagyobb és legmegfelelőbb modell rendkívül összetett feladatokhoz; Gemini Pro, a legjobb modellje a feladatok széles skálájának skálázásához; és a Gemini Nano, az eszközön végzett feladatok leghatékonyabb modellje.
„Ezek a Gemini-korszak első modelljei, és az első megvalósítása annak a víziónak, amely a Google DeepMind megalakításakor volt az év elején. A modelleknek ez az új korszaka az egyik legnagyobb tudományos és mérnöki erőfeszítés, amelyet vállalatként vállaltunk” – mondta Sundar Pichai, a Google and Alphabet vezérigazgatója a bejelentéssel kapcsolatos blogbejegyzésben.
A Google DeepMind szerint a Gemini Ultra felülmúlja a GPT-4-et a 32 széles körben használt akadémiai benchmark teszt közül 30-ban, amelyek olyan képességeket mérnek, mint a képértés vagy a matematikai érvelés.
A Google szerint a Gemini Ultra 90 százalékos pontszáma az MMLU-n (masszív többfeladatos nyelvértés), amely 57 tantárgy – például matematika, fizika, történelem, jog, orvostudomány és etika – kombinációját használja mind a világismeret, mind a problémakör tesztelésére. A megoldási képességek révén ez az első AI-modell, amely felülmúlja az emberi szakértőket ezen a viszonyítási alapon.
Ezenkívül a Google szerint a Gemini Ultra 59,4%-ot ért el az új MMMU benchmarkon, amely különböző területeket átfogó multimodális feladatokból áll, amelyek tudatos érvelést igényelnek. Még a korábbi modelleket is felülmúlta a kép-benchmarkokban, anélkül, hogy az optikai karakterfelismerő (OCR) rendszer segítségére lenne, amely a képekből szöveget von ki további feldolgozás céljából.
A Gemini AI elérhetősége
A Google azt állítja, hogy a Pro verzió már elérhető a Bard chatbotban, és angolul is elérhető lesz több mint 170 országban és területen, a tervek szerint hamarosan különféle módozatokra bővül, és új nyelveket és helyeket is támogat. December 13-tól a fejlesztők és a vállalati ügyfelek hozzáférhetnek a Gemini Pro-hoz a Gemini API-n keresztül a Google AI Studio vagy a Google Cloud Vertex AI alkalmazásban.
Ezenkívül a Google a Gemini Nano-t Pixel 8 Pro okostelefonokon is bemutatja, és a következő hónapokban tervezi, hogy a Gemini idővel integrálja a keresési, hirdetési, Chrome- és egyéb szolgáltatásaiba. Ezenkívül az Android fejlesztői a Pixel 8 Pro eszközökön elérhető AICore-on keresztül hozzáférhetnek a Gemini Nano-hoz, amely az Android 14-ben elérhető új rendszerképesség. korai előzetes alapon.
Végül a Google azt tervezi, hogy 2024 elejétől kiadja az AI modell legfejlettebb verzióját, a Gemini Ultra-t a Bard Advanceden keresztül. A kiválasztott ügyfelek, fejlesztők, partnerek, valamint biztonsági és felelősségi szakértők számára elérhető lesz „korai kísérletezés és visszajelzés céljából”. mielőtt a jövő év elején megjelenne a fejlesztők és a vállalati ügyfelek számára.