A Microsoft által támogatott induló OpenAI nemrégiben hang- és képfunkciókat adott hozzá generatív mesterségesintelligencia-alapú chatbotjához, a ChatGPT-hez, amely mostantól láthatja, hallhatja és beszélhet.
Ezek a lehetőségek egy új, intuitívabb típusú felületet kínálnak, amely lehetővé teszi a felhasználók számára, hogy hangbeszélgetést folytathassanak, vagy megmutassák a ChatGPT-nek, hogy miről beszélnek.
A ChatGPT most láthat képeket és hallgathatja hangját
Vessünk egy pillantást a ChatGPT-hez hozzáadott új funkciókra:
Hang
A felhasználók immár hang használatával oda-vissza beszélgetést folytathatnak az AI-asszisztenssel. Az új szövegfelolvasó modell segítségével a ChatGPT immár csak szövegből és néhány másodperces mintabeszédből is képes emberszerű hangot generálni.
Az OpenAI professzionális szinkronszínészekkel együttműködve öt különböző hangbeállítást hozott létre, amelyek között férfi és női hangok is szerepelnek. A Whisper-t, nyílt forráskódú beszédfelismerő rendszerét is használta a felhasználó kimondott szavainak szöveggé történő átírására.
A hangbeszélgetések megkezdéséhez nyissa meg a Beállításokat, és kattintson az „Új szolgáltatások” elemre a mobilalkalmazásban. Ezután válassza a hangbeszélgetést. Ha végzett, érintse meg a fejhallgató gombot a kezdőképernyő jobb felső sarkában, és válassza ki a kívánt hangot az öt különböző hangbeállítás közül.
Használja hangját, hogy oda-vissza beszélgetést folytathasson a ChatGPT-vel. Beszélgessen vele útközben, kérjen lefekvés előtti mesét, vagy rendezzen vitát az asztalnál.
Hang be 🔊 pic.twitter.com/3tuWzX0wtS
— OpenAI (@OpenAI) 2023. szeptember 25
Képek
A ChatGPT mostantól képes válaszolni a felhasználók által feltöltött képekre. Például a felhasználók utazás közben készíthetnek képet egy tereptárgyról, hogy további részleteket kapjanak róla, vagy képeket küldhetnek a hűtőjükről és a kamrájukról, az AI-asszisztens pedig javaslatot tehet arra, hogy milyen ételeket készíthet vacsorára a hozzávalókból.
Ez a képmegértés révén lehetséges, amelyet a multimodális GPT-3.5 és GPT-4 hajt meg, amelyek nyelvi érvelési készségeiket különféle képekre, például fényképekre, képernyőképekre, valamint szöveget és képeket egyaránt tartalmazó dokumentumokra alkalmazzák.
A kezdéshez érintse meg a fénykép gombot a kép rögzítéséhez vagy kiválasztásához. Ha iOS vagy Android eszközt használ, először meg kell érintenie a plusz gombot. Ezenkívül megbeszélhet több képet, vagy használhatja az OpenAI rajzeszközét az AI-asszisztens irányítására.
„A hang és a kép több lehetőséget kínál a ChatGPT használatára az életében. Készítsen egy képet egy tereptárgyról utazás közben, és beszélgessen élőben arról, hogy mi az érdekes benne” – a cég bejelentett egy hétfői blogbejegyzésben.
„Amikor otthon van, készítsen képeket a hűtőről és a kamráról, hogy kitalálja, mi legyen a vacsora (és tegyen fel további kérdéseket egy lépésről lépésre elkészített recepthez). Vacsora után segíts gyermekednek egy matematikai feladat megoldásában, fényképezd le, karikázd be a feladatsort, és ossz meg tippeket mindkettőtökkel.”
Elérhetőség
A következő két hétben a hang- és képfunkciók elérhetővé válnak a ChatGPT Plus és az Enterprise ügyfelei számára. Míg a hangfunkció elérhető lesz iOS és Android rendszeren (beállításaiban engedélyezheti), a képek funkció minden platformon elérhető lesz.