OpenAI ofereix a ChatGPT una veu per respondre a les indicacions i ordres

Lectors com tu ajuden a donar suport a MUO. Quan feu una compra mitjançant enllaços al nostre lloc, podem guanyar una comissió d'afiliats. Llegeix més.

ChatGPT es convertirà en una experiència d'IA generativa interactiva. OpenAI va revelar que el chatbot d'IA líder del món podrà parlar i respondre a les consultes dels usuaris mitjançant una veu sintetitzada, presumiblement generada per IA.

Juntament amb la seva veu nova, ChatGPT també podrà respondre i discutir imatges específiques que s'hi pengin o que s'hagin capturat mentre utilitza l'aplicació ChatGPT per a Android o iOS. La funció de reconeixement d'imatges sona semblant a Google Lens i altres aplicacions que utilitzen xarxes neuronals per detectar dades i informació amb precisió.

OpenAI dóna a ChatGPT una veu

El 25 de setembre de 2023, desenvolupador de ChatGPT OpenAI revelat donaria veu al seu chatbot d'IA generatiu líder mundial. Els usuaris de ChatGPT poden parlar directament amb el chatbot i demanar-li que es torni a respondre, cosa que permet que ChatGPT converse directament amb la veu per primera vegada.

El clip d'exemple d'OpenAI mostra una dona que demana a ChatGPT que creï una història única per anar a dormir, a la qual ChatGPT respon degudament amb una veu femenina sintetitzada.

D'acord amb Amb cable , el nou model de text a veu es va desenvolupar internament. Pot generar àudio 'com a humà' a partir de text i uns quants segons de veu de mostra ( utilitzant el model OpenAI Whisper ) i parlar en diversos tons i estils. Podeu trobar una varietat de mostres de veu a El blog d'OpenAI .

Algunes empreses ja estan fent servir el nou model de veu d'OpenAI. Per exemple, Spotify està utilitzant el model de text a veu d'OpenAI per traduir podcasts a diferents idiomes, combinant la destresa de traducció d'idiomes de ChatGPT amb la seva nova capacitat de parlar.

El nou model de text a veu de ChatGPT només està disponible per als subscriptors de Plus i Enterprise que utilitzin les aplicacions oficials d'Android i iOS i s'espera que es desplegarà en les properes dues setmanes (a partir del 25 de setembre de 2023). A més, la nova funció de veu es limita a l'anglès per començar, tot i que esperem que això canviï ràpidament.

ChatGPT pot reconèixer i fotografies

La segona part de l'actualització de ChatGPT d'OpenAI és la capacitat d'analitzar i parlar les imatges penjades a l'eina. L'opció d'anàlisi d'imatges visuals es va presentar als vídeos d'actualització de GPT-4, però no s'ha parlat gaire des d'aleshores ( Intèrpret de codi ChatGPT a part ).

Xbox One s'encén per si sol

Ara, ChatGPT guanya una funcionalitat similar a Google Lens. Podeu carregar una imatge a ChatGPT o fer una fotografia amb la càmera del vostre telèfon intel·ligent a l'aplicació ChatGPT, i detallarà la imatge, afegint més context quan sigui necessari.

Anotar-lo 'semblant a Google Lens' és una injustícia, realment. La capacitat de xatejar d'anada i tornada sobre la imatge per obtenir més informació i context la fa extremadament útil per a una àmplia gamma de configuracions. Tanmateix, és important tenir en compte la lletra petita, amb OpenAI deixant clar que ha limitat la 'capacitat' de ChatGPT d'analitzar i fer declaracions directes sobre les persones per raons de privadesa i precisió. Tot i així, podria estar en marxa una eina 'Qui és aquest' impulsada per OpenAI? (Esperem que no!)

Igual que el nou model de text a veu, OpenAI implementarà el reconeixement d'imatges en les properes dues setmanes, tot i que estarà disponible a totes les plataformes, no només a l'aplicació ChatGPT.

Privadesa, seguretat i altres problemes

Les implicacions d'un ChatGPT alimentat per veu són greus. Segur, és emocionant. Tanmateix, la possibilitat de crear una veu sintetitzada de manera única utilitzant només un fragment breu com a exemple té problemes de privadesa i seguretat considerables. El potencial que els actors maliciosos explotin aquestes eines és enorme i, com passa amb qualsevol eina d'IA generativa, una vegada que el geni estigui fora de l'ampolla, no tornarà a entrar. Cap regulació d'IA per part dels governs o dels líders del pensament pot tornar enrere. la marea.

Fins i tot l'advertència d'OpenAI sobre el tema sembla evitar l'obvi malgrat esmentar els problemes:

Tanmateix, aquestes capacitats també presenten nous riscos, com ara la possibilitat que els actors maliciosos suplantin personatges públics o cometin fraus. És per això que utilitzem aquesta tecnologia per potenciar un cas d'ús específic: el xat de veu.

Tenint en compte que aquesta és la punta de l'iceberg, espereu un rebuig contra la nova veu de ChatGPT, sobretot quan hi hagi un augment previsible dels titulars desagradables que afirmen que ChatGPT s'utilitza per cometre frau, etc.

la barra inferior de Windows 10 no respon

OpenAI està fent de ChatGPT l'aplicació Go-To AI

Com més OpenAI afegeix funcions fàcils d'utilitzar a ChatGPT, més es converteix en l'aplicació d'IA generativa. Com a primer a assolir la fama generalitzada durant el boom generatiu inicial de l'IA, ChatGPT encara lidera el camí i és l'única aplicació que fa servir, malgrat la competència de Google Bard (i potencialment Google Gemini) i Claude d'Anthropic.

Mentre OpenAI pugui continuar afegint funcions que facin que ChatGPT sigui més fàcil d'utilitzar, mantindrà la gent enganxada i s'acostarà cada cop més al seu objectiu d'una eina d'IA realment multimodal.