GPT-5: 4 noves funcions que volem veure

Links ràpids

Què és el GPT-5 d'OpenAI?

Més Multimodalitat

Finestra de context més gran i més eficient

Agents GPT

Menys al·lucinacions

El GPT-4 d'OpenAI és actualment la millor eina d'IA generativa del mercat, però això no vol dir que no mirem cap al futur. Amb el conseller delegat d'OpenAI, Sam Altman, donant suggeriments periòdics sobre GPT-5, sembla probable que veurem un nou model d'IA actualitzat en breu.

MUO Vídeo del dia DESPLACEU PER CONTINUAR AMB EL CONTINGUT

Almenys, això és el que esperem. No hi ha una data de llançament específica per a GPT-5, i la majoria del que creiem que sabem prové de reunir altra informació i intentar connectar els punts.

Tot i així, independentment de la data de venciment, hi ha algunes funcions clau que volem veure quan es llanci GPT-5.

Què és el GPT-5 d'OpenAI?

GPT-5 és el successor molt esperat del model GPT-4 AI d'OpenAI, que s'espera que sigui el model generatiu més potent del mercat. Tot i que actualment no hi ha una data de llançament oficial per a GPT-5, hi ha indicis que es podria llançar a l'estiu de 2024. En aquest moment es coneixen molt pocs detalls sobre el model, però es poden dir diverses coses amb una certa quantitat de certesa:

OpenAI ha presentat una marca comercial per al nom amb el Oficina de Patents i Marques dels Estats Units .
Diversos executius d'OpenAI han discutit o insinuat les possibles capacitats del model.
El CEO d'OpenAI, Sam Altman, va esmentar repetidament el model durant un març de 2024 Entrevista a YouTube amb Lex Fridman.

Tots apunten a una realitat emocionant: el GPT-5 arriba! Dit això, moltes coses són especulacions en aquest moment. Però hi ha algunes coses que esperem veure i estem bastant segurs de veure al model. Aquests són alguns d'ells:

1. Més Multimodalitat

Una de les millores més interessants de la família GPT de models d'IA ha estat la multimodalitat. Per a més claredat, la multimodalitat és la capacitat d'un model d'IA per processar més que només text, sinó també altres tipus d'entrada com imatges, àudio i vídeo. La multimodalitat serà un referent d'avenç important per a la família de models GPT en el futur.

Windows 10 no pot obrir el centre d'acció

Amb GPT-4 que ja és capaç de gestionar les entrades i sortides d'imatge, les millores que cobreixen el processament d'àudio i vídeo són la següent fita per a OpenAI, i GPT-5 és un bon lloc per començar. Google ja està avançant seriosament amb aquest tipus de multimodalitat amb el seu model Gemini AI. Seria inusual d'OpenAI no respondre. Però, és clar, no ens creguis la paraula. En el seu Podcast Unconfuse Me [Transcripció en PDF], Bill Gates va preguntar al CEO d'OpenAI, Sam Altman, quines fites preveia per a la sèrie GPT durant els propers dos anys. La seva primera resposta? Processament de vídeo.

Per tant, per a GPT-5, esperem poder jugar amb vídeos: penjar vídeos com a sol·licituds, crear vídeos sobre la marxa, editar vídeos amb indicacions de text, extreure segments de vídeos i trobar escenes específiques de fitxers de vídeo grans. Esperem poder fer coses semblants als fitxers d'àudio. És una gran pregunta, sí. Però tenint en compte el ràpid desenvolupament de la IA, és una expectativa molt raonable.

2. Finestra de context més gran i més eficient

Monitor en un escriptori amb el logotip d'OpenAI

Ralf Jhetner Borja/ flickr

Tot i ser un dels models d'IA més sofisticats del mercat, la família de models d'IA GPT té una de les finestres de context més petites. Per exemple, El Claude 3 d'Anthropic compta amb una finestra de context de 200.000 fitxes , mentre Gemini de Google pot processar un milió de fitxes sorprenents (128.000 per a ús estàndard). En canvi, GPT-4 té una finestra de context relativament més petita de 128.000 fitxes, amb aproximadament 32.000 fitxes o menys disponibles de manera realista per utilitzar-les en interfícies com ChatGPT.

Amb la multimodalitat avançada que entra a la imatge, una finestra de context millorada és gairebé inevitable. Potser n'hi hauria prou amb un augment de dos o quatre, però esperem veure una cosa així com un factor deu. Això permetrà que GPT-5 processi molta més informació d'una manera molt més eficient. Ara, una finestra de context més gran no sempre significa millor. Per tant, en comptes d'augmentar la finestra de context, ens agradaria veure una major eficiència del processament de context.

Ja veieu, un model pot tenir una finestra de context d'un milió de testimonis (al voltant de 700.000 paraules de capacitat), però no pot produir un resum exhaustiu quan se li demana que resumeixi un llibre de 500.000 paraules perquè no pot processar adequadament la totalitat del context tot i tenir el capacitat per fer-ho en teoria. Que pugueu llegir un llibre de 500.000 paraules no vol dir que pugueu recordar tot el que hi ha o processar-lo amb raó.

pel·lícules gratuïtes sense registrar-se ni pagar

3. Agents GPT

S'ha accedit a ChatGPT des d'un telèfon intel·ligent

Koshiro K/ Shutterstock

Potser una de les possibilitats més emocionants d'un llançament de GPT-5 és el debut dels agents GPT. Tot i que el terme 'canviador de jocs' probablement s'ha utilitzat excessivament en IA, els agents GPT serien realment canviadors de joc en tots els sentits pràctics. Però, com canviaria el joc això?

Actualment, els models d'IA com el GPT-4 us poden ajudar a completar una tasca. Poden escriure un correu electrònic, fer una broma, resoldre un problema de matemàtiques o redactar una entrada de bloc per a tu. Tanmateix, només poden fer aquesta tasca en particular i no poden completar un conjunt de tasques relacionades que serien necessàries per completar la vostra feina.

Suposem que sou un desenvolupador web. Com a part de la teva feina, s'espera que facis moltes coses: dissenyar, escriure codi, solucionar problemes i molt més. Actualment, només podeu delegar una part d'aquestes tasques als models d'IA alhora. Potser podeu demanar al model GPT-4 que escrigui un codi per a la pàgina d'inici, després demanar-li que ho faci per a la pàgina de contacte, i després per a la pàgina Sobre, etc. Haureu de completar aquestes tasques de manera iterativa. I hi ha tasques que els models simplement no poden completar.

Aquest procés iteratiu de sol·licitar models d'IA per a subtasques específiques requereix temps i és ineficient. En aquest escenari, tu, el desenvolupador web, ets l'agent humà responsable de coordinar i sol·licitar els models d'IA una tasca a la vegada fins que completes tot un conjunt de tasques relacionades.

GPT Agents promet robots experts especialitzats coordinats per, amb sort, GPT-5 capaços d'autoindicar-se i abordar tots els subconjunts d'una tasca complexa de manera autònoma. Èmfasi en 'l'auto-indicació' i 'autònom'.

com enviar cartes als soldats

Per tant, si GPT-5 s'envia amb agents de GPT, podeu demanar-li que 'creï un lloc web de cartera per a Maxwell Timothy' en lloc de simplement 'escrigui'm un codi per a la pàgina d'inici'. Aleshores, GPT-5 seria capaç d'autoindicar-se invocant agents experts en IA per gestionar les diferents subtasques necessàries per crear un lloc web. Podria invocar un GPT per eliminar la web per obtenir informació sobre Maxwell Timothy, un altre agent per escriure el codi per a diferents pàgines, un altre agent per generar i optimitzar imatges i fins i tot un altre agent d'IA per desplegar el lloc, tot sense necessitat de repeticions humanes. demanant.

4. Menys al·lucinacions

Tot i que OpenAI ha recorregut un llarg camí a l'hora d'afrontar les al·lucinacions en els seus models d'IA, la veritable prova de tornasol per a GPT-5 serà la seva capacitat per abordar el problema persistent de les al·lucinacions, que ha frenat l'adopció generalitzada de la IA en grans apostes. dominis crítics per a la seguretat com l'assistència sanitària, l'aviació i la ciberseguretat. Totes aquestes són àrees que es beneficiarien molt d'una gran implicació de la IA, però actualment s'estan evitant una adopció significativa.

Per a més claredat, les al·lucinacions en aquest context es refereixen a situacions en què el model d'IA genera i presenta informació de so plausible però completament fabricada amb un alt grau de confiança.

Imagineu un escenari on GPT-4 s'integra en un sistema de diagnòstic per analitzar els símptomes del pacient i els informes mèdics. Una al·lucinació podria portar a la IA a proporcionar amb confiança un diagnòstic incorrecte o recomanar un curs de tractament potencialment perillós basat en fets imaginaris i lògica falsa. Les conseqüències d'aquest error en l'àmbit mèdic podrien ser catastròfiques.

Reserves similars s'apliquen a altres camps d'alta conseqüència, com ara l'aviació, l'energia nuclear, les operacions marítimes i la ciberseguretat. No esperem que el GPT-5 resolgui completament el problema de les al·lucinacions, però esperem que redueixi significativament la possibilitat d'aquests incidents.

Mentre esperem impacients el llançament oficial d'aquest model d'IA tan esperat, una cosa és certa: GPT-5 té el potencial de redefinir els límits del que és possible amb la intel·ligència artificial, inaugurant una nova era de col·laboració i innovació home-màquina.