Google, Amazon i Microsoft intensifiquen la guerra per la IA
L'empresa de Satya Nadella presenta una sèrie de portàtils amb una tecla específica per a la intel·ligència artificial
BarcelonaAmb el ganxo de la modalitat generativa, capaç d’inventar-se textos, imatges i vídeos, la intel·ligència artificial (IA) ha monopolitzat l’actualitat tecnològica. En menys de dues setmanes hem assistit a anuncis globals per part de Google, OpenAI i Microsoft; a l’arribada a Europa de dos serveis que fins ara no hi eren; a l’aprovació d’una directiva europea pionera sobre la matèria; al qüestionament dels mètodes d’entrenament indiscriminat d’algoritmes, fins i tot amb la intervenció d’una estrella de Hollywood; a una guerra de preus en el mercat xinès de la IA, i a la renúncia a aplicar criteris ètics en alguna de les plataformes més populars. Al fons de tot plegat hi ha una batalla comercial entre les tres grans empreses occidentals de serveis al núvol i els dubtes sobre la veritable utilitat de les aplicacions d’IA generativa en la vida quotidiana.
Per ordre cronològic, OpenAI va obrir el foc el dilluns 13 presentant GPT-4o, una nova versió del model de llenguatge extens (LLM, en les sigles angleses) que impulsa, entre d’altres, el popular ChatGPT i el Copilot que Microsoft ha incorporat a les seves aplicacions de navegació web i d’ofimàtica. El nou GPT-4o és molt més ràpid que les versions anteriors, i en els vídeos de demostració –dels quals cal dubtar, perquè encara no sabem en quines condicions es van rodar– mostra una naturalitat i una expressivitat excepcionals en el diàleg verbal –també en català– amb l’usuari.
Amb la breu presentació de GPT-4o, OpenAI pretenia –i va aconseguir– prendre-li protagonisme a l’acte del dilluns 14 en què Google centrava en la IA tot el seu congrés I/O per a desenvolupadors d’aplicacions i serveis, esforçant-se a fer visible el seu lideratge tecnològic davant nouvinguts menys prudents com l’esmentada OpenAI. De la crònica en destaco la nova versió del LLM privatiu Gemini i el derivat de codi obert Gemma.
Aquesta mateixa setmana, Microsoft ha anat en el seu congrés Build encara més enllà. L’empresa ha integrat tant la IA generativa en el sistema operatiu Windows 11 que ha presentat una nova categoria d’ordinadors portàtils, els Copilot+ PC, que fins i tot inclouen una tecla física per invocar les funcions d’IA en les aplicacions que en tinguin. A més dels models Surface propis de la casa, ara amb processadors Qualcomm que asseguren superar en rendiment i autonomia els MacBook d’Apple amb xip M3, altres marques com Acer, Asus, Dell, HP, Lenovo i Samsung preparen també els seus PC Copilot+. Dels aparells en parlarem d’aquí unes setmanes, quan es presentin a la fira Computex de Taiwan, on arribaran també els PC Copilot+ equipats amb xips d’Intel i d’AMD. Dels anuncis de Microsoft al Build relacionats amb la IA ens quedem amb la funció Cocreator per generar i editar imatges sintètiques directament al dispositiu; les Live Captions per traduir àudio en temps real de més de 40 idiomes –el català no– a l’anglès; i l’opció Recall, una mena de memòria de totes les operacions que l’usuari fa amb el seu Copilot PC, inclòs tot el contingut que visualitza, i que amenaça de ser un malson per a la privadesa i un enorme forat potencial de ciberseguretat.
En paral·lel, aquests dies han arribat a Europa dos xatbots que encara no es podien fer servir aquí: el Claude de l’empresa Anthropic –que compta amb el suport financer de Google i Amazon, i que acaba de fitxar Mike Krieger, cofundador d’Instagram, com a responsable de producte– i el Grok AI d'X, disponible per als usuaris de pagament de la xarxa de microblogs que abans coneixíem com a Twitter.
També aquesta setmana el Parlament Europeu i el Consell Europeu han acordat la versió definitiva de l'AI Act, la directiva comunitària sobre IA, que és pionera al món en la regulació dels usos d’aquesta tecnologia però encara trigarà dos anys a desplegar-se en l'àmbit estatal. Veurem què són capaços de fer en aquest temps els promotors de la IA comercial, alguns dels quals –és el cas de Sam Altman, d’OpenAI– estan demostrant en forma de fets consumats una irresponsabilitat social que supera la d’Elon Musk, que en el seu moment ja ens havia fet passar per bons individus com Mark Zuckerberg (que, per altra banda, promou també un model propi d’IA, el Llama, que és de codi obert i inclou el català).
Dos exemples relacionats amb Altman, també d’aquests dies: Ilya Sutskever, un dels cofundadors d’OpenAI, ha deixat definitivament l’empresa. Probablement, la marxa està relacionada amb el paper de Sutskever en la crisi interna de finals de l’any passat, però no ha passat desapercebut que al mateix temps OpenAI ha aprofitat per desmantellar l’equip que investigava sobre els riscs de la IA a llarg termini. En aquest marc, la queixa de l’actriu Scarlett Johansson pel suposat ús de la seva veu per entrenar la de GPT-4o no passa de ser una anècdota, encara que el mateix Altman presumís de la novetat referint-se a Her, la pel·lícula on Johansson posava la veu a la IA de qui el protagonista s’enamorava. En la pràctica, OpenAI s’està veient obligada a negociar compensacions amb els principals grups mundials de premsa per poder entrenar els GPT amb el seu contingut.
Amb tota probabilitat, la cirereta d’aquest pastís d’IA la posarà a mitjans de juny l’altre gegant tecnològic occidental: Apple negocia a dues bandes amb Google i OpenAI per posar al dia amb la tecnologia d’una d’elles la seva majordoma digital Siri. Als catalanoparlants ens convé que es decideixi per la segona de les empreses esmentades: GPT entén i parla català, mentre que Gemini encara no.
Infraestructura i negoci
Més enllà d’aquesta allau de plataformes, serveis i opcions d’IA, convé recordar que per sota hi ha un negoci per alimentar. Algunes funcions generatives s’executen directament en els dispositius –els mòbils Galaxy de Samsung, els Pixel de Google, els iPads d’Apple, els futurs PC Copilot+–, però el gruix de la computació té lloc en els servidors del núvol, i més específicament en els centres de dades dels tres gegants del segment: Amazon Web Services, Microsoft Azure i Google Cloud. També aquesta setmana hem tingut un recordatori: dimecres van caure durant unes hores els servidors de Microsoft que impulsen el cercador Bing, els serveis d’IA de la mateixa empresa i també el ChatGPT d’OpenAI. De fet, bona part de la inversió nominal de Microsoft en OpenAI consisteix en crèdits d’ús del núvol Azure.
Google, Amazon i Microsoft són els veritables protagonistes de l’actual explosió de la IA, sigui o no generativa. En els seus servidors, que cada vegada fan servir més processadors de creació pròpia –però també, previ pagament d’un suplement, xips de Nvidia–, allotgen tant models d’IA propis com de tercers: Microsoft aposta fort pels d’OpenAI, però també ofereix l’europeu Mistral, el Llama de Meta Platforms i el Falcon d’Abu Dhabi. Al núvol d’Amazon es poden consumir models de la casa, a més del Claude d’Anthropic. I Google, a més de Gemini, també inverteix en el projecte de recerca DeepMind. D’aquesta manera, les empreses i institucions que vulguin explorar com aplicar la IA a la seva activitat tenen a l’abast una gran varietat de combinacions tecnològiques.
Un panorama competitiu que a la Xina ja ha provocat una guerra de tarifes entre ByteDance, Alibaba, Baidu i iFlytek, que estan aplicant descomptes de més del 95% en el preu de les seves IA respectives: Doubao, Qwen, Ernie i Spark.