Google incrusta encara més la IA al seu cercador
La companyia impregna tots els productes i serveis d'intel·ligència artificial, però posa en un segon pla la generativa
Barcelona120 vegades va pronunciar aquest dimarts Sundar Pichai, el conseller delegat de Google, les màgiques sigles IA durant la seva intervenció a la sessió inaugural de l'I/O 2024, el congrés anual del gegant d’internet per a creadors d’aplicacions i serveis digitals. I la xifra no inclou les mencions a la tecnologia que van fer la desena llarga de subordinats de Pichai que van passar, en dues hores, per l’escenari del Shoreline Auditorium de Mountain View, prop de la seu de Google.
Estava cantat que la intel·ligència artificial seria la gran protagonista de l’acte. De fet, no és el primer I/O en què l’empresa s’esforça a recordar que porta més d’una dècada centrant-se en la IA, des de la recerca bàsica fins a les capacitats de la seva infraestructura de centres de dades, passant per l’adopció en els productes i serveis. Però OpenAI i el seu ChatGPT han monopolitzat l’atenció del públic aquests dos últims anys, i Google s’ha proposat canviar aquesta percepció.
No està garantit que ho aconsegueixi. A la sessió d’aquest dimarts, el gegant d’internet ha anat enumerant tantes variants de grans models lingüístics, xatbots, aplicacions, interfícies de programació i plataformes d’IA que es fa difícil detallar-los tots per a una audiència no tècnica. El resum és que més d’un milió i mig de desenvolupadors ja inclouen Gemini, el model de llenguatge multimodal d’IA que Google va presentar en l’edició anterior de l’I/O, i que 2.000 milions d’usuaris ja usen Gemini dins de productes de Google, com el cercador web, l’àlbum de fotos, els mapes o el sistema operatiu Android per a mòbils. La versió actual de Gemini és la 1.5 Pro, que segons Google admet indicacions molt més precises i amb més context que qualsevol altre competidor, sigui el GPT-4 d’OpenAI o el Claude més recent d’Anthropic. En aquesta ocasió s’hi ha afegit la nova versió Flash, més lleugera i menys exigent en recursos per a tasques més senzilles.
Fins que no puguem provar-lo en acció, la millor manera d’explicar les capacitats de Gemini 1.5 Pro –disponible per al públic només mitjançant la modalitat de pagament Gemini Advanced, que afegeix 12 euros mensuals a la quota del servei Google One– és ressenyar les funcions que afegeix a algunes aplicacions de la mateixa Google. Com a exhibició de la capacitat d’Advanced, Google assegura que pots carregar-li un PDF de 1.500 pàgines, 30.000 línies de codi o una hora de vídeo i fer-li consultes sobre tot aquest contingut.
El cercador web continua avançant en l’anomenada SGE (per les sigles angleses d’Experiència Generativa de Cerca), on l’usuari no obté una llista d’enllaços externs en resposta a la seva cerca web, sinó un paràgraf amb què Google respon la consulta en llenguatge natural a partir de la informació procedent de diverses fonts.
L’empresa en diu AI Overviews (resums amb IA), que inicialment només estaran disponibles als EUA i que amenacen tota la indústria del posicionament web (SEO) i, per altra banda, planteja nombrosos dubtes sobre les obligacions adquirides amb els propietaris de la informació original, com són els mitjans de comunicació: alguns ja han començat a demandar Google i d’altres es plantegen amagar completament el seu contingut al cercador. Aquest passa a ser també la interfície preferent per a altres operacions, com planificar els menús de la setmana segons els nostres gustos o l’itinerari turístic d’un viatge a partir de les reserves d’avió i hotel.
L’aplicació de Fotos –que cada dia rep 6.000 milions d’imatges i vídeos nous– incorpora la nova funció Ask Photos, amb què pots demanar-li que et recordi quan va aprendre a nedar la teva filla i que et faci un recull visual dels seus progressos. O que et mostri la teva millor foto de cadascun dels parcs nacionals que has visitat. En una exhibició de multimodalitat, també pots fer una panoràmica en vídeo de la teva llibreria i Gemini et torna una llista estructurada dels títols i els autors.
En les aplicacions d’ofimàtica de Workspace, pots demanar-li a Gmail que et resumeixi tots els correus recents relacionats amb l’escola del teu fill o els acords de l’última reunió telemàtica de l’AMPA. Si pagues per Gemini Advanced, les aplicacions de Workspace mostren ara un panell lateral (a l’estil del Copilot de Microsoft) per invocar aquests resums de converses, o comparar els diversos pressupostos que hem rebut per correu per a una reforma de la llar. També es fa servir la IA per interactuar de manera creuada entre aplicacions, com ara crear una cita al calendari des de Gmail.
En la mateixa línia, l’aplicació NotebookLM inclou ara l’anomenat Audio Overview: li dones tots els apunts de classe i et genera una dissertació sonora sobre el tema, però l’usuari la pot interrompre per demanar aclariments. O fer que adapti l’explicació teòrica a un cas pràctic: les lleis de la física en la trajectòria d’una pilota de bàsquet.
Un dels experiments que ja es poden provar a https://labs.google és el Projecte Astra. El qualifiquen d’assistent IA universal per a la vida quotidiana: enfoques una escena amb la càmera del mòbil, li demanes quin dels objectes pot sonar, t’indica l’altaveu que hi ha en un racó, i marcant amb el dit sobre la imatge li pots demanar què és aquest element i t’explica que és l’altaveu d’aguts.
Google també ha presentat nous models d’IA generativa per crear imatges, música i vídeo. Impressiona especialment el tercer, anomenat Veo, que crea vídeos a partir d’instruccions de text i d’imatges, fins i tot amb efectes visuals. A YouTube se'n poden veure mostres, que Google assegura que no han estat editades per desmarcar-se del que han fet alguns rivals amb eines semblants. Especialment interessants són els nous Gems, xatbots personalitzables per executar operacions, consultes o extraccions de dades que necessitem fer sovint.
Naturalment, Google inclou cada vegada més IA en els telèfons mòbils amb el sistema Android. De fet, insisteix a destacar que només aquests –en concret els seus Pixel i els Galaxy de Samsung– porten Gemini, just mentre Apple està triant entre la IA de Google i la d’OpenAI per posar al dia la Siri dels iPhones. A partir d’ara, el Gemini del telèfon es pot mostrar a sobre de les altres aplicacions, de manera que pots fer-li preguntes sobre el vídeo que estàs mirant a YouTube o sobre el contingut del PDF que tens obert. Una nova funció sorprenent té a veure amb la ciberseguretat: el Gemini del mòbil pot escoltar les trucades que reps i si detecta alguna frase sospitosa t’avisa que podria ser una estafa.
La majoria d’aquestes novetats aniran arribant progressivament a les aplicacions, els territoris i els idiomes. Veurem quantes es poden acabar fent servir en català.