Het AI Nieuws — Dagelijks het laatste AI-nieuws

Google DeepMind heeft een baanbrekend paper gepubliceerd dat een nieuwe architectuur introduceert voor multi-modale redenering die bestaande benaderingen significant overtreft. De belangrijkste innovatie ligt in hoe het model informatie verwerkt en integreert over verschillende modaliteiten.

In tegenstelling tot eerdere benaderingen die alles omzetten naar een gedeelde embedding-ruimte, behoudt de nieuwe architectuur aparte gespecialiseerde verwerkingsstromen die communiceren via een geleerd aandachtsmechanisme. Dit stelt het model in staat modaliteit-specifieke nuances te bewaren terwijl het toch over inputs heen redeneert.

Benchmarkresultaten tonen substantiële verbeteringen in taken die cross-modale redenering vereisen, zoals het beantwoorden van vragen over grafieken, het begrijpen van diagrammen en het analyseren van wetenschappelijke figuren.

Onderzoekers in het veld hebben enthousiast gereageerd en merken op dat deze aanpak enkele fundamentele beperkingen van huidige multi-modale modellen zou kunnen aanpakken.

DeepMind's nieuwe aanpak voor multi-modale redenering uitgelegd