Undersøgelse af AI-oversigter på Google: Mere end hver anden indeholder fejlagtig information
Jesper Jensen | Redaktør på NetTjek24.dk
Jesper@NetTjek24.dk
Vi har undersøgt 25 AI-oversigter på Google omhandlende internet, dating, elselskaber, a-kasser og måltidskasser med henblik på at afsøge, hvor mange af disse der indeholder fejl. I artiklen her præsenterer vi resultaterne af undersøgelsen. Ligeledes redegør vi for vores metodiske tilgang til undersøgelsen.
Undersøgelsens nøgleresultater
- I mere end halvdelen af de 25 AI-oversigter, vi undersøgte, formidlede Google deciderede usandheder.
- Blot otte ud af de 25 AI-oversigter, vi undersøgte, indeholdt ikke nogen fejl overhovedet.
- Når en AI-oversigt indeholder tal, eksempelvis priser eller årstal, stiger risikoen for, at AI-oversigten indeholder fejl tilsyneladende.
- Det er ikke unormalt, at AI-oversigter er redundante.
- Generelt set har Googles AI godt styr på sproglige forhold, men sommetider optræder der norske eller unaturlige engelske ord i danske AI-oversigter, ligesom Googles AI i få tilfælde udfordres, når det kommer til sammensatte navneord.
For nyligt udrullede verdens største søgemaskine, Google, en ny funktion for danskerne i form af AI-oversigter.
Funktionen har været tilgængelig for brugere i en række andre lande i mere end et år, men det er altså først for nyligt, at den er kommet til Danmark.
Da det langt fra er sikkert, at du er 100% bevidst om, hvad AI-oversigter helt præcist er, indleder vi med en kort begrebsafklaring.
Hvad er AI-oversigter?
AI-oversigter – eller ’AI Overviews’ som de kaldes på engelsk – er en funktion på Google, hvor kunstig intelligens benyttes til at generere korte svar på komplekse søgeforespørgsler; ligesom du muligvis kender det fra ChatGPT eller Gemini.
Når en AI-oversigt kreeres i forbindelse med en søgning på Google, placeres AI-oversigten som regel øverst i søgeresultaterne.
Undersøgelsens hovedformål
Når Google kreerer AI-oversigter, sker dette ved hjælp af en avanceret AI-sprogmodel, og sådanne modeller har længe været kritiserede for at hallucinere i tide og utide. Helt konkret betyder det, at du ikke altid kan stole på de svar, der genereres via en AI-sprogmodel. I hvert fald ikke på det udviklingsstadie AI-sprogmodellerne befinder sig på lige nu.
I vores øjne har Google – qua sin størrelse og magtposition – et stort ansvar for, at deres brugere ikke bliver vildledt eller præsenteret for skadeligt indhold. Dette ansvar bliver kun større, når Google frem for blot at være et avanceret opslagsværk vælger at indtage rollen som indholdsformidler- og udgiver.
Hovedformålet med vores undersøgelse har derfor været at kortlægge, hvorvidt Google lever op til dette ansvar, når nu vi ved, at AI-sprogmodeller traditionelt set har haft en tendens til at kreere vildledende og misinformerende indhold.
Hvorfor valgte vi at fokusere på de nicher, vi gjorde?
Med henblik på at få dannet os et overblik over, hvor hyppigt AI-oversigter indeholder fejl besluttede vi os for at undersøge 25 AI-oversigter, der beskæftigede sig med følgende emner/forhold: internet, dating, strøm, a-kasser og måltidskasser.
Vi valgte at fokusere på netop disse nicher, fordi vi har rigtig meget viden om forhold, der relaterer sig til disse, hvilket skyldes, at vi driver og ejer gennemarbejdede og dybdegående sammenligningssites i nicherne.
Netop fordi vi havde – og fortsat har – en masse viden om forhold, der relaterer sig til disse nicher, var vores vurdering, at vi i langt de fleste tilfælde relativt let og hurtigt ville være i stand til at opdage, hvis og når en AI-oversigt omhandlende forhold, der relaterer sig til disse nicher, indeholdt misinformation.
Var vi – trods vores store forudgående viden – i tvivl om, hvorvidt noget indhold i en AI-oversigt var sandt eller ej, undersøgte vi naturligvis dette dybdegående.
Om vores søgeforespørgsler
AI-oversigter i Danmark er stadigvæk på et test-stadie, hvilket blandt andet har den konsekvens, at det er ret vilkårligt, hvorvidt en AI-oversigt kommer frem efter en søgeforespørgsel eller ej.
Derfor er det ikke sikkert, at du kan fremprovokere visninger af AI-oversigter på de 25 søgeforespørgsler, der danner grundlaget for vores undersøgelse. Ligeledes er det værd at bemærke, at det ej heller er sikkert, at du får vist AI-oversigter, der 100% svarer til de AI-oversigter, der danner grundlaget for vores undersøgelse, hvilket skyldes, at Google kreerer forskelligartede AI-oversigter til de samme søgeord. Med andre ord er det altså ikke sikkert, at du får vist den samme AI-oversigt, hver gang du eksempelvis søger efter ‘dating sider’ på Google.
I forhold til de 25 søgeforespørgsler, vi har undersøgt AI-oversigter for, så har vi for disse forsøgt at imødekomme følgende regler, vi opsatte forud for undersøgelsen:
- Benyt kun søgeforespørgsler, som vi kan forestille os ægte Google-brugere kan finde på at benytte.
- Søgeforespørgslerne skal fremprovokere AI-oversigter, der belyser et af følgende emner: internet, dating, strøm, a-kasser eller måltidskasser
- Så vidt muligt skal vi forsøge at bruge søgeforespørgsler, hvortil der findes rigtige og forkerte svar. Med andre ord skal vi forsøge at undgå søgeforespørgsler, der animerer til vurderende og normative svar.
Udover at vi forsøgte at følge disse regler, tænkte vi ikke synderligt meget over størstedelen af de forespørgsler, vi undersøgte AI-oversigter for.
Processen var meget intuitiv, og søgeforespørgslerne var derfor som regel et udtryk for, hvad der lige var ‘top of mind’ hos os.
Vores 25 søgeforespørgsler:
- Dating sider
- Hviklen datingside er bedst
- Hvilken datingapp er størst
- Hvilken datingtjeneste er ældst?
- hvilke datingsider er gratis?
- Hvor finder jeg kærligheden som senior
- Hvilket elselskab er billigst?
- Hvilke elselskaber tilbyder fastpris?
- Hvad påvirker prisen på strøm?
- Oplys mig om elprisen lige nu
- Vest Energi politianmeldt
- Grøn elforsyning politianmeldt
- hvem leverer måltidskasser til singler?
- Hvilke måltidskasse udbydere er størst
- Hvilke måltidskasse-leverandører leverer færdigretter
- Hvad koster en a-kasse?
- Hvilken a kasse er ældst?
- Hvilke a kasser tilbyder også fagforening?
- Hvilken a kasse er størst?
- a kasser
- Priser bredbånd
- Hvilken internetudbyder er billigst?
- hvad koster fibernet?
- Hvad er fibernet?
- Hvem ejer fastspeed?
Vi undersøgte AI-oversigterne for tre typer fejl
Vi undersøgte de 25 AI-oversigter for tre fejltyper:
- Sproglige fejl
- Vildledning/misinformation
- Strukturmæssige udfordringer.
Sproglige fejl
Her kiggede vi naturligvis på, om AI-oversigten indeholdt deciderede formuleringsfejl eller ord, der var stavet forkert. Små kommafejl gav ikke anledning til nogen anmærkninger.
Vildledning/misinformation
Her undersøgte vi, om AI-oversigten indeholdt deciderede usandheder. Gjorde denne dette, noterede vi, hvilke usandheder der var tale om i et registreringsskema, du finder lidt længere nede.
Strukturmæssige udfordringer
En anmærkning i forhold til strukturmæssige udfordringer blev givet til AI-oversigter, der var ekstremt redundante. Et eksempel herpå kunne være en AI-oversigt, hvor én datingside blev anbefalet og beskrevet to gange lige efter hinanden.
Registreringsskema
Herunder følger det omtalte registreringsskema.
I dette fremgår det, hvilke AI-oversigter der indeholdt sproglige fejl, deciderede usandheder, og/eller som havde strukturmæssige udfordringer.
Via skemaet kan du se eksempler på fejlene/udfordringerne, ligesom du kan læse, hvilke usandheder de forskellige AI-oversigter indeholdt.
| Niche | Søgeord | Indeholdt en eller flere sproglige fejl | Indeholdt en eller flere usandheder | Havde strukturmæssige udfordringer | Eksempler på sproglige fejl | Eksempler på formidling af urigtig information | Eksempler på strukturmæssige fejl | Hvad var usandheden? |
|---|---|---|---|---|---|---|---|---|
| Dating | Dating sider | x | Eksempel | |||||
| Dating | Hviklen datingside er bedst | x | x | Eksempel | Eksempel | Google hævdede, at Avisen.dk, Trustpilot og Ældre Sagen var datingsider. | ||
| Dating | Hvilken datingapp er størst | x | Eksempel | Google hævdede, at Scor.dk havde en app. Det havde Scor.dk ikke på det tidspunkt,hvor undersøgelsen blev udført. | ||||
| Dating | Hvilken datingtjeneste er ældst? | x | Eksempel | |||||
| Dating | hvilke datingsider er gratis? | x | Eksempel | |||||
| Dating | Hvor finder jeg kærligheden som senior | x | Eksempel | |||||
| Strøm | Hvilket elselskab er billigst? | |||||||
| Strøm | Hvilke elselskaber tilbyder fastpris? | x | Eksempel | Hverken iWatt eller Edision eksisterede længere, da Google vist denne AI-oversigt. Edison var lukket, mens iWatt havde skiftet navn til Ungstrøm. Derudover passede det ikke, at Norlys udbød en fastpris-aftale, hvor prisen blev låst et helt år. Dette gjorde Norlys engang, men ikke længere. | ||||
| Strøm | Hvad påvirker prisen på strøm? | |||||||
| Strøm | Oplys mig om elprisen lige nu | x | Eksempel | Elprisen var ikke 107 øre/kWh, da vi udførte søgningen. Ej heller var den i nærheden af 13 øre/kWh på noget tidspunkt i løbet af dagen. Det er dog værd at bemærke, at elprisen kan regnes ud på forskellige måder. Nogle viser udelukkende den rene strømpris, mens andre medregner samtlige variabler. Uanset hvilken tilgang man havde valgt, passede tallene fra Googles AI-oversigt dog ikke. | ||||
| Strøm | Vest Energi politianmeldt | x | Eksempel | Budget Energi blev nævnt på liste over elselskaber, der var blevet politianmeldt. På det tidspunkt, hvor AI-oversigten blev vist, var dette en lodret løgn. | ||||
| Strøm | Grøn elforsyning politianmeldt | |||||||
| Måltidskasser | hvem leverer måltidskasser til singler? | x | x | Eksempel | Eksempel | Hverken RetNemt eller HelloFresh udbød, da AI-oversigten blev vist, som udgangspunkt måltidskasser til en person. Man kan dog argumentere for, at en måltidskasse til 2 personer med mad til 2-3 dage sagtens kan benyttes af én person og dermed forsvare påstanden. Dog kan det ikke forsvares, at Livretter nævnes som en måltidskasse-udbyder. Da AI-oversigten blev lavet, fandtes der nemlig ingen måltidskasse-udbyder med dette navn. | ||
| Måltidskasser | Hvilke måltidskasse udbydere er størst | |||||||
| Måltidskasser | Hvilke måltidskasse-leverandører leverer færdigretter | x | Eksempel | RetNemt udbød ikke færdigretter, hvilket Googles AI-oversigt ellers hævdede. | ||||
| A kasse/fagforeninger | Hvad koster en a-kasse? | x | Eksempel | A-kassen hos Business Danmark kostede 524 kr. pr. md. og ikke 506 kr. pr. md., som Googles AI-oversigt hævdede. | ||||
| A kasse/fagforeninger | Hvilken a kasse er ældst? | x | Eksempel | Min A-kasse var – og er - ikke den ældste a-kasse, hvilket Google ellers hævdede. Der findes flere ældre a-kasser end denne, eksempelvis HK, der etablerede a-kasse-delen i 1907. | ||||
| A kasse/fagforeninger | Hvilke a kasser tilbyder også fagforening? | x | Eksempel | Googles AI-oversigt antydede, at fagforening og a-kasse kunne fås til den samme pris som blot a-kassen. Det hverken var eller er rigtigt. Ønsker man fagforening ved siden af sin a-kasse koster det naturligvis mere. | ||||
| A kasse/fagforeninger | Hvilken a kasse er størst? | |||||||
| A kasse/fagforeninger | a kasser | |||||||
| Internet | Priser bredbånd | x | Eksempel | Generelt var der rod i priserne for denne AI-oversigt. Derudover viste AI-oversigten priser for JetNet, som var lukket, da AI-oversigten blev lavet. | ||||
| Internet | Hvilken internetudbyder er billigst? | x | x | Eksempel | Eksempel | Det var en lidt rodet omgang med prisoversigten i denne AI-oversigt. For nogle udbydere blev der refereret til introtilbudspriser, mens der for andre blev refereret0 til reelle priser. En række af priserne passede desuden ikke. | ||
| Internet | hvad koster fibernet? | x | x | Eksempel | Eksempel | Da denne AI-oversigt blev lavet, eksisterede Telia ikke længere. Ligeledes viste AI-oversigten en pris på Hiper, som ikke passede. | ||
| Internet | Hvad er fibernet? | |||||||
| Internet | Hvem ejer Fastspeed? |
Gennemgang af data og tendenser
I de følgende afsnit vil vi gennemgå en række nøgledata fra undersøgelsen og fremhæve en række generelle tendenser, der ses eller antydes i vores data.
Formidling af fejlagtige informationer er den mest almindelige fejltype
Som bemærket undersøgte vi 25 AI-oversigter for følgende tre fejltyper/udfordringer: Sproglige fejl, formidling af misinformation og strukturmæssige udfordringer, og herunder følger en oversigt over, hvor mange af AI-oversigterne der opfyldte kriterierne for disse fejltyper/udfordringer:
- 13 ud af de 25 AI-oversigter indeholdt misinformation
- 5 ud af de 25 AI-oversigter indeholdt sproglige fejl
- 3 ud af de 25 AI-oversigter havde påfaldende strukturmæssige udfordringer.
Vores data indikerer dermed, at den mest udbredte fejltype for AI-oversigter er formidling af misinformation. Noget, vi så i mere end halvdelen af de AI-oversigter, vi undersøgte.
Vi bemærkede ligeledes, at AI-oversigterne særligt ofte indeholdt forkerte oplysninger, når AI-oversigterne indeholdt tal, eksempelvis priser eller årstal.
Udfordringer med sammensatte navneord
20 % af de AI-oversigter, vi undersøgte, indeholdt sproglige fejl, og en af de fejl, der gik igen, involverede sammensatte navneord, som AI-sprogmodellen sommetider valgte at skrive i to ord.
Derudover så vi også flere eksempler på, at en norsk eller engelsk stavemåde havde sneget sig med i en ellers 100 % dansk AI-oversigt.
Enkelte AI-oversigter var yderst rodede
3 ud af de 25 AI-oversigter, vi undersøgte, havde voldsomme strukturmæssige udfordringer. Som regel indebar disse udfordringer, at indholdet var redundant.
I enkelte tilfælde blev en service/et produkt beskrevet eller nævnt flere gange i træk på en uhensigtsmæssig og ulogisk måde.
Er teknologien klar til at blive lanceret til den brede befolkning..? Vi har vores tvivl…
Efter vores undersøgelse sidder vi med en følelse af, at Google forcerer en udvikling, som techgiganten endnu ikke er klar til at foretage på et tilfredsstillende niveau.
I vores øjne er det yderst problematisk, at mange af Googles brugere eksponeres for usandheder via AI-oversigter. Det er ikke sikkert, at vores sample er repræsentativt for samtlige AI-oversigter, men vores undersøgelse er uden tvivl et vidnesbyrd på, at Google alt, alt for ofte formidler misinformation via sine AI-oversigter.
I bunden af samtlige AI-oversigter skriver Google, at disse kan indeholde fejl, hvilket er passende og fint. I vores øjne er denne oplysning dog ikke tydelig nok.
Det er nemlig usandsynligt, at samtlige AI-oversigter læses til ende, og da rigtig mange forbrugere formentlig har relativt stor tillid til Google, vil de med overvejende sandsynlighed tage informationerne i AI-oversigterne for gode varer, og det er – hvis du spørger os – et kæmpestort problem.