Donér din stemme – Åbent datasæt kan bidrage til sprogtræning af AI
- Nyheder
- Sprogdata til AI
I slutningen af august startede projektet Donér din stemme i Open Data DK til teknologifestivalen Vilde teknologier. Borgere kan donere deres stemme ved at højtlæse mindre tekststykker, der tager udgangspunkt i historier, som kan finde sted i mødet med det offentlige. Stemmebidraget udgives efterfølgende på Open Data DK og kan anvendes af myndigheder, virksomheder og organisationer i arbejdet med at træne teknologien, så den kan skabe langt bedre løsninger i fremtiden.
Borgere kan donere deres stemme på donerdinstemme.dk

Donér din stemme er en del af Open Data DK’s fokus på offentlige og kommunale sprogdata til AI. Fokusområdet kan du læse mere om her.
Manglende sprogdata kan skabe ulighed i teknologien
Flere borgere i Danmark har allerede stiftet bekendtskab med taleteknologier som stemmestyret GPS, digitale assistenter som Siri, eller stemmestyrede enheder i hjemmet som Alexa eller Google Home. Disse kunstige intelligenser kan forstå og reagere på kommandoer, men ofte med en “robotagtig” stemme.
Men kan de forstå den mangfoldighed af dansk sprog, vi taler til dem? Desværre ikke altid.
De store taleteknologier er udviklet af internationale techgiganter, som sjældent har taget højde for det danske sprogs dialekter og sproglige nuancer. Dette betyder, at borgere, der taler i en bestemt dialekt eller med en særlig accent, ofte oplever, at teknologien ikke forstår dem. I en artikel fra TV2 beskriver en 66-årig kvinde fra Mors, hvordan teknologien har svært ved at forstå hendes dialekt, hvilket skaber frustration.
Denne manglende forståelse er ikke kun et teknologisk problem – det kan blive et demokratisk problem. Hvis taleteknologier ikke kan forstå alle danske borgere, risikerer vi, at nogle grupper bliver marginaliseret i kontakten med det offentlige og andre services, der baserer sig på AI.
Ved at indsamle flere stemmer med forskellige dialekter og accenter skaber vi bedre træningsdata, som fremtidige AI-løsninger kan bygge på, så alle borgere kan blive hørt og forstået.
Styrket digital borgerservice med bedre sprogteknologi
For mange offentlige myndigheder er det allerede en virkelighed, at AI og taleteknologier indgår som en del af borgerkontakten – eksempelvis i form af chatbots eller stemmeaktiverede services. Men udfordringen opstår, når teknologien ikke forstår borgernes dialekter eller accenter, hvilket kan skabe barrierer i kommunikationen.
Donér din stemme kan være med til at sikre, at fremtidens digitale løsninger – fra chatbots til automatiserede borgerservicesystemer – kan forstå og reagere på et bredt spektrum af danske dialekter.
Bo Fristed, formand for Open Data DK, fremhæver i en udtalelse til DR, at: “Vi skal gerne kunne lave løsninger – især i det offentlige – hvor man kan forstå en person, som taler sønderjysk, nordjysk, eller hvad det nu kan være.”
Forestiller man sig en AI voicebot i Borgerservice hos en kommune er det vigtigt at netop den kommune har borgere med dialekt repræsenteret i datasættet. Det vil resultere i, at flere borgere kan føle sig hørt og forstået, uanset hvilken del af landet de kommer fra.
Internt i kommuner kan det skabe muligheder for at effektivisere arbejdsgange og lette borgerinteraktionen, så flere kan få hjælp digitalt uden friktion.
Åbenhed er vejen frem til bedre løsninger indenfor tale- og stemmeteknologier
Et andet åbent tale-datasæt, som allerede er udgivet, kommer fra Alexandra Instituttet der ind til videre har frigivet 375 timers tale data.
Datasættet er indsamlet i projektet CoRal, der står for Danish Conversational and Read-Aloud Speech Dataset. Det er et initiativ, der over de sidste to år har optaget mere end 2.000 danskeres dialekter og accenter.
Datasættet ligger åbent tilgængeligt og kan downloades her: huggingface.co/datasets/alexandrainst/coral
Datasættet fra CoRal og fra Donér din stemme indeholder samme metadata og samme licens og vil kunne supplere hinanden. Datasættet fra Donér din stemme er af lavere lydkvalitet og afspejler den virkelighed, som taleteknologier ofte møder stemmer i, hvor der er masser af baggrundsstøj.
“Men hvad så med min stemme?”
Det er naturligt, at man kan opfatte stemmen som privat, og det kan skabe en barriere, når data udstilles åbent. Her er det vigtigt at understrege, at donationen er frivillig, og personers stemmeoptagelser bliver ikke koblet sammen med andre persondata. Når man hører en stemmeoptagelse, vil man ikke vide, hvem der taler, medmindre man kender personen i forvejen.
Når man anvender datasættet, vil man kunne koble en stemme til alder og hvor i landet, stemmen kommer fra, da det er angivet af “stemmen” i forbindelse med selve donationen.
Det er ikke lovligt at anvende data til at skabe en syntetisk stemme.
Indsamlingen fortsætter i takt med, at projektet udbredes
Projektet har givet anledning til spændende samtaler om data, AI, sprog, dialekt og repræsentation, og på nuværende tidspunkt ligger der en opgave med at få valideret de stemmedonationer, som er kommet ind. Først derefter kan datasættet udstilles på portalen ved Open Data DK.
Der er i skrivende stund flest “stemmer” i datasættet blandt 40-60-årige med en overvægt af stemmer fra Jylland. I Open Data DK arbejdes der på at få udarbejdet og afprøvet en “rejsekuffert”, der gør det nemmere for kommuner at udbrede projektet i deres lokalområder.
I praksis bliver der tale om en video og materiale med en QR-kode, der kan invitere borgere til at donere deres stemme.
Er du nysgerrig, kan du følge med i dialogen på LinkedIn.
- Opslag om Donér din stemme-projektet
- Opslag til Vilde teknologier
- Opslag om artikel fra DR – Danmarks Radio
- Opslag om indslag ved TV2
Tag endelig kontakt til os på info@opendata.dk eller direkte til sekretariatsleder Birgitte Kjærgaard.