Taledata fra Doner din stemme
I Doner din stemme indsamles danske taledata. Indsamlingen foregår på donerdinstemme.dk og sker igennem frivillige donationer fra borgere.
Formålet er at skabe et åbent taledatasæt, der kan bruges til at udvikle bedre digitale løsninger, som forstår alle danske borgere, uanset dialekt og accent. Teksterne der præsenteres til oplæsning har fokus på den kommunale forvaltning, da ønsket er at skabe et datasæt med udtale af ord og begreber fra den offentlige sektor.
Dataindsamlingen er startet 30. august 2024.
Datafelter:
- data.id: The id of the data entity in Drupal
- data.created: The time the data entity was created
- data.changed: The time the data entity was changed
- data.file.file_name: The name of the file.
- data.file.uri.value: An internal path to the file.
- data.file.uri.url: The public location of the file.
- data.file.uri.absolute_url: An absolute url to the public location of the file.
- data.file.filemime: The type to the file.
- data.file.filemime: The size to the file.
- data.whisper_guess: AI transcription guess using openai.com.
- data.whisper_guess_word_error_rate: A comparison of words between the text that was read and the Whisper guess.
- data.whisper_guess_character_error_rate: A comparison of characters between the text that was read and the Whisper guess.
- data.metadata.text: The text that was read.
- data.metadata.text_id: The id of the text that was read.
- data.metadata.user: An encoded id of the user that did the recording.
- data.metadata.number_of_parts: The number of text parts.
- data.metadata.birth_year: The users birth year.
- data.metadata.dialect: The users dialect.
- data.metadata.gender: The users gender.
- data.metadata.postal_code: The users postal code.
- data.metadata.durationInSeconds: The duration of the recording.
- data.metadata.audioMimeType: The file type of the recording.
- data.metadata.whisper_guess: AI transcription guess using openai.com.
- data.metadata.whisper_guess_similar_text_score: The text score given by comparing the Whisper guess to the text that was read.
- meta.count: The total number of results.
- meta.number: The page number.
Se parametre tilgængelige på https://donerdinstemme.dk/api-docs/swagger
Anvendelse
Licensvilkår: https://donerdinstemme.dk/licens
Hent liste af resultater, et specifik resultat eller en specifik fil
I udgangspunktet hentes der 50 resultater. Denne grænse kan reduceres til færre resultater men ikke flere. Hvis der findes flere resultater end de 50, er der i kaldet inkluderet et next link så en ny liste med nye resultater kan hentes.
Eksempler (Udskift APIKEY med korrekt nøgle):
Hent resultater oprettet efter 1. Januar. Vis 20 resultater. Spring de første 1000 resultater over:
curl --url "https://donerdinstemme.dk/jsonapi/dds?filter%5Bdate-filter%5D%5Bcondition%5D%5Bpath%5D=created&filter%5Bdate-filter%5D%5Bcondition%5D%5Boperator%5D=%3E&filter%5Bdate-filter%5D%5Bcondition%5D%5Bvalue%5D=1735689600&page%5Boffset%5D=1000&page%5Blimit%5D=20" --header "api-key: APIKEY"
Hent specifikt resultat med id b2552fb1-af75-4c74-abe6-84aa277a7588:
curl --url "https://donerdinstemme.dk/jsonapi/dds/b2552fb1-af75-4c74-abe6-84aa277a7588" --header "api-key: APIKEY"
Hent fil:
curl --url https://donerdinstemme.dk/system/files/audio/audio_recording_5643.wav --header "api-key: APIKEY" > myLocalFile.wav
1 datasæt
Dataudstillere
Open Data DK
Læs mere
Metadata
- Dataejer
- Open Data DK
- Opdateringsfrekvens
- Opdateres løbende
- Dokumentation
- https://donerdinstemme.dk/api-docs/swagger
- Dækningsperiode start
- 2024-08-30
- Dækningsperiode end