KRO-NCRV-programma Pointer laat supercomputer Snellius alle Nederlandse podcasts luisteren en transcriberen

Onderzoeksprogramma Pointer van KRO-NCRV heeft supercomputer Snellius ingezet om alle Nederlandse podcasts die tot en met 2023 zijn uitgebracht te beluisteren en audio om te zetten naar geschreven tekst. Het gaat om bijna een half miljoen afleveringen van ruim 18.000 titels.

Om inzicht te krijgen in het Nederlandse podcastlandschap, verzamelden onderzoekers Sahra Mohamed en Hay Kranen in samenwerking met Pointer de links naar Nederlandse podcastafleveringen die online beschikbaar zijn tot 4 januari 2024. Doel is om te onderzoeken welke misinformatie of andere dubieuze beweringen er in podcasts worden gedaan.

De podcasts komen uit de database van de Podcastindex (PI). Deze organisatie zet zich in voor een transparanter podcast-ecosysteem en archiveert wereldwijd zoveel mogelijk nieuwe podcasts die uitkomen. PI verzamelt specifiek de RSS-feeds: het format waarin podcasts online worden opgeslagen. In de database van PI staan naam, beschrijving en adres van de RSS-feed.

Supercomputer Snellius

De afgelopen maanden hebben de onderzoekers alle afleveringen van Nederlandse podcasts opgeslagen die in 2022 en 2023 zijn gepubliceerd. Deze circa 150 duizend afleveringen zijn vervolgens door de transcriptiesoftware Whispercpp en Whisperx gehaald om audio om te zetten naar geschreven tekst, inclusief tijdcodes. Zo kan het Pointer-team gericht zoeken op specifieke steekwoorden of uitspraken.

Voor het omzetten van de podcastafleveringen heeft Pointer gebruikgemaakt van de supercomputer Snellius van SURF. Dat is de vereniging van Nederlandse onderwijs- en onderzoeksinstellingen op het gebied van informatie- en communicatietechnologie. Hiermee is de periode van transcriberen teruggebracht naar enkele weken.

Pointer zoekt nu naar een vorm waarin de tekstbestanden en overige databestanden publiekelijk toegankelijk kunnen worden.