Help, ik heb duizenden Woo-documenten ontvangen!

SPOON · 15 april 2026 om 12:55

Dit is een dynamische lijst - niks zo veranderlijk als slim en snel grote hoeveelheid data doorzoeken. Laat het ons weten als je aanvullingen of verbeteringen hebt. Je kan op dit topic reageren of mailen naar contact@expertisecentrumspoon.nl.

Stap 1 – OCR-tools: omzetten naar doorzoekbare tekst

Veel Woo-documenten zijn ingescand. Zonder Optimal Character Recognition (OCR) ben je dan nergens. OCR is een manier om afbeeldingen of afgedrukte documenten om te zetten naar doorzoek- en bewerkbare digitale tekst.

Tesseract

Gratis, open source
Werkt goed met pdfs en afbeeldingen

ABBYY FineReader

Kosten: vanaf 99 euro per jaar
Erg goede kwaliteit
Gebruiksvriendelijk

Wondershare PDFElement

Kosten: abonnement voor 99 euro per jaar of doorlopend voor 119 euro
Zie hieronder voor meer informatie en/of contact over ervaringen met deze tool

Stap 2 – Zoeken en indexeren

MacOS: Spotlight en Windows: Windows Search

Gratis
Schaal: eenvoudige zoekvragen
Sterk: direct beschikbaar
Let op: geen goede OCR en zoeken op trefwoorden

Adobe Acrobat Pro

Kosten: ± 20 euro per maand
Schaal: tot enkele duizenden documenten
Sterk: zeer geschikt als eerste stap (opschonen en OCR) en indexen bouwen

Elasticsearch

Kosten: vanaf ± 20 euro per maand (self-host kan gratis)
Schaal: miljoenen documenten
Sterk: razendsnel, opties voor filters en toevoegen metadata
Let op: OCR moet je meestal apart regelen (bijv. via Tika of pipelines) en technische setup nodig

Stap 3 –Analyse (inzicht krijgen)

Google NotebookLM

Kosten: gratis of 8 euro per maand voor Plus
Sterk: samenvatten, vragen stellen over documenten (ook audio) en cross-document analyse
Let op: minder geschikt voor bulkbeheer/archivering

Aleph Pro of OpenAleph

Gratis
Sterk: relaties leggen tussen documenten en datasets van andere gebruikers en herkenning van: personen, bedrijven, locaties
Let op: Pro is alleen voor journalisten?

Google Pinpoint

Gratis
Sterk: grote datasets analyseren en automatische herkenning van: personen, bedrijven, locaties
Beperking: alleen voor journalisten?

Samenvatting

Situatie	Help!
< 500 docs	Acrobat + Spotlight
500 – 10.000	Acrobat + NotebookLM
> 10.000	Elasticsearch + OCR
Onderzoek/journalistiek	Aleph/Pinpoint
Snel inzicht	NotebookLM

Alle links op een rij

Optimal Character Recognision-tools (OCR)

Tesseract OCR
GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) · GitHub
ABBYY FineReader
PDF Software: Open, Read & Edit PDFs | FineReader PDF
Wondershare PDFElement
https://pdf.wondershare.com/

Zoeken en indexeren

Spotlight
Van alles zoeken met Spotlight op de Mac - Apple Support (NL)
Windows Search
https://support.microsoft.com/windows/search-for-anything-anywhere-4c0cdd5b-9a21-47d1-9c90-3f8a7b1b3c1a
Adobe Acrobat Pro
https://www.adobe.com/acrobat/acrobat-pro.html
Elasticsearch
Elasticsearch: The Official Distributed Search & Analytics Engine | Elastic

Analyse

Google NotebookLM
https://notebooklm.google/
Aleph
https://aleph.occrp.org/
https://openaleph.org/
Google Pinpoint
https://journaliststudio.google.com/pinpoint

SPOON · 16 april 2026 om 08:42

Dank @msl9 voor de tip per mail, we hebben ‘m meteen toegevoegd!

Tip: Aleph Pro is kennelijk de opvolger van Aleph, wat altijd open source was maar nu niet meer. Een andere organisatie is verder gegaan met de ontwikkeling van de open source versie, die beschikbaar is als OpenAleph: https://openaleph.org/blog/2025/03/OpenAleph-commits-to-the-commons/3510138e-16b3-4b5d-a06c-41af0aa2d517/’

ekrhkjr · 23 april 2026 om 06:55

Toevallig kreeg ik via via een verzoek om te kijken naar de documenten geopenbaard n.a.v. een Woo-verzoek van een professionele partij.

Het gaat om 756 PDF-bestanden met in totaal 6.000 pagina’s, in totaal 2,1 GB.

In deze set liep ik bij het massaal analyseren tegen de volgende dingen aan:

Google NotebookLM hanteert in gratis versie limiet van 50 documenten in een notebook met per stuk maximale omvang van 200 MB.
Google NotebookLM kan ook dan nog moeizaam doen bij het uploaden van grote volumes.

Gebruikte workarounds die goed leken te werken toen ik output matchte met mijn kennis van het dossier:

Eerst alle PDF-documenten combineren tot 1 grote binder met Adobe Acrobat Professional. Dit leverde een PDF van goed 1 GB op.
Deze optimaliseren via Adobe; resultaat was circa 125 MB.
Daarnaast de al ge-OCR-de tekst er uit halen door deze als plain text op te slaan.

De eerste PDF was onbruikbaar voor verwerking maar het tweede en de derde bestand konden met enige moeite verwerkt worden, soms in Notebook LM, soms in ChatGPT.

Analyse was zoals ik het dossier kende. Maar de AI-engines leken erg te neigen om alleen de eerste x pagina’s echt in-depth te bestuderen. Als de context snel vol liep.

Echter, wat voor de grote lijnen nog makkelijker was, is om random een 40-tal documenten te selecteren en die te analyseren. De grote lijnen komen er dan wel uit.

Je mist dan wel net die ene explosieve mail die per abuis niet ruimhartig gelakt is. Dat is ook de reden dat tools die opsporingsdiensten gebruiken graag echt ALLES bekijken.

kxvkdd · 29 april 2026 om 11:38

Voor OCR scan gebruik ik Wondershare PDFElement. Je kan het als abonnement voor € 99,- per jaar of als doorlopend gebruik kopen voor € 119,-. Het werkt goed voor mij.

ekrhkjr · 31 mei 2026 om 06:16

Aanvulling op eerdere reactie: niet altijd zijn de PDF-bestanden goed voorzien van een tekst die achter de “afbeelding” van de pagina’s ligt. In een geval liep ik tegen een raadsstuk aan uit iBabs waarvan vreemd genoeg enkel de tekst van 1 van de 3 pagina’s aanwezig was. De andere twee pagina’s hadden geen tekst of totale gibberish.

Ik heb geen beeld of dit veel voorkomt, maar met Adobe Acrobat Pro kun je vlot nogmaals OCR er over heen draaien (pakweg 1 seconde per pagina) zodat gaten gevuld worden voor het analyseren.