Help, ik heb duizenden Woo-documenten ontvangen!

Dit is een dynamische lijst - niks zo veranderlijk als slim en snel grote hoeveelheid data doorzoeken. Laat het ons weten als je aanvullingen of verbeteringen hebt. Je kan op dit topic reageren of mailen naar contact@expertisecentrumspoon.nl.

Stap 1 – OCR-tools: omzetten naar doorzoekbare tekst

Veel Woo-documenten zijn ingescand. Zonder Optimal Character Recognition (OCR) ben je dan nergens. OCR is een manier om afbeeldingen of afgedrukte documenten om te zetten naar doorzoek- en bewerkbare digitale tekst.

Tesseract

  • Gratis, open source
  • Werkt goed met pdfs en afbeeldingen

ABBYY FineReader

  • Kosten: vanaf 99 euro per jaar
  • Erg goede kwaliteit
  • Gebruiksvriendelijk

Wondershare PDFElement

  • Kosten: abonnement voor 99 euro per jaar of doorlopend voor 119 euro
  • Zie hieronder voor meer informatie en/of contact over ervaringen met deze tool

Stap 2 – Zoeken en indexeren

MacOS: Spotlight en Windows: Windows Search

  • Gratis
  • Schaal: eenvoudige zoekvragen
  • Sterk: direct beschikbaar
  • Let op: geen goede OCR en zoeken op trefwoorden

Adobe Acrobat Pro

  • Kosten: ± 20 euro per maand
  • Schaal: tot enkele duizenden documenten
  • Sterk: zeer geschikt als eerste stap (opschonen en OCR) en indexen bouwen

Elasticsearch

  • Kosten: vanaf ± 20 euro per maand (self-host kan gratis)
  • Schaal: miljoenen documenten
  • Sterk: razendsnel, opties voor filters en toevoegen metadata
  • Let op: OCR moet je meestal apart regelen (bijv. via Tika of pipelines) en technische setup nodig

Stap 3 –Analyse (inzicht krijgen)

Google NotebookLM

  • Kosten: gratis of 8 euro per maand voor Plus
  • Sterk: samenvatten, vragen stellen over documenten (ook audio) en cross-document analyse
  • Let op: minder geschikt voor bulkbeheer/archivering

Aleph Pro of OpenAleph

  • Gratis
  • Sterk: relaties leggen tussen documenten en datasets van andere gebruikers en herkenning van: personen, bedrijven, locaties
  • Let op: Pro is alleen voor journalisten?

Google Pinpoint

  • Gratis
  • Sterk: grote datasets analyseren en automatische herkenning van: personen, bedrijven, locaties
  • Beperking: alleen voor journalisten?

Samenvatting

Situatie Help!
< 500 docs Acrobat + Spotlight
500 – 10.000 Acrobat + NotebookLM
> 10.000 Elasticsearch + OCR
Onderzoek/journalistiek Aleph/Pinpoint
Snel inzicht NotebookLM

Alle links op een rij

Optimal Character Recognision-tools (OCR)

Zoeken en indexeren

Analyse

1 Like

Dank @msl9 voor de tip per mail, we hebben ‘m meteen toegevoegd!

Tip: Aleph Pro is kennelijk de opvolger van Aleph, wat altijd open source was maar nu niet meer. Een andere organisatie is verder gegaan met de ontwikkeling van de open source versie, die beschikbaar is als OpenAleph: https://openaleph.org/blog/2025/03/OpenAleph-commits-to-the-commons/3510138e-16b3-4b5d-a06c-41af0aa2d517/

Toevallig kreeg ik via via een verzoek om te kijken naar de documenten geopenbaard n.a.v. een Woo-verzoek van een professionele partij.

Het gaat om 756 PDF-bestanden met in totaal 6.000 pagina’s, in totaal 2,1 GB.

In deze set liep ik bij het massaal analyseren tegen de volgende dingen aan:

  • Google NotebookLM hanteert in gratis versie limiet van 50 documenten in een notebook met per stuk maximale omvang van 200 MB.
  • Google NotebookLM kan ook dan nog moeizaam doen bij het uploaden van grote volumes.

Gebruikte workarounds die goed leken te werken toen ik output matchte met mijn kennis van het dossier:

  • Eerst alle PDF-documenten combineren tot 1 grote binder met Adobe Acrobat Professional. Dit leverde een PDF van goed 1 GB op.
  • Deze optimaliseren via Adobe; resultaat was circa 125 MB.
  • Daarnaast de al ge-OCR-de tekst er uit halen door deze als plain text op te slaan.

De eerste PDF was onbruikbaar voor verwerking maar het tweede en de derde bestand konden met enige moeite verwerkt worden, soms in Notebook LM, soms in ChatGPT.

Analyse was zoals ik het dossier kende. Maar de AI-engines leken erg te neigen om alleen de eerste x pagina’s echt in-depth te bestuderen. Als de context snel vol liep.

Echter, wat voor de grote lijnen nog makkelijker was, is om random een 40-tal documenten te selecteren en die te analyseren. De grote lijnen komen er dan wel uit.

Je mist dan wel net die ene explosieve mail die per abuis niet ruimhartig gelakt is. Dat is ook de reden dat tools die opsporingsdiensten gebruiken graag echt ALLES bekijken.

Voor OCR scan gebruik ik Wondershare PDFElement. Je kan het als abonnement voor € 99,- per jaar of als doorlopend gebruik kopen voor € 119,-. Het werkt goed voor mij.

1 Like