Dit is een dynamische lijst - niks zo veranderlijk als slim en snel grote hoeveelheid data doorzoeken. Laat het ons weten als je aanvullingen of verbeteringen hebt. Je kan op dit topic reageren of mailen naar contact@expertisecentrumspoon.nl.
Stap 1 – OCR-tools: omzetten naar doorzoekbare tekst
Veel Woo-documenten zijn ingescand. Zonder Optimal Character Recognition (OCR) ben je dan nergens. OCR is een manier om afbeeldingen of afgedrukte documenten om te zetten naar doorzoek- en bewerkbare digitale tekst.
- Gratis, open source
- Werkt goed met pdfs en afbeeldingen
- Kosten: vanaf 99 euro per jaar
- Erg goede kwaliteit
- Gebruiksvriendelijk
Stap 2 – Zoeken en indexeren
MacOS: Spotlight en Windows: Windows Search
- Gratis
- Schaal: eenvoudige zoekvragen
- Sterk: direct beschikbaar
- Let op: geen goede OCR en zoeken op trefwoorden
- Kosten: ± 20 euro per maand
- Schaal: tot enkele duizenden documenten
- Sterk: zeer geschikt als eerste stap (opschonen en OCR) en indexen bouwen
- Kosten: vanaf ± 20 euro per maand (self-host kan gratis)
- Schaal: miljoenen documenten
- Sterk: razendsnel, opties voor filters en toevoegen metadata
- Let op: OCR moet je meestal apart regelen (bijv. via Tika of pipelines) en technische setup nodig
Stap 3 –Analyse (inzicht krijgen)
- Kosten: gratis of 8 euro per maand voor Plus
- Sterk: samenvatten, vragen stellen over documenten (ook audio) en cross-document analyse
- Let op: minder geschikt voor bulkbeheer/archivering
- Gratis
- Sterk: relaties leggen tussen documenten en datasets van andere gebruikers en herkenning van: personen, bedrijven, locaties
- Let op: Pro is alleen voor journalisten?
- Gratis
- Sterk: grote datasets analyseren en automatische herkenning van: personen, bedrijven, locaties
- Beperking: alleen voor journalisten?
Samenvatting
| Situatie | Help! |
|---|---|
| < 500 docs | Acrobat + Spotlight |
| 500 – 10.000 | Acrobat + NotebookLM |
| > 10.000 | Elasticsearch + OCR |
| Onderzoek/journalistiek | Aleph/Pinpoint |
| Snel inzicht | NotebookLM |
Alle links op een rij
Optimal Character Recognision-tools (OCR)
- Tesseract OCR
GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) · GitHub - ABBYY FineReader
PDF Software: Open, Read & Edit PDFs | FineReader PDF
Zoeken en indexeren
- Spotlight
Van alles zoeken met Spotlight op de Mac - Apple Support (NL) - Windows Search
https://support.microsoft.com/windows/search-for-anything-anywhere-4c0cdd5b-9a21-47d1-9c90-3f8a7b1b3c1a - Adobe Acrobat Pro
https://www.adobe.com/acrobat/acrobat-pro.html - Elasticsearch
Elasticsearch: The Official Distributed Search & Analytics Engine | Elastic
Analyse
- Google NotebookLM
https://notebooklm.google/ - Aleph
https://aleph.occrp.org/
https://openaleph.org/ - Google Pinpoint
https://journaliststudio.google.com/pinpoint