Datenaufbereitung für RAG und LLMs

Steffen Göttle

18 Mai 2025 • 2 min read

Auf einen Blick

Egal ob kompletter Geschäftsbericht oder nur Seite 3 eines Vertrags – unser Drag-and-Drop-Tool verwandelt genau das, was du ihm übergibst, in klar formatiertes Markdown oder JSON. Die Engine nutzt PyTorch-basierte Layout- und OCR-Modelle und schöpft auf jeder CUDA-GPU die volle Leistung aus. Keine ZIP-Uploads, kein Ordner-Chaos – einfach Dateien markieren, fallenlassen, fertig.

Warum du mit Roh-PDFs Geld verbrennst

Rauschen: schiefe Scans, Kopf-/Fußzeilen oder verschachtelte Tabellen bremsen RAG-Systeme aus.
Token-Müll: unstrukturierter Text bläht das Kontextfenster auf und treibt API-Kosten hoch.
Null Nachvollziehbarkeit: ohne stabile Seiten-IDs wird Zitieren im Prompt zum Glücksspiel.

Unser Converter räumt das automatisch auf und liefert sauber formatierte Dokumente oder Einzelseiten – inklusive Seitenzahl, Quelle und stabilem Identifier.

So einfach läuft der Workflow

Dateien per drag n drop importieren: DOCX, PPTX, XLSX, Bilder … – einzeln oder als Mehrfachauswahl.
GPU-Turbo zündet: Liegt eine NVIDIA-Karte vor, laufen OCR, Layout-Analyse und Format-Konvertierung parallel auf CUDA.
LLM wählen: OpenAI, Claude, Gemini oder Ollama (lokal)
Zielformat wählen: Markdown oder JSON.
Download: Du erhältst ein Zip Arich mit
- Dokument.md / .json,
- extrahierten Bildern

Kosten im Blick

Nur dein GPU-Strom (Hardwareanschaffung) oder die Token-Gebühren des gewählten LLMs.

Ein Blick unter die Haube

Modul	Aufgabe	GPU-Boost
Drag-and-Drop-Import	Dateien entgegennehmen	–
Dokument-Analyse	Typ, Sprache, Layout erkennen	✔
OCR & Handschrift	schwer lesbare Scans in UTF-8-Text verwandeln	✔
Parser-Suite	Text, Tabellen, Formeln, Bilder extrahieren	–
Seiten-Formatter	ganze Dokumente oder ausgewählte Seiten ausgeben	✔
LLM-Connector	OpenAI · Gemini · Claude · Ollama ansprechen	–
Exporter	Inhalte + Bilder + Manifest bereitstellen	–

Auf einer RTX A4000 wandelt das Tool ein 200-seitiges Scan-PDF inklusive OCR in etwa 35 Sekunden um – herkömmliche CPU-Pipelines brauchen hierfür wesentlich länger.

Was du davon hast

Sekunden statt Stunden – GPU-OCR & Verarbeitung reduzieren Durchlaufzeiten dramatisch.
Starke Antworten – klar formatierte Dokumente verbessern das Retrieval spürbar.
Planbare Kosten – nur Strom für deine GPU oder API-Tokens des Modells.
Flexibel bleiben – Modell- oder Formatwechsel per Dropdown, ohne Prompt-Bastelei.

Best-Practice-Tipps

OCR immer aktivieren wenn du dir nicht sicher bist ob es ein gesacanntes Dokument ist
Rauschige Scans? – Force OCR zur OCR Funktion anwählen (Durchlaufzeit erhöht sich, durch die Nutzung von OCR)

Permanent weiterentwickelt – dein Feedback zählt

Wir verbessern das Tool fortlaufend: neue OCR-Modelle, schnellere Parser, noch smartere Layout-Erkennung. Feature-Wünsche oder Bugs? Gib uns Bescheid – wir nehmen dein Feedback direkt in unsere Roadmap auf.

Einzeln oder im Bundle mit unserem RAG-Stack

Standalone: Nutze den Converter als eigenständige Lösung für deine Arbeit.

oder

im Bundle: Kombiniere ihn mit unserem RAG-Framework – alles aus einer Hand, nahtlos integriert.

Mehr erfahren?

Weitere Informationen findest du auf unserer Themenseite.

https://www.oakmind.de/rag

Fazit

Gib deinem RAG-System optimal strukturierte Dokumente – schnell, reproduzierbar und kostenbewusst.