Warum RAG bei Tabellen versagt – und wie HIVE es löst

Warum RAG bei Tabellen versagt – und wie HIVE es löst

Danke an Ante für die Idee zur Optimierung des RAG :-)

Zum Jahresabschluss 2025 haben wir noch ein kleines Schmankerl: eine Optimierung, die das Verständnis für Tabellen drastisch verbessert.

Du lädst ein PDF mit einer Kundenliste hoch. 50 Zeilen, sauber strukturiert: Name, Umsatz, Region. Du fragst dein RAG: „Wie hoch ist der Umsatz von Müller?” und bekommst eine falsche Antwort. Was ist passiert?

Kurz gesagt: Standard-RAG-Systeme zerschneiden Tabellen blind. HIVE erkennt Tabellen und behält ihre Struktur. Das Ergebnis: +40% bessere Antwortqualität bei tabellarischen Daten.


Das Problem: Tabellen ohne Kopf

Du bekommst einen Zettel mit diesen Zahlen:

Schmidt    75.000    Süd
Weber      30.000    Ost
Meier      45.000    Nord

Was bedeuten diese Zahlen? Umsatz? Provision? Mitarbeiter-ID? Ohne die Spaltenüberschriften kannst du nur raten.

Genau das passiert bei herkömmlichem RAG.

So funktioniert Standard-Chunking

Ein Dokument mit 100 Zeilen Tabelle wird in Häppchen von ca. 1.000 Zeichen geschnitten. Das Problem: Der Schnitt erfolgt blind, mitten in der Tabelle.

Chunk 1 enthält noch den Header:

| Kunde    | Umsatz   | Region |
|----------|----------|--------|
| Müller   | 50.000€  | Nord   |
| Schmidt  | 75.000€  | Süd    |

Chunk 2 beginnt ohne Header:

| Weber    | 30.000€  | Ost    |
| Meier    | 45.000€  | Nord   |
| Schulz   | 60.000€  | West   |

Wenn du jetzt nach „Umsatz von Meier” fragst, findet die Suche Chunk 2. Das LLM sieht nur drei Spalten ohne Beschriftung. Es muss raten.


Die Lösung: Tabellen intelligent verarbeiten

HIVE erkennt Tabellen automatisch und behandelt sie anders als normalen Text.

Der Bibliotheks-Vergleich

Ein Bibliothekar soll ein Buch kopieren. Der Standard-Kopierer schneidet einfach alle 10 Seiten ab, egal ob mitten im Satz oder mitten in einer Tabelle.

Der HIVE-Bibliothekar schaut zuerst: „Ist das eine Tabelle?” Wenn ja, kopiert er die Überschrift auf jede Teilkopie. So weiß jeder Leser, was die Spalten bedeuten.

Was HIVE anders macht

HIVE verfolgt einen vierstufigen Ansatz: Zunächst werden Tabellen automatisch erkannt. Dann werden große Tabellen in sinnvolle Abschnitte geteilt. Jeder Abschnitt enthält die Spaltenüberschriften. Bei besonders großen Tabellen wird zusätzlich eine Zusammenfassung erstellt.


Was bringt dir das konkret?

Benchmark-Ergebnisse

In umfangreichen Tests haben wir Standard-RAG mit der HIVE-Optimierung verglichen. Über verschiedene Dokumenttypen und Tabellengrößen hinweg zeigt sich ein klares Bild:

Metrik Standard-RAG HIVE
Chunks mit Header-Problem 40% 0%
Antwortqualität 60% 100%

Beispiel-Fragen im Vergleich

Frage Standard-RAG HIVE
„Umsatz von Becker?” ✓ Korrekt ✓ Korrekt
„Provision von König?” ✗ Geraten ✓ Korrekt
„Region von Hartmann?” ✗ Geraten ✓ Korrekt

Bei Fragen, deren Antwort in einem Chunk ohne Header liegt, verbessert sich die Qualität von ~60% auf ~100%.


Vorher vs. Nachher

Vorher (Standard-RAG)

Du fragst: „Wie hoch ist der Umsatz von Schmidt?”

LLM erhält:

| Weber | 30.000€ | Ost | Meier | 45.000€ | Nord | Schulz | 60.000€ |

Antwort: „Schmidt hat einen Umsatz von 60.000€” ❌ (halluziniert)

Nachher (HIVE)

Du fragst: „Wie hoch ist der Umsatz von Schmidt?”

LLM erhält:

| Kunde    | Umsatz   | Region |
|----------|----------|--------|
| Müller   | 50.000€  | Nord   |
| Schmidt  | 75.000€  | Süd    |
| Weber    | 30.000€  | Ost    |

Antwort: „Schmidt hat einen Umsatz von 75.000€” ✓ (korrekt)


Wann hilft dir das?

Diese Optimierung greift automatisch bei PDF-Uploads mit Tabellen (Rechnungen, Reports, Listen), Excel-Exporten die als PDF gespeichert wurden, Wissensdatenbanken mit strukturierten Dokumenten und gecrawlten Webseiten mit Tabellen.

Typische Anwendungsfälle sind Kundenlisten mit Umsatz, Region und Ansprechpartner, Produktkataloge mit Preisen und Spezifikationen, Mitarbeiterlisten mit Abteilung und Kontaktdaten sowie Finanzberichte mit Quartalszahlen und viele weitere.


Fazit

Standard-RAG behandelt Tabellen wie normalen Fließtext und zerstört dabei die Struktur, die Tabellen erst nützlich macht. HIVE erkennt Tabellen und erhält ihren Kontext.

Das Ergebnis: Bei Fragen zu tabellarischen Daten verbessert sich die Antwortqualität um bis zu 40 Prozentpunkte.

Du musst nichts konfigurieren. Die Optimierung ist standardmäßig aktiv. Lade einfach deine Dokumente hoch und stelle Fragen.