Bau-Informationsdienste · Italien

Texterkennung für Beschluss-PDFs – weniger Nacharbeit, bessere Datenqualität

Die Ausgangslage

Tausende italienischer Gemeindebeschlüsse pro Jahr werden über eine ältere OCR-/NER-Pipeline ausgelesen. Bei der bestehenden Feldqualität landen zu viele falsche Stammdaten-Treffer in der Datenbank, Datums-Heuristiken verwechseln Format-Varianten, Akzente und Layout-Brüche kosten manuelle Nachkontrolle.

Wie wir das lösen

Wir bauen die Pipeline auf moderne Document-AI um – LLM-Vision für OCR und Information Extraction, Cross-Check über zwei Modelle, Vorgängerprojekt-Suche per Vektor-Datenbank. Stammdaten verlassen die Kunden-Infrastruktur nicht; nur Top-K-Kandidaten gehen an den LLM-Re-Ranker. Eine Confidence-Heatmap im UI legt nur Felder unter Schwellwert auf den Tisch der Prüfer.

Was es bringt

Die Datenqualität auf den kritischen Spalten – Ausschreiber, Beschluss-Nummer, Datum, Betrag – steigt deutlich. Falsch-positive Treffer werden seltener, manuelle Nacharbeit konzentriert sich auf wirklich unsichere Fälle. Die Datenbank wird verlässlicher als Kalkulationsgrundlage und Suchindex.

Erkennen Sie einen ähnlichen Prozess in Ihrem Betrieb?

Wenn dieser Anwendungsfall nah an Ihrem Alltag ist, prüfen wir gemeinsam Datenlage, Aufwand und einen realistischen ersten MVP.

Warum KI-Projekte funktionieren

Dieser Anwendungsfall basiert auf einem realen Kundenprojekt. Branche und Region sind genannt, der Betrieb selbst bleibt anonym.