Eigene KI mit eigenem Wissen – wie Unternehmenswissen sicher, kontrolliert und revisionsfest in die KI gelangt

Viele Unternehmen beschäftigen sich derzeit intensiv mit der Frage, wie sie Künstliche Intelligenz (KI/AI) sinnvoll einsetzen können.

Schnell wird dabei klar, dass eine KI nur dann echten Mehrwert liefert, wenn sie nicht auf generisches Internetwissen beschränkt bleibt, sondern gezielt mit dem eigenen Unternehmenswissen arbeitet.

Genau hier entsteht jedoch die größte Hürde: die saubere, sichere und revisionsfeste Anbindung von Fremdsystemen wie DMS, ERP, Buchhaltung oder Fileservern an eine KI.

Die zentrale Herausforderung besteht darin, operative Systeme nicht direkt durch ein KI-Modell anzusprechen. Direkte Zugriffe sind technisch riskant, schwer kontrollierbar und aus Datenschutz- und Compliance-Sicht problematisch. Unsere Lösung bei intronie setzt daher konsequent auf eine klare Trennung zwischen operativen Fremdsystemen, Knowledge Management und KI-Modell.

Das Grundprinzip ist einfach und zugleich entscheidend:

Fremdsysteme liefern ihr Wissen nicht live an unser KI-Modell, sondern über definierte, kontrollierte Integrations- und Ingest-Pipelines in eine zentrale Wissensbasis. Ihre „interne KI“ arbeitet ausschließlich mit dieser Wissensbasis und greift niemals direkt auf Buchhaltung, ERP oder Dokumentenmanagementsysteme zu.

Fremdsysteme wie Dateiablagen, Fachanwendungen oder Drittsysteme werden dabei entweder zeitgesteuert oder ereignisbasiert angebunden.

Klassische Dateiablagen wie Netzlaufwerke, SharePoint, Nextcloud- oder DMS-Systeme werden über reine Lesezugriffe integriert. Ein Ingest-Service überwacht definierte Verzeichnisse, erkennt neue oder geänderte Dokumente und übernimmt diese kontrolliert in das Knowledge Management.

Bei Fachsystemen wie Buchhaltungs- oder ERP-Lösungen erfolgt die Anbindung über definierte Exporte oder APIs. Rechnungen, Belege oder Buchungsdaten liegen dort häufig bereits strukturiert als XML, CSV oder als PDF mit Metadaten vor. Diese Daten werden regelmäßig abgeholt, versioniert gespeichert und eindeutig dem jeweiligen Mandanten oder Kontext zugeordnet. Ergänzend steht ein Webinterface für manuelle Uploads zur Verfügung, um auch Sonderfälle oder externe Dokumente sauber integrieren zu können.

Nach der Datenübernahme beginnt der eigentliche Kern der Wissensaufbereitung. Dokumente werden nicht einfach als Dateien abgelegt, sondern systematisch vorverarbeitet und normalisiert. PDFs werden per OCR und Textanalyse verarbeitet, sofern sie keinen durchsuchbaren Text enthalten. Excel-Dateien werden strukturiert ausgelesen, Tabellen, Spalten und Kennzahlen logisch interpretiert.

Besonders wichtig ist dabei die inhaltliche Segmentierung. Rechnungen werden beispielsweise in Kopfbereich, Rechnungspositionen, Beträge, Steuersätze und Zahlungsziele zerlegt. Jedes dieser Segmente wird mit Metadaten angereichert, etwa Lieferant, Datum, Kostenstelle, Mandant oder Dokumenttyp. Dadurch entsteht aus einem Dokument echtes, strukturiertes Wissen.

Auf dieser Basis werden semantische Repräsentationen erzeugt. Aus den aufbereiteten Textsegmenten entstehen Embeddings, die die inhaltliche Bedeutung der Informationen abbilden. Parallel bleiben alle strukturierten Daten erhalten und werden separat indexiert. Diese Kombination ist entscheidend, denn sie ermöglicht später nicht nur freie, semantische Fragen, sondern auch präzise Filter und Auswertungen.

So lassen sich Anfragen formulieren wie: „Zeige mir alle Rechnungen von Lieferant X mit ungewöhnlichen Abweichungen im vierten Quartal.“

Die KI kombiniert dabei semantisches Verständnis mit klassischen Metadatenfiltern.

Genau dieser hybride Ansatz unterscheidet eine echte Wissens-KI von einer einfachen Volltextsuche.

Alle Inhalte werden versioniert gespeichert. Änderungen, Korrekturen oder Stornierungen überschreiben niemals bestehende Informationen, sondern erzeugen neue Versionen mit klaren Verweisen auf Vorgängerstände. Originaldokumente bleiben unverändert archiviert. Semantische Vektoren werden in einer Vektordatenbank gespeichert, strukturierte Metadaten in einer relationalen Datenbank oder im angebundenen DMS. Damit ist jederzeit nachvollziehbar, auf welcher Datenbasis eine KI-Antwort entstanden ist.

Bei der Nutzung im KI-Chat greift eine Orchestrierungsschicht. Sie entscheidet, welche Wissensdomänen für eine Anfrage relevant sind, etwa nur Rechnungen, nur ein bestimmter Mandant oder ein definierter Zeitraum. Anschließend werden ausschließlich passende Dokumentsegmente aus der Wissensbasis geladen und als Kontext an das KI-Modell übergeben. Das Modell beantwortet die Frage, ohne selbst auf Fremdsysteme zuzugreifen.

Ein zentraler Aspekt ist dabei die Zugriffskontrolle.

Die KI darf nur Wissen verwenden, auf das der jeweilige Nutzer auch klassisch Zugriff hätte. Rollenmodelle und Metadaten sorgen dafür, dass Antworten ausschließlich aus berechtigten Datenquellen generiert werden. Datenschutz, Mandantentrennung und Compliance sind damit technisch durchgesetzt und nicht nur organisatorisch geregelt.

Dieser Architekturansatz ist von uns bewusst robust gewählt.

Er trennt operative Systeme vollständig von der KI, verhindert unbeabsichtigte Eingriffe, reduziert Risiken durch Halluzinationen oder Prompt Injection und ist zugleich auditfähig, reproduzierbar und datenschutzrechtlich beherrschbar. Gerade bei sensiblen Bereichen wie Rechnungen, Verträgen oder internen Dokumentationen ist dieser Weg nicht nur sinnvoll, sondern zwingend erforderlich.

Mit einer solchen Wissens-KI (früher: „Knowledge Management System“) lassen sich nicht nur Fragen beantworten. Sie kann Auffälligkeiten erkennen, Zusammenfassungen erstellen, Entscheidungsgrundlagen liefern und Wissen erstmals systemübergreifend nutzbar machen. Und das auf einer technischen Grundlage, die auch langfristig tragfähig ist.

Weitere Beispiele aus der Praxis:

1. Rechnungseingang als PDF aus E-Mail oder DMS

Eine Eingangsrechnung geht als PDF per E-Mail oder über ein Dokumentenmanagementsystem ein. Der Ingest-Service übernimmt das Dokument automatisiert aus einem überwachten Verzeichnis oder Postfach. Im nächsten Schritt erfolgt eine OCR-Verarbeitung, sofern das PDF keinen durchsuchbaren Text enthält. Anschließend wird das Dokument in logische Segmente zerlegt, etwa Rechnungssteller, Rechnungsnummer, Leistungszeitraum, Positionen, Netto- und Bruttobeträge sowie Steuerinformationen. Diese Inhalte werden mit Metadaten wie Mandant, Kostenstelle, Lieferant und Buchungsperiode angereichert.
Die semantischen Embeddings werden erzeugt und gemeinsam mit den strukturierten Daten versioniert gespeichert. Bei einer Nutzeranfrage wie „Welche Rechnungen dieses Lieferanten weichen im letzten Quartal deutlich vom Durchschnitt ab?“ werden gezielt relevante Segmente geladen und dem KI-Modell als Kontext bereitgestellt. Kontrollpunkte sind hier die OCR-Qualität, die Plausibilitätsprüfung von Beträgen sowie die revisionssichere Versionierung.

2. Rechnungen aus dem ERP-System über API oder Export

In diesem Szenario stammen Rechnungen direkt aus einem ERP- oder Buchhaltungssystem. Die Anbindung erfolgt nicht live, sondern über regelmäßige Exporte oder eine definierte API. Die Daten liegen häufig bereits strukturiert als XML, CSV oder als PDF mit Metadaten vor. Der Ingest-Prozess übernimmt diese Daten zyklisch, prüft Vollständigkeit und Konsistenz und speichert sie versioniert ab.
Die strukturierte Information wird direkt in die Metadatenebene übernommen, während ergänzende Texte oder Beleginhalte semantisch aufbereitet werden. Die KI kann später Fragen beantworten wie „Welche Rechnungen wurden nachträglich korrigiert und warum?“ Governance-relevant sind hier insbesondere die Trennung von Lese- und Schreibrechten sowie die Nachvollziehbarkeit von Änderungen über Versionen hinweg.

3. Vertrags- und Dokumentenanalyse aus Fileserver oder SharePoint

Verträge, Richtlinien oder interne Dokumentationen liegen häufig verteilt auf Fileservern oder Kollaborationsplattformen. Ein Ingest-Service überwacht definierte Ordnerstrukturen und übernimmt neue oder geänderte Dokumente. Die Texte werden analysiert, in sinnvolle Abschnitte gegliedert und mit Metadaten wie Dokumenttyp, Gültigkeitszeitraum, Fachbereich oder Vertraulichkeitsstufe versehen.
Die semantische Aufbereitung ermöglicht später komplexe Anfragen wie „Welche Verträge enthalten Kündigungsfristen unter drei Monaten?“ oder „Wo gibt es widersprüchliche Regelungen?“ Kontrollmechanismen umfassen hier Freigabestatus, Versionshistorie und rollenbasierte Zugriffsbeschränkungen.

4. EDI-Rechnungen im strukturierten Datenaustausch

Im EDI-Bereich gehen Rechnungen beispielsweise als EDIFACT INVOIC oder als XML-Formate wie XRechnung oder ZUGFeRD ein. Diese Nachrichten werden über eine EDI-Plattform oder ein Gateway empfangen und zunächst syntaktisch und fachlich validiert. Nach erfolgreicher Prüfung werden die strukturierten Inhalte direkt in das Knowledge Management übernommen.
Positionen, Beträge, Steuersätze und Geschäftspartnerdaten liegen bereits hochstrukturiert vor und können ohne OCR verarbeitet werden. Ergänzend werden erklärende Texte oder Referenzen semantisch indexiert. Die KI kann später Fragen beantworten wie „Welche EDI-Rechnungen wurden aufgrund von Format- oder Betragsfehlern abgelehnt?“ Governance-Aspekte sind hier insbesondere die Protokollierung, die Nachvollziehbarkeit von Validierungsfehlern und die revisionssichere Archivierung der Originalnachrichten.

5. Manuelle Sonderfälle und Ad-hoc-Dokumente

Nicht jedes relevante Dokument stammt aus einem angebundenen System. Über ein Webinterface können Nutzer gezielt einzelne Dateien hochladen, etwa Gutachten, externe Abrechnungen oder Sonderbelege. Beim Upload werden Pflichtmetadaten abgefragt und Berechtigungen gesetzt.
Die Dokumente durchlaufen anschließend dieselbe Vorverarbeitung, Segmentierung und semantische Aufbereitung wie automatisiert eingehende Daten. Dadurch stehen sie der KI konsistent zur Verfügung. Typische Fragen wären etwa „Gibt es zu diesem Projekt externe Abrechnungen mit abweichenden Stundensätzen?“ Kontrollpunkte sind hier die manuelle Klassifikation, die Qualitätssicherung der Metadaten und die klare Zuordnung zu Mandanten und Rollen.

Diese fünf Beispiele zeigen, dass der entscheidende Mehrwert nicht in der einzelnen Technologie liegt, sondern in der durchgängigen Pipeline. Erst die Kombination aus kontrolliertem Ingest, strukturierter Wissensaufbereitung, semantischer Anreicherung, Versionierung und sauberer Zugriffskontrolle macht eine KI wirklich unternehmensfähig, belastbar und revisionssicher.

Dr. Stefan Spörrer