Das Ende von “zu teuer” für Unternehmenssoftware?
Geht nicht gibt’s nicht: LLMs verändern nun die Herangehensweise von Unternehmen an Problemstellungen, die algorithmisch schwer oder gar nicht zu lösen sind.Gorodenkoff/Shutterstock.com
Generative künstliche Intelligenz (Generative KI, GenAI) und insbesondere Large Language Models (LLMs) verändern die Art und Weise, wie Unternehmen Software entwickeln und bereitstellen. Was mit Chatbots und einfachen Automatisierungswerkzeugen begann, entwickelt sich zu etwas weitaus Mächtigerem — KI-Systemen, die tief in Softwarearchitekturen integriert sind und alles von Backend-Prozessen bis hin zu User Interfaces beeinflussen. Ein Überblick.
Die Chatbot-Welle: Ein kurzfristiger Trend
Derzeit konzentrieren sich Unternehmen darauf, Chatbots und maßgeschneiderte GPTs für verschiedene Problemstellungen zu entwickeln. Diese KI-gestützten Werkzeuge zeichnen sich besonders in zwei Bereichen aus: Sie machen internes Wissen zugänglich und automatisieren den Kundenservice. Chatbots werden eingesetzt, um Antwortsysteme aufzubauen, die Mitarbeitern und Mitarbeiterinnen (aus Gründen der Lesbarkeit verwenden wir im laufenden Text die männliche Form) einen schnellen Zugriff auf umfangreiche interne Wissensdatenbanken ermöglichen und dabei Informationssilos aufbrechen.
Diese Tools sind zwar nützlich, bieten jedoch aufgrund mangelnder Innovation oder Differenzierung einen sinkenden Mehrwert. Schließlich sind Chatbots oft unpassende Benutzeroberflächen, da es an Kenntnissen über bessere Alternativen zur Lösung bestimmter Probleme fehlt.
Die Zukunft wird von tiefergehenden KI-Funktionen geprägt sein, die nahtlos in Softwareprodukte eingewoben sind, ohne für Endnutzer offensichtlich zu sein.
Generative KI als allgegenwärtige Technologie
In den kommenden Jahren wird sich KI von einem expliziten, undurchsichtigen Werkzeug mit direkter Benutzerinteraktion zu einer nahtlos integrierten Komponente im Feature-Teppich entwickeln. GenAI wird Funktionen wie dynamische Inhaltserstellung, intelligente Entscheidungsfindung und Echtzeit-Personalisierung ermöglichen, ohne dass Nutzer direkt damit interagieren müssen. Dies wird sowohl das UI-Design als auch die Bedienung von Software grundlegend verändern. Anstatt spezifische Parameter manuell einzugeben, können Nutzer zunehmend ihre Anforderungen in natürlicher Sprache beschreiben.
Ein prägnantes Beispiel dafür ist bereits in Werkzeugen wie Adobe Photoshop zu sehen. Dort erfordert die “Generative Fill”-Funktion keine manuelle Einstellung mehrerer Parameter mehr. Stattdessen können Nutzer einfach beschreiben, womit sie einen ausgewählten Bildbereich füllen möchten. Dieser Trend zur Eingabe in natürlicher Sprache wird sich über Anwendungen hinweg ausweiten und die UX intuitiver und weniger durch traditionelle UI-Elemente eingeschränkt gestalten.
Die Herausforderung liegt dabei künftig nicht im Mangel, sondern im Überfluss: Es gilt, die vielversprechendsten Möglichkeiten zu identifizieren und zu priorisieren.
Der Commodity-Effekt von LLMs gegenüber speziellen ML-Modellen
Eine der bemerkenswertesten Veränderungen, die generative KI in der IT bewirkt hat, ist die Demokratisierung von KI-Fähigkeiten. Vor LLMs und Diffusionsmodellen mussten Unternehmen ein erhebliches Maß an Zeit, Aufwand und Ressourcen in die Entwicklung maßgeschneiderter Machine-Learning-Modelle investieren, um schwierige Probleme zu lösen. Diese erforderten spezialisierte Rollen und Teams um domänenspezifische Daten zu sammeln, Features aufzubereiten, Daten zu labeln, sowie für das Re-Training und den gesamten Lebenszyklus eines Modells.
LLMs verändern nun die Herangehensweise von Unternehmen an Problemstellungen, die algorithmisch schwer oder gar nicht zu lösen sind, wobei der Begriff „Language“ in Large Language Models irreführend ist. Diese autoregressiven Modelle können letztlich alles verarbeiten, was sich gut in Tokens zerlegen lässt: Bild, Video, Ton, sogar Proteine. Unternehmen können diese vielseitigen Werkzeuge durch die RAG-Architektur (Retrieval-Augmented Generation) mit eigenen Daten anreichern. Dadurch wird ihr breites Fähigkeitsspektrum nutzbar.
In vielen Fällen erübrigt sich damit der Bedarf an spezialisierten Teams, umfangreichem Daten-Labeling und komplexen Machine-Learning-Pipelines. Das umfangreiche vortrainierte Wissen der LLMs ermöglicht es ihnen, selbst unstrukturierte Daten effektiv zu verarbeiten und zu interpretieren.
Ein wichtiger Aspekt dieser Demokratisierung ist die Verfügbarkeit von LLMs über leicht zu nutzende APIs. Heute weiß fast jeder Entwickler, wie man mit API-basierten Diensten arbeitet, was die Integration dieser Modelle in bestehende Software-Ökosysteme reibungslos macht. Unternehmen können somit von leistungsstarken Modellen profitieren, ohne sich um die zugrundeliegende Infrastruktur kümmern zu müssen. Alternativ lassen sich etliche Modelle bei spezifischen Sicherheits- oder Datenschutzanforderungen auch On Premises betreiben. Hier müssen allerdings Abstriche im Vergleich zu den führenden Frontier Models gemacht werden.
Nehmen wir als Beispiel eine App zur Erfassung und Verwaltung von Reisekosten. Traditionell hätte eine solche Anwendung möglicherweise auf ein speziell trainiertes ML-Modell zurückgegriffen, um hochgeladene Belege in Buchungskategorien wie etwa nach DATEV einzuordnen. Das erforderte dedizierte Infrastruktur und idealerweise eine vollständige MLOps-Pipeline (für Modelltraining, -bereitstellung und -überwachung) zur Verwaltung der Datenerfassung, des Trainings und der Modellaktualisierungen.
Heute kann so ein ML-Modell einfach durch ein LLM ersetzt werden, das sein Weltwissen im Zusammenspiel mit einem guten Prompt für die Belegkategorisierung nutzt. Die multimodalen Fähigkeiten von LLMs machen zudem optische Zeichenerkennung (OCR) in vielen Fällen überflüssig, was den Technologie-Stack erheblich vereinfacht. Müssen aus den Belegen auch noch Daten wie Netto- und Bruttopreise oder Steuersätze extrahiert werden? Auch das übernimmt ein LLM.
https://open.spotify.com/episode/5LyDXcO77nKawkSI41MMIo
KI-gestützte Funktionen, die bisher nicht möglich waren
GenAI ermöglicht eine Vielzahl von Features, die zuvor zu komplex, zu teuer oder völlig außer Reichweite für die meisten Unternehmen waren, weil sie Investitionen in maßgeschneiderte ML-Lösungen oder komplexe Algorithmen erforderten. Betrachten wir einige konkrete Beispiele.
Stimmungs- und kontextbasierte Suche: Jenseits von Keywords
Die stimmungs- und kontextbasierte Suche (“vibe-based search”) stellt einen bedeutenden Fortschritt gegenüber traditionellen, Keyword-basierten Suchsystemen dar.
Sie ermöglicht es Nutzern, ihre Absicht in natürlicher Sprache auszudrücken und dabei nicht nur spezifische Begriffe, sondern auch den gesamten Kontext und die “Stimmung” ihrer Anfrage zu erfassen.
Ein Beispiel:
Traditionelle Keyword-Suche: “beste restaurants berlin”
Stimmungs- und kontextbasierte Suche: “Ich bin ein anspruchsvoller Connaisseur und liebe Weinbars, die auch Essen servieren, vorzugsweise mit regionalen Zutaten. Empfiehl mir Restaurants in Berlin Mitte und Kreuzberg. Bitte keine dogmatischen Naturweinbars.”
Im Fall der stimmungs- und kontextbasierten Suche kann ein LLM folgendes verstehen und verarbeiten:
Die Selbstbeschreibung als “anspruchsvoller Genießer”;
Die Vorliebe für Weinbars mit zusätzlichem Speisenangebot;
Den Wunsch nach regionalen Zutaten;
Die spezifischen Stadtteilpräferenzen (Mitte und Kreuzberg);
Die Unterscheidung zwischen gewöhnlichen Weinbars und “dogmatischen Naturweinbars”.
Dieses Maß an Nuancierung und Kontextverständnis ermöglicht es der Suchfunktion, hochgradig personalisierte und relevante Ergebnisse zu liefern, anstatt nur Keywords abzugleichen.
Die Implementierung der stimmungs- und kontextbasierten Suche kann die User Experience in verschiedenen Anwendungen deutlich verbessern:
Interne Wissensdatenbanken: Mitarbeiter können mit natürlichsprachlichen Anfragen Informationen finden, die ihre spezifische Situation oder ihren Bedarf beschreiben.
E-Commerce-Plattformen: Kunden können Produkte in ihren eigenen Worten beschreiben, auch wenn sie die exakte Terminologie nicht kennen.
Kundenservice-Systeme: Nutzer können Probleme detailliert beschreiben. Das System bietet ihnen daraufhin präzisere Lösungen an oder leitet sie an die zuständigen Support-Mitarbeiter weiter.
Content-Management-Systeme: Content-Redakteure können mit beschreibender Sprache nach Assets oder Inhalten suchen, ohne sich auf aufwändiges Tagging oder Metadaten verlassen zu müssen.
Intelligente Daten- und Inhaltsanalyse
Sentimentanalyse
Betrachten wir ein praktisches Beispiel: Ein internes System erlaubt es Mitarbeitern, kurze Statusmeldungen über ihre Arbeit zu posten. Eine Führungskraft möchte die allgemeine Stimmung im Team in einer bestimmten Woche einschätzen. Früher wäre die Implementierung einer Sentimentanalyse dieser Beiträge mit einem maßgeschneiderten ML-Modell eine Herausforderung gewesen. Mit LLMs reduziert sich diese Komplexität auf einen einfachen API-Aufruf.
Das Ergebnis muss dabei nicht einmal in menschenlesbarer Sprache ausgegeben werden. Es kann als strukturiertes JSON erfolgen, das das System zur Darstellung passender Icons oder Grafiken verarbeitet. Alternativ könnte das LLM auch einfach Emojis zur Darstellung der Stimmungen ausgeben. Natürlich würde eine solche Funktion nur mit Einwilligung der Mitarbeiter implementiert werden.
Erkenntnisgewinnung aus komplexen Daten
Ein weiteres Beispiel, das die Leistungsfähigkeit von LLMs bei der Analyse komplexer Daten verdeutlicht, ist etwa ein intelligentes Alarmmanagement für Kühlsysteme.
Traditionell konzentrierten sich diese Systeme auf:
Ein grafisches Alarm-Dashboard mit Echtzeitdaten und Warnungen.
Komplexe, filterbare tabellarische Darstellungen von Zeitreihendaten
Diese Funktionen sind nützlich, erfordern jedoch oft erhebliche menschliche Interpretation, um aussagekräftige Erkenntnisse zu gewinnen. Hier können LLMs die Fähigkeiten des Systems erweitern, indem sie Rohdaten auf Zero-Shot-Basis in verwertbare Erkenntnisse umwandeln, ohne dass dafür spezielle Machine-Learning-Modelle erforderlich sind, nämlich:
Automatische Berichtserstellung: LLMs können Zeitreihendaten analysieren und detaillierte Berichte in natürlicher Sprache generieren. Diese können Trends, Anomalien und wichtige Leistungsindikatoren hervorheben, die sowohl für Techniker als auch für Manager wertvoll sind. Etwa ein Bericht, der die Alarme der vergangenen Woche zusammenfasst, wiederkehrende Probleme identifiziert und Verbesserungsmöglichkeiten vorschlägt.
Tiefgehende Analyse: LLMs können über die einfache Datendarstellung hinaus komplexe Muster in den Daten erkennen und erklären. So sind sie etwa in der Lage, Alarmsequenzen zu identifizieren, die auf größere Systemprobleme hinweisen – Erkenntnisse, die in einer traditionellen Tabellenansicht oder Diagrammen möglicherweise übersehen würden.
Predictive Insights: Durch die Analyse historischer Daten können LLMs Vorhersagen über zukünftige Systemzustände treffen. Dies ermöglicht eine proaktive Wartung und hilft, potenzielle Ausfälle zu verhindern.
Strukturierte Ausgaben: Zusätzlich zu Berichten in natürlicher Sprache können LLMs auch strukturierte Daten (etwa JSON) ausgeben. Dies ermöglicht die Erstellung dynamischer, grafischer Benutzeroberflächen, die komplexe Informationen visuell darstellen.
Natürlichsprachliche Abfragen: Techniker können dem System Fragen in natürlicher Sprache stellen, wie zum Beispiel “Welche Geräte werden in den kommenden Wochen wahrscheinlich in den Failover-Modus wechseln?” und erhalten sofort relevante Antworten und Visualisierungen. Dies senkt die Zugangshürden zur Datenauswertung und -interpretation deutlich. Diese Funktionalität ist nun bei OpenAI auch via Realtime API verfügbar.
Die multimodale Blackbox: Schreiben, Sprechen, Sehen und Hören
Multimodalität erweitert die Möglichkeiten von LLMs gewaltig. Modelle, die Text, Bilder, Ton und Sprache verarbeiten können, ermöglichen komplexe Feature-Kombinationen. Ein Beispiel dafür wäre eine Anwendung, die Nutzern hilft, komplexe visuelle Inhalte zu verarbeiten und sie textuell oder per Sprache aufzubereiten.
Die Spannweite möglicher Use Cases ist enorm: Ein Videoschwenk über ein Bücherregal befüllt eine Datenbank mit den erkannten Buchtiteln. Fremde Tiere, die im Überwachungsvideo des Hühnerstalls auftauchen, werden identifiziert. Eine Schottin spricht Straßennamen in das Navigationssystem ihres Mietwagens in Deutschland ein.
https://open.spotify.com/episode/2tBmiF3wJ4SJuHMBOszdQw
Technische Einschränkungen und Lösungsansätze
LLMs haben bestimmte technische Einschränkungen. Eine der bedeutendsten ist das Kontextfenster – die Textmenge (genauer: die Menge an Tokens), die ein Sprachmodell in einem einzelnen Durchgang verarbeiten kann.
Die meisten LLMs verfügen über ein begrenztes Kontextfenster, das typischerweise von einigen tausend bis zu mehreren zehntausend Tokens reicht. Das von GPT-4o umfasst beispielsweise 128.000 Tokens, während Gemini 1.5 Pro bis zu 2.000.000 Tokens verarbeiten kann. Auch wenn dies beträchtlich erscheinen mag, kann es schnell zum Engpass werden, wenn es um Eingabemengen wie Bücher oder lange Videos geht.
Glücklicherweise gibt es mehrere Strategien, um diese Einschränkung zu umgehen:
Chunking (Segmentierung) und Zusammenfassung: Große Dokumente werden in kleinere, Segmente aufgeteilt, die in das Kontextfenster passen. Jedes Segment wird separat verarbeitet, und die Ergebnisse werden anschließend zusammengeführt.
Retrieval-Augmented Generation (RAG): Anstatt sich ausschließlich auf das (extrem breite) Wissen des Modells zu verlassen, werden relevante Informationen aus einer separaten Datenquelle abgerufen und in das Prompt eingebunden.
Domänenanpassung: Die Kombination von sorgfältigem Prompt-Engineering mit domänenspezifischen Wissensdatenbanken ermöglicht Fachexpertise, ohne die Vielseitigkeit des Modells einzuschränken.
Sliding–Window-Technik: Für die Analyse langer Textsequenzen, etwa bei Zeitreihendaten oder langen Dokumenten, kann ein gleitendes Fenster verwendet werden. Das Modell behält dabei einen Teil des Kontexts bei, während es sich durch das gesamte Dokument bewegt.
Mehrstufiges Reasoning: Komplexe Probleme werden in eine Reihe kleinerer Schritte zerlegt. Jeder Schritt nutzt das LLM innerhalb seiner Kontextfenstergrenze, wobei die Ergebnisse vorheriger Schritte die nachfolgenden informieren.
Hybride Ansätze: Traditionelle Information-Retrieval-Methoden wie TF-IDF und BM25 können relevante Textpassagen vorfiltern. Dies reduziert die Datenmenge für die anschließende LLM-Analyse deutlich und steigert so die Effizienz des Gesamtsystems.
https://open.spotify.com/episode/59wsrOmohZlLIAW3fE6bXz
GenAI als Standardkomponente in Unternehmenssoftware
Unternehmen müssen generative KI als das begreifen, was sie ist: Eine Allzwecktechnologie, die alles berührt. Sie wird Teil des Standard-Software-Development-Stacks, als auch integraler Enabler neuer oder bestehender Features. Die Zukunftsfähigkeit der eigenen Softwareentwicklung sicherzustellen, erfordert nicht nur, KI-Tools für die Softwareentwicklung anzuschaffen, sondern auch Infrastruktur, Design-Patterns und Betriebsabläufe auf den wachsenden Einfluss der KI vorzubereiten.
Mit dieser Entwicklung wird sich auch die Rolle von Softwarearchitekten, Entwicklern und Produktdesignern weiterentwickeln. Sie werden neue Fähigkeiten und Strategien für den Entwurf von KI-Features, die Handhabung nicht-deterministischer Ausgaben und die nahtlose Integration in verschiedene Unternehmenssysteme entwickeln müssen. Soft Skills und die Zusammenarbeit zwischen technischen und nicht-technischen Rollen werden wichtiger denn je, denn reine Hard Skills werden günstiger und automatisierbarer. (mb)
Hier finden Sie den kompletten Artikel: