Aber die eingebaute KI sagt: "eine Kehlbrett-Fräse gibt es nicht. Meinten sie xy?"
Hallo? Geht's noch? Ich habe auch keine Kehlbrett-Fräse gesucht, sondern Ergebnisse in denen Fräse und Kehlbrett vorkommen...
Ich denke, 80 Prozent darfst Du in dem Fall Dir selbst zuschreiben.
Es liegt ja bei dem überschaubar einfachen Beispiel offenbar auch nicht an der "Datenlage". Die organischen Suchergebnisse zeigen ja eigentlich, was ich/man erwarten würde: Bei der Suche nach dem zum Fraß vorgeworfenen "Kehlbrett"gibt es eine eindeutige Gewichtung in Richtung Dach - Dächer gibt's ja aber auch deutlich mehr als Tischfräsen
Bei der Suche nach "Kehlbrett Fräse" berücksichtigen die organischen Suchergebnissehalt beide - doch sehr unterschiedlichen - Dinge.
Der Vorteil der LLM ist ja das erstaunlich gute Verstehen menschlicher Kommunikation. Also, ein simples "Wozu dient ein Kehlbrett an einer Tischfräse? Welche professionellen Quellen gibt zum Thema Kehlbrett an der Tischfräse?" beispielsweise liefert genau das Erwartbare, gänzlich frei von spekulativen Phantasien. Auch einfach in der SuMa-Integration bspw. bei Google.
Was die Modelle in den letzten Monaten dort aufgeholt haben, dass Prompts wirklich so formulierbar sind, als würde man einen Kollegen fragen, ist echt erstaunlich. Noch erstaunlicher ist aber, wie rasant auf Anwendungs- und Integrationsseite Fortschritte gemacht wurden. Da ist heute schon vieles, was sich vor einem Jahr quasi unter Laborbedingungen in Forschungsrepositories fand, mittlerweile in produktivem Einsatz.
Öffentlich verfügbare Sprachmodelle sind naturgemäß mit einem sehr breiten, aber allgemeinen Wissensschatz trainiert worden. Wenn Anfragen sehr fachspezifisch werden und das Modell zu wenig Grundlage hat, beginnen viele Systeme zu „halluzinieren“ – also auf den ersten Blick halbwegs plausibel klingende, aber falsche Antworten zu erfinden.
Wenn Daten fehlen, muss man halt für Daten sorgen.

State of the art ist dabei heute längst nicht mehr, eigene Modelle mit bspw. firmeneigenen Daten neu zu trainieren – das wäre aufwändig und schwer zu pflegen –, sondern Wissen gezielt an bestehende Modelle anzudocken.
Das geschieht über Verfahren wie Retrieval-Augmented Generation (RAG): Man bringt das Wissen zu den Modellen, nicht mehr die Modelle zum Wissen.
Je nach technologischem Umfeld gibt es inzwischen sehr elegante Lösungen, mit denen sich solche Systeme schnell, sicher – und auch datenschutzkonform – aufbauen und betreiben lassen. Bedarfsweise sogar vollständig innerhalb der eigenen Infrastruktur.