KI Trainings Lab

© Christian Wollmann

https://wollmann.it

Trainiere ein kleines neuronales Netzwerk direkt im Browser. Lade Bilder oder Texte hoch, vergib Labels und Tags, beobachte Gewichte, Signalfluss, Neuronen-Aktivität und Vorhersagen.

KI verstehen lernen Labels & Tags Neuron-Mouseover Signalfluss pro Beispiel Responsive Netzwerk

Aktueller Stand

0Beispiele

0Klassen

0Features

–Loss

Noch kein Training durchgeführt. Der Loss wird nach dem Training bewertet.

Gut < 0.10

Mittel 0.10 – 0.30

Schlecht > 0.30

Noch kein Training. Nach dem Training erscheint hier die Bewertung.

Test-Loss: –
Validierung nach Training.

Datenqualität: –
Klassenbalance wird geprüft.

Anleitung – KI Trainings Lab

Index

0. Schnelleinstieg

So testest du das KI Training Lab schnell mit einem einfachen Beispiel:

Unter Bild-Training mehrere Bilder einer Klasse hochladen, z. B. Apfelbilder
Label: Apfel
Optional Tags: rot, rund, obst, schale
Auf Bilder hinzufügen klicken

Danach:

Mehrere Bilder einer anderen Klasse hochladen, z. B. Bananen
Label: Banane
Optional Tags: gelb, länglich, obst, schale
Wieder Bilder hinzufügen

Dann:

Unter dem Netzwerk auf Training starten klicken
Unter Vorhersage testen – Bild ein neues Bild hochladen und analysieren

Wichtig:

Label = Klasse (Apfel, Banane)
Tags = zusätzliche Hinweise (mehrere erlaubt)

1. Grundidee

Diese Onlineanwendung zeigt vereinfacht, wie ein neuronales Netzwerk lernt.

Sie speichert keine Bilder wie eine Galerie, sondern wandelt jedes Bild oder jeden Text in Zahlenwerte um. Diese heißen Features.

Diese Features laufen durch mehrere Verarbeitungsschichten und werden dort kombiniert. Am Ende entsteht eine Entscheidung, z. B.:

„Apfel“
„Banane“

Ablauf:

Features → Verarbeitung → Entscheidung (Label)

Das Ziel ist nicht, einzelne Bilder zu erkennen, sondern Muster zu lernen, die auch bei neuen Daten funktionieren.

2. Labels und Tags

Label = Zielklasse

→ Das, was das Modell lernen soll
Beispiel: Apfel

Tags = Zusatzinformationen

→ Beschreiben Eigenschaften
Beispiel: rot, rund, obst, schale, stiel

Wichtig:

Kein Misch-Label wie „Apfel, Banane“
Jede Klasse wird getrennt trainiert

Tags sind keine Klassen, sondern zusätzliche Features, die beim Lernen helfen.

3. Daten trainieren

3.1 Bilder trainieren

Mehrere Bilder gleichzeitig auswählen
Alle Bilder bekommen:
- dasselbe Label
- dieselben Tags

Nach dem Hinzufügen werden die Felder geleert → nächste Klasse sauber trainieren

Extrahierte Bildmerkmale (Features):

Farbanteile (Rot, Gelb, Grün)
Helligkeit
Kontrast
einfache Form-Schätzungen

3.2 Texte trainieren

Die Text-KI arbeitet jetzt als Text-KI. Sie versteht keine Sprache wie ein großes Sprachmodell, analysiert Texte aber deutlich besser als reine Wortzählung.

Beim Einlesen passiert:

Stopwörter wie „was“, „ist“, „der“, „die“ werden entfernt
Wörter werden normalisiert, z. B. „Bäume“ → „baum“
einfache Synonyme werden vereinheitlicht, z. B. „krumm“ → „gebogen“
Wortkombinationen werden erzeugt, z. B. „rot gruen“ oder „gelb gebogen“
typische Begriffe werden über TF-IDF-light stärker bewertet

Beispiel:

„rot“, „gruen“, „baum“ → eher Apfel
„gelb“, „gebogen“, „schale“ → eher Banane

Tags werden wie besonders starke Zusatzmerkmale behandelt.

Wichtig:
Mehrere kurze, klare Beispiele pro Klasse sind besser als ein einziger langer KI-Text.

Wenn du trotzdem einen langen Text einfügst, zerlegt die App ihn automatisch in einzelne Sätze. Jeder Satz wird dann als eigenes Text-Trainingsbeispiel gespeichert. Dadurch bewertet die Datenqualität nicht nur „ein Dokument“, sondern viele einzelne Lernbeispiele.

3.2a Text-KI Einstellungen

Unter Netzwerk & Training findest du die Text-KI-Einstellungen. Dort kannst du einzelne Verfahren aktivieren, deaktivieren und gewichten.

Stopwörter entfernen: löscht unwichtige Wörter wie „was“, „ist“, „der“, „die“.
Normalisierung: vereinheitlicht Schreibweisen und einfache Wortformen.
Synonyme: führt ähnliche Begriffe zusammen, zum Beispiel „krumm“ und „gebogen“.
N-Gramme: erzeugt Wortkombinationen, damit nicht nur Einzelwörter zählen.
TF-IDF-light: bewertet typische und seltenere Wörter stärker als allgemeine Wörter.
Text-KI / Semantik-Simulation: erzeugt grobe Bedeutungsfelder wie Farbe, Form, Baum, Schale oder Obst.

Die Gewichtungsfelder bestimmen, wie stark Textprofil, Semantik, klassisches Profil und Netzwerk-Ausgabe in die finale Textvorhersage einfließen.

Textprofil-Gewicht

Das Textprofil ist meistens das wichtigste Signal der Text-KI. Es vergleicht die erkannten Wörter, Tags und Wortkombinationen mit den gelernten Textprofilen der Klassen.

Hoher Wert: Die Entscheidung richtet sich stärker nach typischen Begriffen der Klasse. Sinnvoll bei vielen guten Textbeispielen.

Niedriger Wert: Andere Signale wie Semantik oder Netzwerk-Ausgabe bekommen mehr Einfluss.

Semantik-Gewicht

Dieses Gewicht bestimmt, wie stark die Semantik-Simulation in die finale Textentscheidung einfließt.

Die App erkennt dabei keine echte Bedeutung wie ein großes Sprachmodell, ordnet Wörter aber groben Bedeutungsfeldern zu, z. B. Farbe, Form, Obst, Baum, Schale, Apfel-Kontext oder Bananen-Kontext.

Hoher Wert: Hilfreich bei kurzen Fragen wie „rot oder grün und hängt am Baum“.

Niedriger Wert: Sinnvoll, wenn viele echte Textbeispiele vorhanden sind und die Textprofile zuverlässig sind.

Netzwerk-Gewicht

Dieses Gewicht bestimmt, wie stark die Ausgabe des kleinen neuronalen Netzwerks in die Textvorhersage einfließt.

Bei Texten ist das Netzwerk oft weniger dominant als bei Bildern, weil Textfeatures sehr dünn verteilt sind. Deshalb ist der Standardwert bewusst kleiner.

Profil-Gewicht

Das Profil-Gewicht nutzt den allgemeinen Klassenvergleich. Es ist ein Zusatzsignal neben Textprofil und Semantik.

Es hilft, wenn ein Testtext mehrere bekannte Merkmale enthält, sollte aber nicht zu stark sein, damit allgemeine Wörter das Ergebnis nicht verwässern.

N-Gramm-Stärke

N-Gramme sind Wortkombinationen wie rot_gruen, gelb_gebogen oder haengt_baum.

Eine höhere Stärke macht Wortkombinationen wichtiger. Das hilft, wenn kurze Phrasen aussagekräftiger sind als Einzelwörter.

Zu hohe Werte können aber dazu führen, dass seltene Formulierungen überbewertet werden.

Synonym-Stärke

Die Synonym-Stärke beeinflusst, wie stark vereinheitlichte Begriffe wirken.

Beispiel: „krumm“ und „gebogen“ können intern näher zusammenrücken. Das verbessert Treffer bei ähnlichen Formulierungen.

TF-IDF-Stärke

TF-IDF-light bewertet Begriffe stärker, die für eine Klasse typisch sind und nicht überall vorkommen.

Allgemeine Wörter wie „Obst“ sind oft weniger trennscharf als Wörter wie „gebogen“, „baum“, „rot“ oder „gelb“.

Eine höhere TF-IDF-Stärke macht solche typischen Begriffe wichtiger.

Semantik-Stärke

Die Semantik-Stärke regelt, wie stark erzeugte Bedeutungsfeatures selbst ausfallen.

Das ist etwas anderes als das Semantik-Gewicht: Die Stärke erzeugt kräftigere Semantik-Features, das Gewicht bestimmt danach ihren Anteil an der finalen Entscheidung.

Max. N-Gramm-Länge

Dieser Wert legt fest, ob nur Einzelwörter, 2er-Kombinationen oder 3er-Kombinationen erzeugt werden.

1: nur Einzelwörter
2: Einzelwörter + 2er-Kombinationen
3: Einzelwörter + 2er- und 3er-Kombinationen

Für die meisten Tests ist 3 sinnvoll. Bei sehr kleinen Trainingsdaten kann 2 stabiler sein.

Je mehr echte Trainingsbeispiele vorhanden sind, desto stärker darf das Textprofil sein. Bei sehr wenigen Beispielen hilft die Semantik-Simulation, bleibt aber nur eine vereinfachte Annäherung.

3.3 Warum Gegenbeispiele wichtig sind

Ein Modell lernt durch Unterscheiden.

Wenn nur Apfelbilder vorhanden sind:

→ Modell lernt: „Alles ist Apfel“

Deshalb braucht man mindestens zwei Klassen.

Gute Trainingsdaten:

ähnliche Anzahl pro Klasse
unterschiedliche Perspektiven
verschiedene Lichtverhältnisse
klare Labels
sinnvolle Tags

Die Datenqualität-Anzeige oben meldet, ob Klassen unausgeglichen sind oder zu wenige Beispiele vorliegen.

4. Training starten und verstehen

4.1 Lernrate und Epochen

Lernrate:

bestimmt, wie stark Gewichte angepasst werden
klein → stabil, langsam
groß → schnell, aber ungenau

Epochen:

wie oft alle Trainingsdaten wiederholt werden
1 Epoche = alle Beispiele einmal verarbeitet

Empfehlung:

Lernrate: 0.05 – 0.15
Epochen: 30 – 100

4.2 Fehlerwert im Training

Der Fehlerwert zeigt, wie gut das Modell aktuell ist.

niedrig → Vorhersagen passen besser
hoch → Modell liegt oft daneben

Im System wird intern ein sogenannter „Loss“ berechnet. Die Loss-Kachel oben rechts ist farblich markiert und zeigt zusätzlich eine kleine Verlaufskurve. Grün bedeutet gut, Orange bedeutet mittel/brauchbar, Rot bedeutet hoch/problematisch. Diese App nutzt einen vereinfachten MSE-ähnlichen Fehler auf Output-Werten zwischen 0 und 1. Deshalb sind die Werte nicht direkt mit Cross-Entropy-Loss aus großen KI-Modellen vergleichbar. Für diese App gilt grob: unter 0.10 gut, 0.10 bis 0.30 brauchbar/unsicher, über 0.30 problematisch.

Wichtig:
Ein sehr niedriger Wert ist nicht automatisch gut.

→ Wenn das Modell zu groß ist oder zu wenig Daten hat:
→ es merkt sich Trainingsbilder einfach auswendig (Overfitting)

Dann funktioniert es bei neuen Bildern schlecht.

4.2a Test-Loss und Overfitting

Zusätzlich zum Trainings-Loss nutzt die App einen kleinen Holdout-Test, wenn genug Beispiele pro Klasse vorhanden sind.

Trainings-Loss zeigt, wie gut das Modell die Trainingsdaten trifft.
Test-Loss zeigt, wie gut das Modell mit zurückgehaltenen Beispielen funktioniert.
Gap = Test-Loss minus Trainings-Loss. Ein großer Gap ist ein Hinweis auf Overfitting.

Overfitting bedeutet: Das Modell merkt sich Trainingsdaten zu stark und generalisiert schlechter auf neue Daten.

4.3 Backpropagation

Das ist der eigentliche Lernmechanismus.

Ablauf:

Modell berechnet eine Vorhersage
Abweichung zum richtigen Ergebnis wird bestimmt
Fehler wird rückwärts durchs Netzwerk verteilt
Gewichte werden angepasst

Dadurch verbessert sich das Modell Schritt für Schritt.

Wenn Backpropagation deaktiviert ist:

→ keine echte Lernanpassung
→ Vorhersagen bleiben weitgehend zufällig

4.4 Trainings-Recorder

Training läuft sehr schnell im Browser.

Der Recorder speichert Zwischenstände.

Nach dem Training kannst du:

durch Epochen scrollen
sehen, wie sich das Modell verändert hat

Du erkennst:

wann Fehler kleiner werden
welche Verbindungen angepasst wurden

5. Netzwerk verstehen

5.1 Features

Features sind die Eingangswerte.

Beispiele:

redMean
brightness
edgeDensity
Wörter
Tags

Sie sind die Grundlage jeder Entscheidung.

Ein Feature kann:

eine Klasse unterstützen
oder dagegen wirken

5.2 Neuronen

Ein Neuron ist eine kleine Recheneinheit.

Es:

nimmt mehrere Eingaben
multipliziert sie mit Gewichten
addiert einen Bias
erzeugt einen neuen Wert (Aktivierung)

Aktivierung = Funktion( Summe(Input × Gewicht) + Bias )

5.3 Layer

Layer sind Gruppen von Neuronen.

Input-Layer: Features
Hidden-Layer: Kombinationen von Features
Output-Layer: Klassenwerte

Beispiel:

Hidden-Neuron lernt: „rot + rund + wenig gelb“

Mehr Layer → komplexere Muster
Mehr Neuronen → mehr parallele Erkennung

5.4 Linien und Signalfluss

Verbindungen zeigen Einfluss zwischen Neuronen:

dick = starker Einfluss
grün = positiv
rot = negativ

Im Inspect-Modus wird zusätzlich der aktuelle Signalfluss angezeigt:

Signalfluss = Aktivierung × Gewicht

6. Erweiterte Feature-Funktionen

6.1 Gelernte Kombinationsfeatures

Das Modell kann automatisch neue Merkmale erzeugen:

Beispiel:

„rot + rund“
„gelb + länglich“

Diese sind keine echten Deep-Learning-Features, zeigen aber das Prinzip.

Zu viele Kombinationen:

→ erhöhen Overfitting-Risiko

6.2 Feature-Kontrolle

Hier können Features manuell angepasst werden:

verstärken
abschwächen
deaktivieren

Beispiel:

redMean ×2.0 → Rot wichtiger
edgeDensity ×0.3 → Kanten weniger wichtig

Nützlich zum Debuggen, aber kann Ergebnisse verfälschen.

6.3 Mini-CNN-Simulation

Das Bild wird in ein 4×4 Raster zerlegt.

Die Mini-CNN-Ansicht zeigt zwei Dinge gleichzeitig: Die Fläche jeder Zelle zeigt die echte Durchschnittsfarbe aus dem Bild. Der rote Außenring um die Zelle zeigt die Heatmap-Aktivität. Dadurch bleibt die echte Bildfarbe sichtbar, während starke KI-Aktivität durch den roten Außenring klar hervorgehoben wird.

Für jede Zelle entstehen eigene Features:

Farben
Helligkeit
Kanten

Bild → Raster → lokale Features → Netzwerk

Dadurch erkennt das Modell:

nicht nur was
sondern auch wo etwas ist

7. Warum? / Inspector

Das Fenster „Warum? / Inspector“ erklärt die aktuelle Entscheidung für ein ausgewähltes Trainingsbeispiel oder ein getestetes Bild.

Es zeigt nicht nur das Ergebnis, sondern auch, welche Werte zur Entscheidung beigetragen haben.

Du siehst dort zum Beispiel:

welches Beispiel gerade analysiert wird
welches Label erwartet wurde
welches Label das Modell vorhergesagt hat
wie stark die einzelnen Klassen bewertet wurden
welche Features besonders aktiv waren
welche Merkmale die Entscheidung unterstützt oder abgeschwächt haben

Der Inspector hilft also dabei, die Entscheidung nachzuvollziehen:

Warum wurde dieses Bild als Apfel oder Banane bewertet?

Das Fenster ist besonders nützlich, wenn eine Vorhersage falsch ist. Dann kannst du prüfen, ob das Modell vielleicht auf die falschen Merkmale achtet, zum Beispiel zu stark auf Farbe, Hintergrund oder einzelne Tags.

Bei Textbeispielen oder Textvorhersagen erscheint zusätzlich eine Gelernte Text-Heatmap. Dort werden die 50 wichtigsten Wörter, Phrasen, Tags oder Semantik-Features als farbige Kacheln angezeigt. Oberhalb der Heatmap kann das Label gewählt werden, gegen dessen gelerntes Profil die Wörter bewertet werden.

Hinweis zur Text-Heatmap:
Die Heatmap bevorzugt jetzt sinnvolle Inhaltswörter und starke Begriffspaare. Füllwort-Kombinationen wie „rund bis“ oder „bis leicht“ werden herausgefiltert oder stark abgewertet, weil solche Wortpaare keine guten Erkennungsmerkmale sind.

Warum steht intern manchmal „gruen“?
Intern normalisiert die App Umlaute zu ASCII-Schreibweisen wie „gruen“, damit Vergleiche stabil funktionieren. In der Heatmap werden diese Begriffe für die Anzeige wieder als „grün“, „süß“, „länglich“ usw. dargestellt.

Generische Gewichtungslogik:
Die Text-KI bewertet Wörter nicht über fest eingebaute Objektregeln, sondern über die Trainingsdaten. Ein Begriff wird stark, wenn er im gewählten Label häufig vorkommt, in anderen Labels selten ist und im aktuellen Text aktiv erscheint. Dadurch kann das System bei Äpfeln andere Wörter wichtig finden als bei Autos, Werkzeugen, Tieren oder beliebigen anderen Gegenständen.

Negationen:
Negierte Begriffe werden beim Texttraining und bei der Textanalyse herausgefiltert. Formulierungen wie „nicht länglich“, „nicht weich“ oder „keine dicke Schale“ sorgen also nicht mehr dafür, dass länglich, weich oder dick als positive Merkmale in der Heatmap landen.

Keine kaputten Wortstämme:
Die Normalisierung wurde bewusst konservativer gemacht. Wörter wie „gebogen“, „dünn“, „grün“ oder „daraus“ werden geschützt, damit keine abgeschnittenen Formen wie „gebog“, „dün“ oder „daru“ entstehen.

N-Gramme werden zusätzlich auf Qualität geprüft: Füllwort-Kombinationen werden abgewertet, sehr spezifische 3er-Phrasen werden vorsichtiger behandelt und redundante Wortpaare werden schwächer gewichtet.

Quadratische Heatmap:
Die Text-Heatmap nutzt in der Detailansicht ein echtes NxN-Raster. Wenn weniger Begriffe vorhanden sind, werden leere Platzhalter ergänzt, damit die Matrix optisch sauber bleibt. Gleichzeitig schützt die Normalisierung wichtige Wörter vor abgeschnittenen Stämmen wie „dün“ oder „daru“.

Vorschau und Detailansicht:
Die kleine Text-Heatmap bleibt bewusst kompakt und zeigt eine feste 5×5-Vorschau. Beim Mouseover öffnet sich die große Detailansicht mit bis zu 50 Features. Das Popup wird per JavaScript geöffnet und beim Verlassen zuverlässig geschlossen.

Final Tuning der Text-KI:
Die finale Textgewichtung ist generisch und objektunabhängig. Es gibt keine Sonderregeln für bestimmte Gegenstände. Die Relevanz entsteht aus den Trainingsdaten: Häufigkeit im gewählten Label, Seltenheit in anderen Labels, TF-IDF, Einzigartigkeit, N-Gramm-Qualität und Negationsfilter.

Heatmap-Filter:
Die Detail-Heatmap zeigt bis zu 50 relevante gelernte Features, blendet aber Nullwerte, negierte Begriffe und sehr schwache Cross-Noise-Einträge aus.

Gelernte Text-Heatmap:
Die Heatmap im Inspector zeigt jetzt das gelernte Textprofil des ausgewählten Labels. Sie hängt nicht mehr vom aktuell getesteten Text ab. Wenn „Apfel“ gewählt ist, zeigt sie gelernte Apfel-Merkmale; wenn „Banane“ gewählt ist, gelernte Bananen-Merkmale.

Generische Negation:
Negationen wie „nicht“, „kein“, „ohne“, „kaum“, „nie“ oder „niemals“ werden satznah erkannt. Die nächsten relevanten Inhaltswörter werden aus positiven Features entfernt. Dadurch funktioniert die Logik unabhängig davon, ob es um Obst, Autos, Tiere, Werkzeuge oder andere Objekte geht.

8. Vorhersage testen

Ein neues Bild wird analysiert.

Die App kombiniert drei Ansätze:

Vergleich mit Trainingsbildern
Vergleich mit Klassenprofilen
Netzwerk-Ausgabe

Dadurch werden auch sehr ähnliche Bilder zuverlässig erkannt.

Optionale Tags können das Ergebnis beeinflussen.

8.1 Confidence und „Warum falsch?“

Die Vorhersage zeigt nicht nur das beste Label, sondern auch eine Confidence-Anzeige. Dadurch siehst du, ob das Ergebnis eindeutig oder knapp ist.

hohe Confidence → Modell ist relativ sicher
kleiner Abstand zur zweitbesten Klasse → Ergebnis ist unsicher
„Warum falsch?“ zeigt auffällige Merkmale, die das Ergebnis beeinflusst haben

8.2 Störbild-Test

Mit dem Störbild-Test kannst du prüfen, ob das Modell robust ist. Die App verändert das Testbild leicht, z. B. heller, mit Rauschen oder etwas gedreht.

Wenn die Vorhersage dadurch sofort kippt, ist das Modell wahrscheinlich noch zu empfindlich oder die Trainingsdaten sind zu einseitig.

9. Import / Export

Export speichert:

Trainingsdaten
Labels und Tags
Netzwerkstruktur
Gewichte und Einstellungen

Import stellt alles wieder her.

→ Modell kann direkt weiterverwendet werden

10. Logfenster

Das Log zeigt chronologisch, was die App gerade gemacht hat: Uploads, Training, Strukturänderungen, Warnungen, Fehler und Vorhersagen.

Wenn etwas nicht funktioniert, ist das Log der erste Kontrollpunkt. Dort siehst du zum Beispiel, ob ein Label fehlt, zu wenige Klassen vorhanden sind oder ein Import nicht gelesen werden konnte.

11. Grenzen dieser App

Diese App ist eine Lern- und Visualisierungsumgebung.

Sie verwendet:

vereinfachte Features
keine echten großen KI-Modelle
Text-KI mit Stopwords, N-Grammen, TF-IDF-light und Semantik-Simulation, aber ohne echtes Sprachverständnis wie ein Transformer-Modell

Kein Ersatz für:

TensorFlow
PyTorch
GPU-Training

Ziel:

→ Verständnis statt maximale Genauigkeit

Viel Spaß beim Ausprobieren!
Euer Christian