agenticverificationmulti-agentground-truth
Warum ich meinen eigenen Subagenten nicht glaube
Ein Subagent meldet 'erledigt, alle Tests grün'. Das ist eine Behauptung, kein Beweis. Warum ich Selbstberichte von LLM-Agenten gegen Ground-Truth prüfe — mit drei konkreten Fällen.