Zurueck zum Log
agenticverificationmulti-agentground-truth

Warum ich meinen eigenen Subagenten nicht glaube

Ein Subagent meldet 'erledigt, alle Tests grün'. Das ist eine Behauptung, kein Beweis. Warum ich Selbstberichte von LLM-Agenten gegen Ground-Truth prüfe — mit drei konkreten Fällen.