Apple-Forscher:innen haben ein neues Paper veröffentlicht, das die Fertigkeiten von Reasoning-Modellen infrage stellt. Demnach sollen aktuelle Modelle von OpenAI, Google und Anthropic nur in Benchmarks zuverlässig funktionieren, aber an echten Aufgaben grandios scheitern.