KI-Fake-Quellen, Mathe-Comeback und der Preis der Validität

Heute gibt’s gleich mehrere News, die zeigen, wie schnell sich KI von „beeindruckend“ zu „bitte genau hinschauen“ bewegt. Besonders spannend: Während Sprachmodelle in Wissenschaft, Recht und Strukturierungsaufgaben immer breiter eingesetzt werden, steigen die Risiken für Fehler, Fakes und systemische Nebenwirkungen.

Kurz gesagt: Mehr Leistung heißt nicht automatisch mehr Verlässlichkeit. Und genau da wird’s für Forschung, Regulierung und Praxis gerade interessant.

🧬 Tausende Fake-Quellen in Biomedizin-Papers

Ein Audit der Columbia University und weiterer Institutionen über 2,5 Millionen biomedizinische Papers zeigt ein unschönes Muster: Seit 2023 hat sich die Rate erfundener Literaturangaben mehr als verzwölffacht. Die verdächtigen Quellen sehen erstaunlich gut aus – korrekt formatiert, thematisch passend, auf den ersten Blick völlig unauffällig. Genau das macht das Problem so tückisch: Wenn KI Quellen „erfindet“, ist der Schaden nicht nur ein kleiner Zitierfehler, sondern potenziell ein Problem für klinische Leitlinien und damit für echte Patientenversorgung. Laut Analyse waren 98 Prozent der betroffenen Papers in diesem Muster auffällig. Das ist kein Randphänomen mehr, sondern ein klares Signal, dass wissenschaftliche Qualitätssicherung nachschärfen muss. Für dich heißt das: Gerade bei medizinischen Studien solltest du Referenzen künftig noch konsequenter gegenprüfen. KI kann beim Schreiben helfen – aber offenbar auch beim sehr überzeugenden Schummeln.
Quelle: The Decoder

➗ AlphaProof Nexus löst alte Matheprobleme – für wenig Geld

Google DeepMind hat mit AlphaProof Nexus neun offene Erdős-Probleme autonom gelöst, darunter zwei Aufgaben, die seit 56 Jahren ungelöst waren. Bemerkenswert ist dabei nicht nur die Qualität der Ergebnisse, sondern auch die Effizienz: Die Inferenzkosten lagen pro Problem bei nur wenigen hundert Dollar. Der Haken: Die Erfolgsquote liegt mit rund 2,5 Prozent ziemlich niedrig. Das System versucht also sehr viel, scheitert oft – und trifft dann gelegentlich ziemlich spektakulär. Der eigentliche Fortschritt liegt in der Verifikation: Anders als rein sprachbasierte Ansätze prüft AlphaProof jeden Beweisschritt maschinell über den Lean-Compiler. Das ist ein wichtiger Unterschied, weil Mathematik nicht durch „klingt plausibel“ gewinnt, sondern durch überprüfbare Korrektheit. Für AI-Forschung ist das ein starkes Signal: Verifizierbare Systeme könnten in Bereichen mit harten Regeln deutlich robuster sein als generative „Alleskönner“.
Quelle: The Decoder

✅ Kleine LLMs werden formtreu – aber nicht unbedingt klüger

Eine neue Studie zu Schema-Constraints bei kleinen LLMs zeigt ein typisches KI-Dilemma: Wenn du Modelle stärker auf strukturierte Ausgaben zwingst, steigt die formale Validität – aber die inhaltliche Korrektheit kann darunter leiden. Übersetzt heißt das: JSON sieht schöner aus, ist aber nicht automatisch wahr. Gerade bei kleineren Modellen ist das relevant, weil Unternehmen sie gern für Extract-Tasks, Agenten-Workflows oder interne Tools einsetzen. Strikte Schemata helfen zwar bei Parsing, Datenbanken und Automatisierung, können aber auch dazu führen, dass das Modell lieber „irgendwas Passendes“ in die Form presst, statt sauber zu begründen. Für produktive Anwendungen ist das eine wichtige Lektion: Structured Output ist kein Ersatz für Verifikation. Du bekommst ein schöneres Paket – nur eben nicht garantiert den richtigen Inhalt.
Quelle: TechCrunch

⚖️ KI-Klagen bringen die US-Justiz unter Druck

Eine neue Studie des MIT und der University of Southern California zeigt, dass die Zahl der Klagen ohne Anwalt an US-Bundesgerichten seit der Verbreitung von ChatGPT fast doppelt so hoch ist wie zuvor. Gleichzeitig enthält inzwischen jede fünfte Klageschrift KI-generierten Text. Das klingt erstmal nach mehr Zugang zur Justiz – und genau darin liegt das Dilemma. Einerseits können Menschen ohne teure Rechtsberatung überhaupt erst Ansprüche geltend machen. Andererseits wächst die Masse an schlecht geprüften, teils fehlerhaften Eingaben so stark, dass Richter zu drastischen Maßnahmen greifen, um den Betrieb am Laufen zu halten. Für Legal Tech ist das ein echter Stresstest: KI demokratisiert den Zugang, erzeugt aber zugleich neue Reibung im System. Kurz: Mehr Eingaben, weniger Ruhe, und die Justiz muss plötzlich auch noch Prompt-Management lernen.
Quelle: The Decoder

🏛️ EU-Druck auf Google wegen DMA

Im EU-Regulierungsumfeld bleibt Google weiter unter Beobachtung. Berichten zufolge droht dem Konzern wegen möglicher Verstöße gegen den Digital Markets Act eine Rekordstrafe. Für die AI-Welt ist das relevant, weil Plattformregulierung und KI-Infrastruktur immer stärker ineinandergreifen: Suchmaschinen, App-Stores, Werbemärkte und Cloud-Ökosysteme sind genau die Schichten, auf denen viele KI-Produkte aufsetzen. Wenn die EU härter durchgreift, betrifft das nicht nur Google selbst, sondern auch die Startups und Teams, die ihre Distribution, Reichweite oder Datenzugänge an diese Plattformen koppeln. Die Kernfrage bleibt: Wie viel Macht darf ein Gatekeeper behalten, wenn immer mehr digitale Wertschöpfung an genau diesen Stellen hängt?
Quelle: heise online

🚗 Chinas Talentpolitik und der Kampf um KI-Fachkräfte

China verschärft offenbar die Ausreiseauflagen für KI-Talente aus Privatfirmen, um Fachkräfte im Land zu halten. Das ist mehr als nur ein Personalthema: In der globalen KI-Industrie wird Talent zunehmend als strategische Ressource behandelt – ähnlich wie Chips, Energie oder Cloud-Infrastruktur. Wenn hochqualifizierte Ingenieurinnen und Forscher nicht mehr so einfach international wechseln können, verändert das nicht nur Firmenkarrieren, sondern auch den Wissenstransfer zwischen Ökosystemen. Für westliche Unternehmen heißt das: Der Wettbewerb um Top-Leute wird noch politischer. Für China ist es der Versuch, Schlüsselkompetenzen im Land zu bündeln. Ein bisschen wie „Brain-Exportkontrolle“, nur ohne hübsches Label.
Quelle: heise online

🛠️ Tool-Tipp des Tages

Wenn du mit LLMs in produktiven Workflows arbeitest, lohnt sich ein Tool für strukturierte Outputs, Validierung und Schema-Checks. Gerade bei kleinen Modellen kann das den Unterschied machen zwischen „läuft meistens“ und „produktionsreif“. Suche dir ein Setup, das Antworten gegen JSON Schema, Typen und Regeln prüft, bevor sie weiterverarbeitet werden. #

Du willst keine News verpassen? Newsletter abonnieren