
➤Summary
Öffentliche Narrative verwechseln häufig tatsächliche Sicherheitsverletzungen mit aggregierten Sammlungen von Zugangsdaten, die aus Malware-Logs und historischen Vorfällen stammen. Anhand der 2025 erfolgten Ergänzungen durch „Synthient“ in Have I Been Pwned (HIBP) unterscheidet dieses Papier zwischen (a) Stealer-Log-Sammlungen (183 Millionen eindeutige E‑Mail‑Adressen, die HIBP hinzugefügt wurden) und (b) Credential‑Stuffing‑Kompilationen (≈2 Milliarden eindeutige E‑Mail‑Adressen und ≈1,3 Milliarden eindeutige Passwörter, die zu Pwned Passwords hinzugefügt wurden). Es wird gezeigt, wie Letztere in Medienberichten häufig als einzelne, zeitnahe „Mega‑Breaches“ fehlinterpretiert werden. Wir ordnen dieses Phänomen historisch (z. B. Collection #1 2019; die „MOAB“-Kompilation 2024), analysieren das Ökosystem von Stealer‑Logs und Aggregationen (Telegram, Foren, Darknet) und quantifizieren, wie „tägliche“ Open‑Source‑Funde Schlagzeilenwerte erreichen können. Abschließend wird ein Taxonomie‑ und Messrahmen für künftige Berichterstattung vorgeschlagen.
Im Oktober–November 2025 hat HIBP zwei unterschiedliche Synthient‑Datensätze aufgenommen:
Diese beiden Datensätze haben unterschiedliche Bedeutungen und Evidenzstufen. Dennoch fasste die Berichterstattung sie teilweise als einen einzigen „Riesendatenleck“-Vorfall zusammen, was zu Missverständnissen führte. Dieses Papier zeigt, warum Begriffsvermischung („Breach“ vs. „Collection“), Skalierungsinflation (Zeilen vs. eindeutige Einträge) und die Intransparenz des Ökosystems Lücken zwischen öffentlicher Wahrnehmung und empirischer Realität erzeugen.
Breach (Systemkompromittierung). Ein Ereignis, bei dem ein spezifischer Dienst, eine Organisation oder eine Plattform kompromittiert wurde, was zu unautorisiertem Zugriff auf deren Daten führt. Artefakte eines Breachs beinhalten typischerweise kohärente Tabellen, Metadaten und Kontext‑Signale, die die Daten mit dem kompromittierten Dienst und einem Zeitrahmen verknüpfen.
Stealer‑Log‑Sammlung. Eine Zusammenstellung von Zugangsdaten, die von Endpunkten durch Informations‑stahler‑Malware exfiltriert wurden. Diese Logs spiegeln befallene Geräte wider, nicht serverseitige Datenbanken; sie sind heterogen formatiert (Cookies, Sitzungsdaten, dienstspezifische Credentials) und werden von Aggregatoren weiterverbreitet.
Credential‑Stuffing‑Liste („Combo‑List“). Cross‑Site‑Kompilationen von E‑Mail:Passwort‑Paaren, die aus früheren Leaks und Stealer‑Dumps zusammengestellt wurden, mit dem Ziel automatisierter Wiederverwendung (Replay) gegen andere Dienste. Diese Listen sind kein Beleg für ein frisches serverseitiges Leck.
„Collection #1“ wurde weithin als „Mega‑Breach“ bezeichnet, doch die primäre Analyse betonte, dass es sich um eine große Aggregation für Credential‑Stuffing handelte: ~2,6 Milliarden Zeilen komprimierten sich nach Deduplizierung auf ~773 Millionen eindeutige E‑Mail‑Adressen und ~1,16 Milliarden eindeutige E‑Mail‑Passwort‑Paare. Medien‑Narrative vermischten wiederholt „Breach“ und „Collection“.
Berichte zitierten teilweise 26 Milliarden „Datensätze“, doch die Korpus war eine massive Mehrquellen‑Kompilation, kein einzelnes Ereignis. Die Zahlen banden heterogene Quellen und Zeiträume ein; Eindeutigkeit und Aktualität lagen weit unter den Schlagzeilenwerten.
HIBP nahm zwei verschiedene Synthient‑Datensätze auf: Stealer‑Logs (183 Mio. eindeutige E‑Mails) und eine separate Credential‑Stuffing‑Aggregation (2 Mrd. eindeutige E‑Mails). Einige Medien kondensierten dies fälschlich zu einem „Gmail‑Leak“ mit Millionen betroffener Google‑Konten; Google wies das zurück, da kein Plattform‑Breach vorlag.
Kanäle.
Akteure.
Datenfluss. Endpunkt‑Kompromittierung → Log‑Exfiltration → Private Verkäufe → Sekundärverkauf/Aggregation → Öffentliche „Combo“-Zirkulation → Archivierung/Indexierung durch Dritte (Forscher, TI‑Anbieter, HIBP). Je weiter entfernt von der Quelle, desto höher die Duplizierung und desto geringer die zeitliche Auflösung.
HIBP’s Eintrag dokumentiert eine kuratierte Ergänzung von 183 Mio. eindeutigen E‑Mail‑Adressen, die aus Infostealer‑Malware‑Logs stammten. Dies ist kein Plattform‑Breach, sondern ein multi‑quelliger Endpunkt‑Exfiltrationskorpus, normalisiert für Benachrichtigung.
Ein zweiter Synthient‑Eintrag konsolidiert ≈2 Mrd. eindeutige E‑Mail‑Adressen aus mehreren Quellen und trägt ≈1,3 Mrd. eindeutige Passwörter zu Pwned Passwords bei. Dieser Korpus stammt ausdrücklich aus früheren Leaks und für Replay‑Angriffe verwendeten Listen. Die beiden Datensätze sind zu unterscheiden und dürfen nicht vermischt werden.
Mehrere Artikel stellten beides irrtümlich als einen „Gmail‑Leak“ dar. Google betonte, dass kein solcher Plattform‑Breach stattgefunden habe; die Daten stammen aus verstreuten, teils historischen Quellen.
Ein wiederkehrendes Problem ist die Ambiguität der Einheit:
Forschungen zeigen, dass Credential‑Stuffing‑Korpora stark dupliziert und zeitlich heterogen sind, sodass „Milliarden von Datensätzen“ nach Normalisierung oft auf einige hundert Millionen eindeutige E‑Mails schrumpfen.
Darknetsearch.com stellte eine Datenprobe mit ~30 GB Plain‑Text‑Zugangsdaten im Format site:email:password bereit. Bei Stichproben vergleichbarer Zeilen (≈59 Bytes inkl. Newline) entsprechen 30 GB etwa ~545 Millionen Zeilen für diesen Tag:

Interpretation.
„Breach“ ist ein attention‑maximierendes Label. Aggregationen werden gern als „Mega‑Lecks“ umgedeutet, während methodische Vorbehalte (Duplikate, zeitliche Heterogenität) in Headlines vernachlässigt werden.
Die Lieferkette (Endpunkt‑Exfiltration → Verkauf → Aggregation → öffentliche Freigabe) ist komplex und absichtlich verschleiert. Journalisten und Öffentlichkeit sehen selten die Provenienz und die Dedupe‑Mathematik; deshalb werden Roh‑Zeilen oft für eindeutige Opfer gehalten.
Verkäufer und Aggregatoren profitieren von der Behauptung von Neuheit und Umfang; Forscher und Medien erhalten Sichtbarkeit durch große Zahlen. Strukturell entstehen so Verzerrungen zugunsten maximalistischer Behauptungen.
Die Harmonisierung heterogener Formate aus verschiedenen Stealer‑Familien ist technisch anspruchsvoll; exakte Deduplizierung erfordert robuste Normalisierung (z. B. Case‑Folding, Unicode‑NFKC, Parser‑Heuristiken). Akademische Arbeiten zu kompromittierten Anmeldeinformationen heben die hohe Wiederverwendungsrate und Recycling‑Effekte hervor.
Frisch / privat:
Semi‑öffentlich:
Öffentlich / Archiv:
Dieser Gradientenansatz erklärt, warum dieselbe Person wiederholt in Listen auftauchen kann, ohne dass es sich um neue Opfer handelt — es ist Re‑Packaging.
Synthient beschreibt in einem öffentlichen Blog eine Architektur mit multi‑account Telegram‑Crawlern, einem entkoppelten Downloader/Parser, Nachrichten/Attachment‑Korrelation und ClickHouse‑basierter Deduplizierung anhand von Datei‑Hashes. Das ist typisch für moderne TI‑Ingest‑Stacks, die auf mehreren Ebenen deduplizieren müssen, um aussagekräftige eindeutige Zählungen zu erhalten — genau der Grund, warum HIBP‑Kurationen von Roh‑„Milliarden“ abweichen.
Dieses Papier analysiert öffentliche Beschreibungen der Datensätze (HIBP‑Einträge, Anbieter‑Blogs, Presse) und beansprucht nicht, Rohdaten zu besitzen. Größenumrechnungen (z. B. 30 GB → ~545 M Zeilen) sind explizit als Schätzungen auf Basis der Stichproben‑Zeilenlänge gekennzeichnet; die tatsächliche Eindeutigkeit hängt von der angewandten Dedupe‑Methodik ab.
Die Diskrepanz zwischen Panik und Realität in der Berichterstattung über Zugangsdatenleaks ist primär ein Problem von Messung und Provenienz. Synthient’s 2025‑Beiträge zu HIBP — zwei unterschiedliche Datensätze mit unterschiedlicher Bedeutung — bieten ein klares Labor: Wenn wir Stealer‑Log‑Sammlungen von Credential‑Stuffing‑Kompilationen trennen und eindeutige Zählungen (statt Roh‑Zeilen) fordern, ändert sich die Narrative. Historische Fälle (Collection #1, MOAB) bestätigen: „Milliarden“ sind zumeist das Ergebnis von Aggregation über Zeit und Quellen, nicht ein frisches Plattform‑Breach. Eine gemeinsame Taxonomie — Breach vs. Collection, Rows vs. Uniques, und Aktualitätsklassen über Telegram, Darknet‑Marktplätze und öffentliche Spiegel — ermöglicht präzisere wissenschaftliche und journalistische Aussagen.
Discover how CISOs, SOC teams, and risk leaders use our platform to detect leaks, monitor the dark web, and prevent account takeover.
🚀Explore use cases →