Das Hauptziel eines Spammers besteht, neben dem Geldverdienen, darin, die Anti-Spam-Software der Enduser zu überlisten. In früheren Jahren bestanden die meisten Spam- oder Junk-Mails nur aus Text und es reichte, Filter aufzusetzen, die nach gewissen Stichworten filterten.
Bild: Gerd Altmann auf Pixabay.comHeute besteht Spam überwiegend aus polymorphen HTML-Mails mit eingebetteten Bildern und Links, welche alle Möglichkeiten auszuschöpfen versuchen, die Filtermechanismen moderner Anti-Spam-Software zu umgehen. Im Folgenden schauen wir uns einige der wichtigsten Anti-Spam-Technologien an:
Anti-Spam-Topologien
Wir unterscheiden zwischen drei Topologien für das Filtern von Spam:
Client
Anti-Spam-Software, die auf dem Client-Rechner installiert und konfiguriert wird, eignet sich für private Anwender zu Hause, für Firmen ist dieser Ansatz nicht geeignet.
Gateway
Unternehmen installieren die Anti-Spam-Software auf einem Gateway, zum Beispiel auf dem Antivirus-Gateway in der DMZ (Demilitarized Zone). Jede E-Mail, die für das Unternehmen empfangen wird, wird auf Spam und Viren untersucht, bevor sie zum internen Mailserver weitergeleitet wird.
ASP
Für Privatanwender zu Hause eignet sich auch der Application-Service-Provider-Ansatz: Jede ankommende E-Mail wird zum Anti-Spam-Provider umgeleitet, welcher diese zentral nach Spam filtert und dann ausliefert. Gewisse ASPs bieten diese Dienstleistung auch für Unternehmen an: Die MX-Records im DNS werden „umgebogen“ und die E-Mail wird über den ASP umgeleitet. Dieser Ansatz ist jedoch heikel, da jede einzelne, teils vertrauliche E-Mail durch ein externes Unternehmen geschleust wird.
Filtermechanismen
So kommen also bei fast allen Unternehmen Gateway-Lösungen zum Einsatz. Üblicherweise analysiert die Anti-Spam-Software ankommende E-Mails mit unterschiedlichen Techniken. Diese weisen der E-Mail eine Spam-Wahrscheinlichkeit auf einer Skala von zum Beispiel 0 bis 100 zu. E-Mails, welche etwa einen Wert von 80 oder höher erreichen, werden direkt gelöscht oder in Quarantäne gesetzt, während E-Mails mit einem Wert unter 50 normal ausgeliefert werden.
Der unsichere Bereich dazwischen, E-Mails mit Werten zwischen 50 und 80, wird mit „wahrscheinlich Spam“ markiert und ausgeliefert, damit der Benutzer entscheiden kann, was mit den E-Mails geschehen soll. Nachfolgend eine Auswahl der bis zu 20 unterschiedlichen Filtermechanismen, die einzelne Anti-Spam-Tools einsetzen:
Stichworte
E-Mails werden gescannt auf auffällige Stichworte in den unterschiedlichsten Schreibweisen wie V-i-a-g-r-a, P0rn, L0\/\/E$T etc.
Blacklists
E-Mails mit Absender von bekannten Spammern werden blockiert.
Diese Variante erhöht die Erkennungsrate nur minim, da kaum ein Spammer zweimal denselben Absender benutzt.
Real-time Blackhole Lists (RBL)
Hier wird die Absender-IP-Adresse mit einer Liste bekannter offener Mailrelays verglichen und allenfalls blockiert.
Directory Harvesting Attacks (DHA)
Um an neue Empfänger-E-Mail-Adressen zu kommen, wird auch das sogenannte DHA eingesetzt: Von A bis Z wird eine Unmenge an zufälligen Adresskombinationen an eine bestimmte Domain gesandt, zum Beispiel ameier@domain.ch, bmeier, cmeier etc. Einzelne Anti-Spam-Produkte erkennen auch solche Attacken.
Signatures
Ein Erfolg versprechender Ansatz ist das Vergleichen von ankommenden E-Mails mit einer Signature-Datenbank, um bekannte Spam-Mails zu blockieren. Diverse Hersteller von Anti-Spam-Software verfügen über eine Vielzahl von Honey-Pot-E-Mail-Adressen, welche als Spam-Sammelstelle dienen und automatisiert von einem zentralen System ausgelesen werden. Von ankommenden Spam-Mails wird eine Signature erstellt, die in die zentrale Signature-Datenbank gelangt und in regelmässigen Zeitabständen, z. B. alle 10 Minuten, von den Anti-Spam-Gateways abgefragt wird, ähnlich dem Update von Antiviren-Pattern.
Natürlich versuchen die Spammer, dieser Methode entgegenzuwirken: So werden beispielsweise an beliebigen Stellen in der E-Mail zufällige Buchstabenkombinationen wie ohgaxnbflw eingefügt, damit die Signature nicht mit den Werten in der Datenbank übereinstimmt und die E-Mail somit nicht als Spam erkannt wird. Oder aber es werden automatisiert in jeder Spam-E-Mail neue zufällige inkorrekte HTML-Tags eingebaut, welche von einem E-Mail-Client, da nicht dem HTML-Standard entsprechend, einfach nicht dargestellt werden. So wird beispielsweise aus V<TTT>IA<!T>GR<!M>A auf dem Bildschirm VIAGRA. Moderne Signature-Verfahren können jedoch auch solche Spams erkennen.
Bayesianische Methode
Diese statistische Methode wird hauptsächlich bei Client-Produkten eingesetzt. Während einer Lernphase wird dem Produkt manuell beigebracht, welche E-Mails Spam sind und welche erwünscht sind. Auf diese Weise lernt das Produkt dauernd dazu und verbessert die Erkennungsrate. Bei Gateway-Produkten kommt diese Variante seltener zum Einsatz, da keine Interaktion der Benutzer/-innen gewünscht ist.
Schlussfolgerung
Der Unterschied in der Effizienz der Produkte auf dem Markt ist enorm. Viele Produkte haben eine so hohe False-Positive-Rate (korrekte E-Mail, die irrtümlicherweise als Spam blockiert wird), dass von einem Einsatz dringend abzuraten ist: Unter keinen Umständen soll eine wichtige, geschäftliche E-Mail irrtümlicherweise blockiert oder gar gelöscht werden.
Verwendung mit freundlicher Genehmigung der AVANTEC AG, Zürich und Bern, avantec.ch