Tu Felix ūüá¶ūüáĻ

Internet in √Ėsterreich

Datum: 10. Mai 2023, Version: 1.1

Was ist eigentlich drin, ... im österreichischen Internet?
Wie groß? Wie viel? Was genau? Wo genau? Von wem?

Passend zum Staatsfeiertag, habe ich, 1.3 Millionen .at-Domains gesammelt, die zugehörigen IP-Adressen gesucht, wichtige Netzwerk-Ports gescannt, DNS Abfragen gemacht, die Startseiten abgerufen und HTML, HTTP Header und Cookies gespeichert. Insgesamt 56 Gigabyte an Daten. Danach wurde alles auf einen digitalen Haufen geworfen und ausgewertet was das Zeug hält. Das habe ich gefunden.

Diese Seite enth√§lt die Ergebnisse und eine √úbersicht √ľber das √∂sterreichische Internet (.at-Domains only), und zus√§tzlich die Quellen und Methoden, die man anwenden kann, um Informationen aus √∂ffentlichen Daten zu gewinnen. Wer mehr √ľber zuk√ľnftige Kunden, m√∂gliche Partner und hartn√§ckige Konkurrenten erfahren will, muss oft nur wissen, wo und wie man im Internet danach sucht.

Wikipedia: Mit der Wendung Tu felix Austria wird den √Ėsterreichern eine besonders gl√ľckliche Veranlagung oder Lebensart nachgesagt. Erstmals benutzt wurde die Wendung vermutlich 1364 von Herzog Rudolf IV. in seinen Siegeln...

Huhn oder Ei? Wo f√§ngt man am besten an? Es gibt mehrere m√∂gliche Startpunkte. Am vielversprechendsten erschienen mir die .at-Domains. M√∂glich w√§ren auch √∂sterreichische IP-Adressen gewesen, das h√§tte allerdings zu viel schlechteren Ergebnissen gef√ľhrt, wie man im Abschnitt IP-Adressen sehen wird.

Wie? Das √∂sterreichische Internet? Was ist mit √∂sterreichischen Webseiten die .com, .net, .org und andere generic Top-Level-Domains verwenden? Es stimmt, dass hier nur einen Ausschnitt betrachtet wurde. Nichtsdestotrotz sind .at-Domains sehr beliebt und werden von vielen Unternehmen und Privatpersonen genutzt. Herauszufinden welche anderen Domains nach √Ėsterreich geh√∂ren, ist dann ein Projekt f√ľr einen anderen Tag.

√úbersicht und TL;DR

Too long; didn't read! Wer keine Zeit hat, sich alles anzusehen, hier eine kurze √úbersicht √ľber die Abschnitte und die Key-Findings aus den jeweiligen Bereichen.

Domainnamen

Inhalt: Welche Domains gibt es in √Ėsterreich? Wie findet man Domains? Welche Domains sind wichtig und was kann man aus Domains noch ablesen?

  • Derzeit keine .at-Domains mit 1 oder 2 Zeichen verf√ľgbar (nur or.at oder co.at)
  • Nur 5.000 Domains sind l√§nger als 30 Zeichen
  • Umlaut-Domains (IDN) werden kaum benutzt (2.1% sind IDNs)
  • Laut TOP-Listen sind: orf.at, google.at, willhaben.at die wichtigsten Domains
  • 460.000 Domains enthalten Bindestriche
  • Viele Domains enthalten: Orte, Branchen und Bindew√∂rter
  • .priv.at Domains werden kaum genutzt (294 .priv.at Domains gefunden)

IP-Adressen

Inhalt: Was sind IP-Adressen? Wie findet man IP-Adressen raus? Wo sind die Standorte der Adressen und welche IP ist f√ľr welche Domains zust√§ndig?

  • 205.572 Domains (15,6 %) sind keiner IP zugeordnet (kein A-Record)
  • Die 1,3 Mio. .at-Domains zeigen auf 112.162 unterschiedliche IP-Adressen
  • Eine IP-Adresse ist f√ľr 27.802 .at-Domains zust√§ndig
  • IP-Adressen aus 95 unterschiedlichen L√§ndern. 52.931 IPs in Deutschland

Netzwerk Ports

Inhalt: Was sind Netzwerk Ports? Wie kann man sie scannen? Welche IP-Adressen haben welche Ports offen und welche Erkenntnisse kann man daraus ableiten?

  • 95.717 der IPs (85 %) haben einen Shodan-DB-Eintrag
  • 42 % der IP-Adressen haben weniger als 5 Ports offen
  • 1.298 unterschiedliche Port-Nummern wurden gefunden
  • 88 % der .at-Webseiten sind auf HTTPs und HTTP erreichbar
  • Von 22.000 offenen DB-Ports sind 18.091 MySQL

DNS Einträge

Inhalt: Welche DNS-Eintr√§ge gibt es und was kann man daraus ablesen? Welche Domains k√∂nnen √ľberhaupt funktionieren? Welche Technologien (Mail-Anbieter, Service-Desk, Marketing-Tags, ...) und Cloud-Anbieter werden oft benutzt? Welche Mail-Anbieter sind die gr√∂√üten?

  • 6.288.955 DNS-Eintr√§ge insgesamt
  • 853.055 Domains haben NS, A und SOA Eintrag
  • IPv6 AAAA-Eintr√§ge wurden bei 131.592 Domains gefunden
  • 741.491 Domains haben min. einen MX-Eintrag und k√∂nnen Mails empfangen
  • √úber 450k Domains verwenden nur einen MX-Eintrag
  • Produkte von √ľber 70 Herstellern k√∂nnen einfach am TXT-Eintrag erkannt werden
  • SPF bei 380.332 Domains zu finden. DMARC wird nur bei 752 Domains verwendet

HTTP Header & Cookies

Inhalt: Was sind HTTP Header? Was kann man aus Headern ablesen? Was sind oft verwendete Header? Wie oft werden Webseiten upgedated? Wer verwendet noch Cookies?

  • Top 3 Webserver laut Header sind: Apache, Nginx und OpenResty
  • Nur 22.8 % der Webseiten sendet einen X-Powered-By Header
  • 72.292 Webseiten sind mit PHP entwickelt laut X-Powered-By Header
  • Nicht mal 1 % der Webseiten verwendet Content Security Policy (CSP)
  • 138.221 Websites haben Date & Last-Modified Header. 34 % davon haben 2 Jahre kein Update bekommen
  • 29.4 % der Webseiten setzen Cookies beim Aufruf der Startseite

HTML Inhalte

Inhalt: Was ist HTML? Was kann man in HTML finden? Wie groß ist das HTML? Welche Tags werden oft benutzt? Welche Inhalte werden von Extern eingebunden? Wie SEO-optimiert sind die Seiten? Wer hat Microformate eingebunden? Auswertungen zu Inbound/Outbound Links. Wer verwendet Bilder und welche?

  • 578.385 Startseiten lieferten einen HTML-Inhalt
  • Gr√∂√ütes gefundenes HTML hat knapp √ľber 30 MB
  • 50 % der HTMLs waren zwischen 1 und 50 KB gro√ü
  • <div> ist mit 78 Mio. das meistgenutzte Tag
  • Nur 6.9 % der Webseiten sind fehlerlos. 84.1 % haben Warnings und 9 % liefern Fehler
  • Nur 21,7 % haben Doctype, Title, Description, H1 und min. einen Link im HTML
  • Die Top 3 Domains mit den meisten verlinkenden Domains sind herold.at, google.at und wko.at
  • 489.633 Seiten haben <img>-Tags. 27.377 Bilder auf einer Seite ist das Maximum

Website Inhalte

Inhalt: Wer hat ein Impressum? Welche Sprachen werden auf Webseiten benutzt?

  • Der Inhalt von 29 % der Webseiten besteht aus weniger als 100 W√∂rter
  • Auf 64,53 % der Webseiten konnten die Worte "Impressum" oder "Imprint" gefunden werden
  • 70 % der Webseiten sind auf Deutsch und 8,5 % auf Englisch

Domains (.at)

Alles beginnt mit einer Domain. Eine Adresse die man in einen Browser eingeben kann, und die uns, im besten Fall, zu einer schnellen, sch√∂nen, gut gemachten Webseite mit super Inhalten f√ľhrt. Eine vollst√§ndige Domain wird als Fully Qualified Domain Name (FQDN) bezeichnet.

Web-Adressen, die auch URLs (Uniform Resource Locator) genannt werden, beginnen mit dem Protokoll (zB.: http://), danach kommt keine, eine oder mehrere Subdomains (zB.: www) und dann kommt der Domainname und die Top-Level-Domain (TLD). Alles getrennt durch Punkte. Der Domainname ist meistens eine Second-Level-Domain (SLD).

Die l√§nderspezifische Top-Level-Domain (ccTLD) f√ľr √Ėsterreich lautet "at". Nicht jede Website die in √Ėsterreich gehostet wird, oder sich an Menschen in √Ėsterreich richtet, muss eine .at-Domain haben. Es sind jedoch viele. 1.5 Mio. laut offizieller nic.at Statistik vom April 2023.

Einfache URL Beispiele
Protokoll Subdomain Domain (Second-Level-Domain) Top-Level-Domain
https:// orf at
https:// tvthek orf at

nic.at ist das Unternehmen, dass f√ľr die Vergabe und die Verwaltung der .at-Domains zust√§ndig ist. Zus√§tzlich zur .at-TLD k√∂nnen .co.at und .or.at Domains registriert werden. Das "co" steht f√ľr "Commercial" und "or" f√ľr "Organisation". Diese SLDs sind das Equivalent zu den internationalen Vorbildern .com und .org. Die beiden SLDs sind bei weitem nicht so beliebt wie die .at-Domains. Laut Statistik wurden bis jetzt 33.000 .co.at Domains registriert und nur 8.000 .or.at Domains.

Second-Level-Domains and Public Suffixes

Es gibt noch einige weitere Second-Level-Domains die allerdings nicht direkt von der nic.at verwaltet werden. Die .gv.at ist f√ľr staatliche Stellen gedacht und wird vom Bundesministerium f√ľr Finanzen (siehe Dom√§nenverwaltung "GV.AT") verwaltet. F√ľr wissenschaftliche Institutionen gibt es .ac.at die von der Universit√§t Wien (siehe ACOnet) vergeben bzw. verwaltet werden.

URL Beispiele mit TLD und Public Suffix
Protokoll Subdomain Domainname Public Suffix + TLD
https:// help gv.at
https:// augustin or.at
https:// www univie ac.at

Ausserdem gibt es noch SLDs die von privaten Unternehmen oder Vereinen betrieben werden. Diese Domains werden in Browsern oft als TLDs behandelt (zB.: bei Cookies und in der Adresszeile) und darum f√ľhrt die gemeinn√ľtzige Organisation Mozilla eine Liste in die sich Betreiber eintragen k√∂nnen.

F√ľr .at sind derzeit 19 SLDs in der Mozilla Public Suffixes List eingetragen:

priv.at, sth.ac.at, wien.funkfeuer.at, *.futurecms.at, *.ex.futurecms.at, *.in.futurecms.at, futurehosting.at, futuremailing.at, blogspot.co.at, biz.at, info.at, 123webseite.at, myspreadshop.at, 12hp.at, 2ix.at, 4lima.at, lima-city.at, *.ex.ortsinfo.at, *.kunden.ortsinfo.at

Die folgenden Auswertungen beziehen sich auf die offiziellen f√ľnf TLD/SLDs (at, or.at, co.at, gv.at, ac.at). Auswertungen f√ľr andere SLDs findet man in speziellen Abschnitten (zB.: priv.at).

Details: Domains mit crwlrsoft/url parsen

Mit dem Github Package crwlrsoft/url von crwl.io kann man einfach Domains bzw. URLs parsen und es werden die public suffixes ber√ľcksichtigt und IDNs unterst√ľtzt.

use Crwlr\Url\Url;

$url = Url::parse('https://www.domain.gv.at');
var_dump($url->domainSuffix());

Daten Quellen und Recherche

F√ľr .at-Domains gibt es keine ver√∂ffentlichte Gesamtliste aller Domains so wie f√ľr andere TLDs (Schweden, Schweiz, Centralized Zone Data Service). Darum muss man sich aus unterschiedlichen Quellen selber eine m√∂glichst umfangreiche Liste erstellen. F√ľr Domainlisten gibt es sowohl kommerzielle Anbieter als auch Open Source Projekte. Zus√§tzlich habe ich unterschiedliche Methoden verwendet um auf Suchergebnissen und √∂ffentlichen Log-Dateien weitere Domains zu finden.

F√ľr .ac.at und .gv.at habe ich Anfragen bei den verantwortlichen Stellen nach einer Gesamtliste gestellt. Diese Anfragen wurden mit der Begr√ľndung nach Datenschutz abgelehnt. Von wem werden da bitte Daten gesch√ľtzt? Egal.

Eine gute Quelle f√ľr neue Domains sind die "Certificate Transparency Logs". CT Logs k√∂nnen √∂ffentlich eingesehen werden und sind eigentlich daf√ľr gedacht, um mehr Transparenz in die Vergabe von Sicherheitszertifikaten zu bringen. Da heutzutage fast alle Webseiten auf HTTPs ausgeliefert werden, braucht jede dieser Webseiten ein Zertifikat, dass dann in diesen Logs zu finden ist.

at co.at or.at gv.at ac.at
nic.at Statistik [1] 1.458.656 33.773 7.841 unbekannt unbekannt
domainsproject.org 954.141 13.761 2.928 1.239 1.261
ViewDNS.info 1.187.203 28.454 6.492 1.689 1.397
domains-monitor.com 462.553 8.094 1.717 1.023 1.054
staedtebund.gv.at [2] 2.106
bing Web Search API [3] 134 109
Short Domain Checker [4] 19.697 402 176
Cert Transparency (CT) Log Monitoring [5] 18.659 294 69 55 70
DMOZ Export (2016) [6] 17.884 426 141 228 174

Quellen:

Wenn man alle Quellen kombiniert, erhält man Zahlen, die schon ganz gut an die öffentlichen Statistiken von nic.at heranreichen. 100%ig ist kaum zu schaffen, weil ständig neue Domains registriert werden und viele einfach unbekannt bleiben, wenn nichts damit gemacht wird.

Egal. Ich arbeite mit dem was ich habe.
1.317.549 .at-Domains.

at 1.277.059
co.at 29.458
or.at 6.770
gv.at 2.794
ac.at 1.468
Total 1.317.549

Lange Domains

Die l√§ngsten Domains die ich gefunden habe, sind 63 Zeichen lang. Das liegt relativ sicher an der Zeigenbeschr√§nkung auf 63 Zeichen zwischen zwei Punkten (label length restriction). Ansonsten w√ľrden Menschen sicher noch mehr Keywords in die Domain packen oder Bl√∂dsinn damit anstellen. Ich habe sieben .at-Domains mit 63 Zeichen gefunden.

Die zzzz...-Domain existiert f√ľr ac.at ebenfalls und w√§re damit die l√§ngste Domain wenn man die f√ľnf Zeichen der TLD dazuz√§hlt. Diese Domain scheint eine Test-Domain der Universit√§t Wien zu sein und liefert derzeit keinen Web-Content (HTTP/HTTPs) aus.

Side note: Ich habe Chat-GPT (3.5-turbo) nach der l√§ngsten bekannten .at-Domain befragt und die KI war sich ziemlich sicher, dass es: donau-dampfschiffahrtselektrizit√§tenhauptbetriebswerkbauunterbeamtengesellschaft.at sein muss. Ich kann das allerdings nicht nachpr√ľfen bzw. verstehen. Diese Domain widerspricht den Regeln von nic.at (siehe nic.at Registration Guidelines und dem Standard (RFC) und kann eigentlich nie existiert haben.

Die neue Version GPT-4 gibt die richtige Antwort, dass die l√§ngste Domain 63 Zeichen lang ist. Kennt jedoch keine spezifische Domain dieser L√§nge. KI kann doch noch nicht alle unsere Probleme l√∂sen ūüėú

Kurze Domains. Eins, Zwei, ...

Seit dem Jahr 2016 ist die minimale L√§nge einer .at-Domain genau ein Zeichen (Buchstabe oder Nummer). Vor 2016 mussten Domains mindestens drei Zeichen lang sein. Derzeit sind alle .at-Domains mit ein oder zwei Zeichen vergeben. F√ľr .co.at oder .or.at sind jedoch noch Tausende solcher Domains zu haben.

L√§nge TLD Verf√ľgbar Beispiele
1 .at 0
1 .co.at 0
1 .or.at 6 q.or.at, 4.or.at, 7.or.at
2 .at 0
2 .co.at 928 00.co.at, 11.co.at, gg.co.at
2 .or.at 1148 zz.or.at, yy.or.at, kk.or.at

"Drei hob i gsogt!": Die k√ľrzesten, derzeit verf√ľgbaren .at-Domains sind drei Zeichen lang. Derzeit sind noch mehr als 30.000 verf√ľgbar. Also zirka 40% aller 3 Zeichen .at-Domains sind registriert. Einige Beispiele f√ľr verf√ľgbare Domains sind: 003.at, 00a.at, k8n.at, zuc.at, 8-j.at.

3 Zeichen .at-Domains

Erg√§nzung: Domainverf√ľgbarkeit pr√ľfen

Eine Domain ist dann verf√ľgbar wenn nic.at sagt sie ist es. Vielfache Whois-Anfragen sind allerdings bei nic.at nicht m√∂glich, weil dann die eigene IP relativ schnell gesperrt wird.

Um eine gro√üe Anzahl von Domains zu pr√ľfen, k√∂nnte man auf Reseller zur√ľckgreifen. Ich habe allerdings DNS-Anfragen gestellt und gesehen, dass alle verf√ľgbaren Domains folgende Antwort liefern ...

% dig j-8.at +noadditional +noquestion +nocomments +nocmd +nostats SOA
at.                     10562   IN      SOA     dns.nic.at. domain-admin.univie.ac.at. 1680930002 10800 3600 604800 10800

* Domains mit "pendingDelete"-Status liefern √ľbrigens ebenfalls diese Antwort. Davon scheint es allerdings sehr wenige zu geben und den Status bekommt man nur mittels Whois-Anfrage heraus.

Eine registrierte Domain hat NS-Einträge und auch einen anderen SOA-Eintrag.

% dig nic.at +noadditional +noquestion +nocomments +nocmd +nostats SOA
nic.at.                 905     IN      SOA     ns1.nic.at. domain-admin.univie.ac.at. 2023043280 3600 1800 1209600 900
nic.at.                 900     IN      NS      ns1.nic.at.

Längenverteilung: Long Tail.

Die Längenverteilung ist eine klassische positiv-verschobene Glockenkurve. Mehr als 50% der gefundenen Domainnamen sind zwischen 7 und 14 Zeichen lang. Nur knapp 5.000 Domains sind länger als 30 Zeichen.

.at-Domains - Längenverteilung

Nat√ľrlich wollen wir jetzt alle wissen wie solche langen Domains aussehen k√∂nnen. Hier einige Beispiele die derzeit registriert sind, aber keinen Inhalt ausliefern.

  • zwinger-of-white-beautys-vom-klostertal.at
  • hier-k√∂nnte-ihre-werbung-stehen.at
  • therapiebegleit-besuchshunde-steiermark.at
  • deutsche-doggen-of-castle-jaidhof.at
  • unterbodenschutzundhohlraumversiegelung.at
  • professionelle-homepage-erstellen-lassen.at
  • entruempelungundraeumungwienundumgebung.at

ūü§∑

Internationale Domains (IDN)

Internationale Domain Namen (IDN) sind Domains die andere Zeichen als a-z, 0-9 oder Bindestrich enthalten (oder Nicht-ASCII-Zeichen). Zum Beispiel die deutschen Umlaute (√§, √∂, √ľ). Darum werden sie oft als Umlautdomains bezeichnet. Solche IDNs gibt es erst seit 2004 und bis April 2023 wurden laut nic.at Statistik knapp 36.000 davon registriert.

IDNs werden normalerweise als Punycode gespeichert und verarbeitet. Punycode ist ein Encoding-System bei dem die Sonderzeichen durch ASCII-Zeichen kodiert an das Ende der Domain angehängt werden. Benutzer sehen im normalen Leben keinen Punycode, weil die Umwandlung durch Browser und Server im Hintergrund passiert.

Punycode Domains fangen mit xn-- an und haben am Ende dann nochmal einen Bindestrich und eine Zeichen die die kodierten Sonderzeichen darstellen. Zum Beispiel wird aus österreich.at dann xn--sterreich-z7a.at

Es sind noch einige kurze Umlautdomains verf√ľgbar: √∂.or.at, √ľ.or.at, √§.or.at, √ľ.co.at, √§.co.at. "√ü" (scharfes S) wird √ľbrigens bei .at-Domains nicht unterst√ľtzt.

Im benutzten Datenset sind 2,1% IDNs enthalten.

% IDN Domains

IDNs k√∂nnen f√ľr b√∂se Dinge benutzt werden. Durch die Verwendung bestimmter Sonderzeichen wird versucht Benutzer zu t√§uschen und darum war ich neugierig welche Sonderzeichen au√üer der deutschen Umlaute in .at-Domains verwendet werden.

Ich habe 159 .at-IDN gefunden die andere Zeichen als Umlaute enthalten. Zum Beispiel: √ß, √ę, √≥ or √©. Auf den ersten Blick nichts Aufregendes dabei. Interessant sind vielleicht √≠mmowelt.at and √¨mmowelt.at die auf immowelt.at weiterleitet. Hier wurde offensichtlich pro-aktiv vom Unternehmen schon verhindert, dass Andere solche irref√ľhrenden Domains registrieren.

  • Varianten von ren√©, cr√™pes, caf√© oder caff√®
  • Kurze Domains: √†, √•, √¶, ...
  • Markennamen: herm√®s.at, pok√©mon.at, lor√©al.at, cr√©ditsuisse.at, nestl√©.at, ...

VIPs der .at-Domains

Es gibt einige TOP-Listen von unterschiedlichen Anbietern. Am bekanntesten ist (war) wahrscheinlich die Alexa Ranking Liste (hat nichts mit dem KI-Assistenten von Amazon zu tun). Allerdings hat Amazon dieses Unternehmen gekauft und die Alexa-Seite ist nicht mehr aufrufbar. Derzeit ist die Domain-Liste noch verf√ľgbar. Das wird sich sicherlich bald √§ndern.

Die Ranking-Verfahren unterscheiden sich etwas. Im Allgemeinen wird entweder eine Form von PageRank-Algorithmus angewendet. Dieser Algorithmus bewertet die Popularität einer Website durch das Zählen von verweisenden Seiten (Inbound-Link): Je mehr andere Seiten auf eine Seite verlinken, desto weiter oben ist man in der Liste.

Andere TOP-Listen verwenden Traffic als Messgr√∂√üe der durch Messpixel (√ĖWA) oder Browser-Extensions (Netcraft) gemessen wird.

Die Ergebnisse sind, ich sag mal, ... "okay". Wie man in der nachfolgenden Tabelle sieht, sind einige falsche und einige fragw√ľrdige Eintr√§ge dabei. Zum Beispiel f√ľhrt Majestic die "Eigentlich"-TLDs gv.at und or.at in den Top 10. Dann sind da teilweise Seiten in der Liste, von denen ich noch nie geh√∂rt habe. Bei der √ĖWA sind nur Seiten enthalten, die sich freiwillig messen lassen wollen (und daf√ľr bezahlen).

Tranco ist ein Project, dass von mehreren Wissenschaftlern ins Leben gerufen wurde und mehrere Quellen aggregiert und mathematisch fancy gewichtet. Sie nennen es: "A Research-Oriented Top Sites Ranking Hardened Against Manipulation" ... Okay. entscheidet selber!

Die Tabelle unten zeigt die April 2023 Daten der jeweiligen Quelle. Bereinigt auf Top-Level-Domains die auf .at enden, falls in der Liste andere TLDs vorkommen (wegen Vergleichbarkeit).

Achtung: Tabelle vertical scrollbar.

Platz* Majestic [1] Alexa Cisco [2] Netcraft [3] Tranco [4] √ĖWA** [5] Similarweb [6] Overall*
1 (10) gv.at orf.at ad4m.at orf.at univie.ac.at orf.at orf.at orf.at (59)
2 (9) google.at derstandard.at google.at bergfex.at orf.at willhaben.at google.at google.at (41)
3 (8) kriesi.at krone.at optadata.at willhaben.at google.at krone.at krone.at willhaben.at (36)
4 (7) univie.ac.at willhaben.at gmx.at harryahamer.at derstandard.at heute.at willhaben.at derstandard.at (33)
5 (6) orf.at google.at waust.at geizhals.at kriesi.at derstandard.at heute.at krone.at (28)
6 (5) shorturl.at hurawatch.at willhaben.at bawag.at shorturl.at meinbezirk.at derstandard.at univie.ac.at (19)
7 (4) or.at shorturl.at orf.at karriere.at krone.at kurier.at oe24.at heute.at (16)
8 (3) derstandard.at heute.at derstandard.at raiffeisen.at world4you.at gmx.at gmx.at kriesi.at, shorturl.at (14)
9 (2) tuwien.ac.at toon.at interspar.at univie.ac.at tuwien.ac.at oe24.at kleinezeitung.at
10 (1) wko.at oe24.at post.at c3w.at wien.gv.at kleinezeitung.at bergfex.at gmx.at (13)

* In der letzten Spalte wurden von mir die Ergebnisse der Tabelle (nicht-)wissenschaftlich gezählt und je öfter unt weiter oben die Seiten in der Tabelle vorkommen, desto höher ist der Score (in Klammer) und Platzierung in der Spalte.

** Die Daten der √ĖWA sind vom Februar 2023 und nach Unique User auf Einzelangebot sortiert.

Quellen:

  • [1] Majestic 1 Mio - "Die Million Domains mit den meisten verweisenden Subnetzen"
  • [2] Cisco Umbrella List - "Most queried domains based on passive DNS usage"
  • [3] Netcraft (AT) - "Most Visited Websites in Austria"
  • [4] Tranco - "A Research-Oriented Top Sites Ranking Hardened Against Manipulation"
  • [5] √ĖWA - "√Ėsterreichische Webanalyse"
  • [6] similarweb - "Top Websites in Austria"

Domain Inhalte und Teile

Domains d√ľrfen Bindestriche enthalten, nur nicht am Anfang oder Ende. Dadurch werden Domains l√§nger aber besser lesbar. Wenn man Domains an den Bindestrichen teilt, bekommt man eine gute √úbersicht √ľber die einzelen Worte bzw. Wortarten die in Domains verwendet werden.

  • Bindew√∂rter oder Prefixe: my, e, mein, in, und, die, der, ...
  • Branchen: elektro, bau, service, it, immobilien, psychotherapie, ...
  • √Ėrtlichkeiten: linz, graz, tirol, salzburg, vienna, austria, a, ...

Es gibt gut 460.000 Domains die Bindestriche enthalten und das Teilen erzeugt eine Liste von 157.000 unterschiedlichen Wörtern. Ich habe die Top 10.000 Keywords mit mehr als 3 Zeichen verwendet um damit wiederum in den anderen Domains zu suchen. So findet man Keywords, die ohne teilenden Bindestrich in Domains vorkommen.

Keywords in Domains (>3 Zeichen)

Andere Domain-Teile: Je nachdem wonach man auf der Suche ist, kann man aus Domainnamen schon einiges ableiten. Einige Beispiele an Auswertungen aus den Domain-Daten.

Domains mit Jahreszahlen

Top Locations in Domains

Domains aus dem Gesundheitsbereich

Domains mit Prefix

Domains mit Vornamen

Domains aus dem Hospitality-Bereich

priv.at Domains. Der Privatière der Domains.

Die .priv.at-Domains eine spezielle Domain f√ľr Privatpersonen die vom Verein VIBE!AT (Verein f√ľr Internet-Benutzer √Ėsterreichs) vergeben werden.

Um eine .priv.at-Domain zu bekommen, muss man eine Privatperson sein und sich in √Ėsterreich aufhalten. Der Domainname kann anscheinend ziemlich frei gew√§hlt werden, solange er nicht eingetragene Rechte verletzt. Die Registrierung eine .priv.at-Domain ist kostenlos.

Im Datensatz finden sich 294 .priv.at Domains. Die meisten sind Vornamen, Nachnamen oder Spitznamen. Das nic.priv.at Whois-Formular zeigt f√ľr viele Domains noch die vollen personenbezogenen Daten der Eigent√ľmer:in ūü§®.

IP-Adressen

Eine IP-Adresse ist eine Nummer die ein Gerät in einem Netzwerk eindeutig identifiziert. Dadurch können Geräte miteinander kommunizieren. Am gebräuchlichsten sind immer noch IPv4 Adressen und jeder der schon mal einen Internet-Router daheim in Betrieb genommen hat, weiß wahrscheinlich wie IP-Adressen aussehen. So zirka: 192.168.0.1

Webseiten haben ebenfalls eine IP-Adresse, bzw. die Server auf denen diese Webseiten gehostet werden. Wenn man die .at-Domains zu den IP-Adressen zur√ľckverfolgt sieht man, dass 205.572 Domains (15,6 Prozent) derzeit keiner IP-Adresse zugeordnet sind.

% Domains mit/ohne IP

Domainname ūüĎČ IP-Adresse

Nicht jede Webseite braucht genau eine eindeutige IP-Adresse. Es ist m√∂glich, dass viele Domains auf eine IP-Adresse zeigen und der Server alle diese Webseiten ausliefert. Die Adresse k√∂nnte auch ein Loadbalancer sein, hinter dem sich ein ganzes Netzwerk versteckt. Dieses Netzwerk kann wiederum f√ľr viele Domains verantwortlich sein.

Details: IP-Adresse zu Domain

A-Einträge mit dig herausfinden.

% dig +noall +answer orf.at A
orf.at.                 21481   IN      A       194.232.104.140
orf.at.                 21481   IN      A       194.232.104.139
...
orf.at.                 21481   IN      A       194.232.104.149

A-Einträge mit nslookup herausfinden.

% nslookup orf.at
Server:         192.168.50.1
Address:        192.168.50.1#53

Non-authoritative answer:
Name:   orf.at
Address: 194.232.104.3
...
Name:   orf.at
Address: 194.232.104.141

IP-Adresse mit ping bekommen

% ping orf.at
PING orf.at (194.232.104.3): 56 data bytes
64 bytes from 194.232.104.3: icmp_seq=0 ttl=54 time=25.222 ms

Die 1,3 Millionen .at-Domains f√ľhren zu einer von 112.162 IP-Adressen, also es w√§ren dann eine IP pro 10 Webseiten im Durchschnitt. Dieser Durchschnitt ergibt sich allerdings durch wenige IPs die f√ľr viele tausend Domains zust√§ndig sind. Diese IPs geh√∂ren gro√üen Hosting-Unternehmen (zB.: World4You, Host Europe, ...) oder Domain-Parking-Services (zB.: Sedo).

Anzahl Domains pro IP-Adresse

Spitzenreiter ist hier die IP-Adresse 81.19.154.98 von World4You die f√ľr 27.802 .at-Domainnamen zust√§ndig ist. Wenn man die IP oder die jeweiligen Webseiten aufruft, dann sieht man schnell warum das so ist. Entweder man wird gleich auf eine andere Domain weitergeleitet (Domain Redirect Service) oder man kommt auf eine Domain-Parking Seite.

Who is Who? Autonomous System Number (ASN)

Wie wei√ü man eigentlich, wer f√ľr eine IP zust√§ndig ist? Um das herauszufinden, gibt es mehrere Wege: Einiges sieht man im DNS PTR-Eintrag. Das ist quasi das Gegenst√ľck zum A-Eintrag und stellt die R√ľckverkn√ľpfung von IP zu Domainnamen her. Die Anfrage wird mit IP gestellt und man bekommt einen Hostnamen zur√ľck.

Details: PTR lookup mit dig
% dig +noadditional +noquestion +nocomments +nocmd +nostats -x 142.251.37.3
3.37.251.142.in-addr.arpa. 26701 IN     PTR     muc11s23-in-f3.1e100.net.

Der leichte und schnelle Weg ist es eine IP/Geo-Location Datenbank zu benutzen, wie die Maxmind GeoLite DB. Solche Datenbanken enthalten viele IP-Adressen und die dazugeh√∂rigen Organisationen die √ľber ASN (Autonomous System Number) identifiziert werden k√∂nnen.

Details: IP Lookup mit PHP and GeoLite2
# composer require geoip2/geoip2

require 'vendor/autoload.php';

use GeoIp2\Database\Reader;

// Confused? The "City"-DB contains also countries
$reader = new Reader('/usr/local/share/GeoIP/GeoIP2-City.mmdb');
$record = $reader->city('128.101.101.101');

var_dump($record->country->name);

Die Top-10 der verantwortlichen Organisationen nach ASN (Autonomous System Number) befinden sich großteils in Deutschland und sind große Hosting-Unternehmen wie Hetzner, Host Europe, IONOS oder auch Amazon. Ein Spezialfall ist Cloudflare die ein großes internationales Netzwerk im Bereich Sicherheit und Performance betreiben und das bereits 6.832 IP-Adressen (mit Relation zu .at-Domains) umfasst.

IPs nach ASN (Organisation)

IP-Blöcke auswerten

Wenn man die Anzahl von IPs und Domains auf /24-IP-Blöcke betrachtet sieht man, dass manche Hoster ihre Domains auf mehrere Blöcke und IPs verteilen und andere wiederum sehr viele Domains auf einem Block mit ganz wenigen IPs hosten.

Ein IPv4 /24-IP-Block ist der Adressbereich von 1 bis 254 auf der letzten Stelle der IP-Adresse. Also zum Beispiel von 81.19.159.1 bis 81.19.159.254. In den nächsten zwei Charts sieht man die TOP-10 Blöcke mit den meisten Domains und wie viele IP-Adressen innerhalb des Blocks verwendet wurden.

Anzahl IPs mit Domains in /24 IP-Blöcken

Die Top-3 Blöcke hosten ähnlich viele Domains (41- bis 46-tausend). IONOS verteilt diese Domains auf den gesamten Block (254 IP-Adressen) und World4You nutzt nur gut die Hälfte der IP-Adressen in einem Block, verwendet aber mehrere Blöcke.

Anzahl Domains in /24 IP-Blöcken

Was k√∂nnte man mit IP-Bl√∂cken noch weitermachen? Bei IP-Bl√∂cken in denen nur manche Adressen verwendet werden, ist nat√ľrlich die Frage, was ist auf den anderen Adressen zu finden? Entweder die werden nicht genutzt, oder enthalten Systeme und Domains, die noch nicht entdeckt wurden.

Nachfolgend ein anonymisiertes Beispiel eines IP-Block-Scans auf IP-Adressen die noch nicht im Datensatz vorkommen. Es wird ein Netzwerk-Ping abgesetzt und die Ports 80 und 443 gescannt. Da wäre doch noch einiges zu finden, ich habe es aber mal dabei belassen.

IP Geo-Locations. Dude, Where's My Domain?

Die Auswertung der 112k IP-Adressen zeigt, dass die IP-Adressen in 95 unterschiedlichen L√§ndern liegen. Der Gro√üteil, n√§mlich 52.931 IPs, sind in Deutschland. Wenn man √Ėsterreich, USA, Frankreich und Niederlande zusammenz√§hlt, dann sind immer noch mehr IP-Adressen mit .at-Domains in Deutschland gehostet.

21 L√§nder sind jeweils nur f√ľr eine oder zwei IPs verantwortlich (zB.: Irak, Georgien, Kolumbien, ...). In Russland sind 191 IPs von .at-Domains und 47 sind in China.

Top 10 Anzahl IPs pro Land

Es gibt einige kostenlose Anbieter f√ľr IP/GeoLocation Datenbanken oder APIs mit deren Hilfe man Ort, Land und verantwortliche Organisation einer IP-Adresse herausfinden kann.

Der Ort einer IP-Adresse kann sich von Zeit zu Zeit ändern. Beispielsweise wenn IP-Blöcke an andere Dienstleister weiterverkauft werden oder ein Dienstleister einen Block in einem anderen Serverzentrum verwendet.

Netzwerk Ports

Ports werden benutzt um die Kommunikation von Anwendungen und Dienste auf einem Ger√§t voneinander zu trennen und so eine geordnete und effiziente Kommunikation √ľber das Netzwerk zu gew√§hrleisten. Jeder Port ist durch eine eindeutige Nummer gekennzeichnet, die man Portnummer nennt und im Bereich von 0 bis 65535 liegt.

In der Regel sind bestimmte Portnummern f√ľr bestimmte Anwendungen und Dienste reserviert. Daraus kann man R√ľckschl√ľsse auf die benutzte Software oder zumindest auf die verf√ľgbaren Dienste des Servers schlie√üen.

Datenquellen und Recherche

Scannen oder Scannen lassen? Port-Scanning ist nicht kompliziert und kann mit Werkzeugen wie Nmap oder wenigen Zeilen Sourcecode gemacht werden. Port-Scanning ist allerdings zeitintensiv, wenn man pro Domain viele Ports scannen will. Zum Gl√ľck hat das schon jemand gemacht und die Ergebnisse sind via kostenloser API verf√ľgbar.

Ergänzung: Port-Scan mit PHP

F√ľr ein einfaches Port-Scanning muss man nicht unbedingt mit Nmap arbeiten. Ob ein Port offen oder zu ist, kann man schnell und einfach mit PHP pr√ľfen.


$ipOrHost = 'www.parlament.gv.at';
$port = 25565;
$timeout = 0.2;
$connection = @fsockopen($ipOrHost, $port, $errorCode, $errorMessage, $timeout);

if (is_resource($connection)) {
    echo 'OPEN';
}

Die Shodan InternetDB ist daf√ľr gedacht um Sicherheitsl√ľcken schnell zu finden und zum Beispiel die eigene IP zu monitoren. Wenn man, wie ich, bereits eine umfangreiche Liste von Domains und dazugeh√∂rigen IP-Adressen hat, dann l√§sst sich mittels Shodan herausfinden, welche Ports auf jeweiligen IPs offen sind.

Fast alle Auswertungen in diesem Abschnitt beziehen sich auf Shodan-Daten, nur die Ports f√ľr HTTP vs. HTTPs habe ich selber gescannt. Listen von Default-Ports f√ľr unterschiedliche Dienste und Software findet man im Internet zuhauf. Siehe zum Beispiel Wikipedia TCP/UDP Port Numbers oder Secbot (Common Ports)

Screenshot Shodan Datenbank

IP-Adressen mit Shodan-Eintrag

Mittels API wurden 112.162 IP-Adressen gepr√ľft. Von den gepr√ľften Adressen, haben 95.717 IPs (85%) einen Eintrag in der Shodan-Datenbank.

Prozent IP mit/ohne Shodan-Eintrag

Scheunentor. Anzahl offener Ports pro IP-Adresse

Grunds√§tzlich sollte man darauf achten, dass bei einem Server nicht einfach unn√∂tig viele Ports offen sind, denn jeder offene Port ist eine potenzielle Angriffsfl√§che von Au√üen. Wenn Server allerdings viele Services anbieten oder als Gateway f√ľr andere Server fungieren, dann kann es schon vorkommen, dass 20 und mehr Ports offen sind.

42% der IP-Adressen haben weniger als 5 Ports offen und meistens ist es eine typische Kombination f√ľr Webserver aus 80, 443 und entweder SSH (22), FTP (21), SMTP (53, 587) oder MySQL (3306).

Anzahl offene Ports pro IP

Typische Services am Port erkennen.

"Drin ist was drauf steht." - Die Auswertung ergab eine Liste mit 1.298 unterschiedliche Port-Nummern. Viele von diesen Ports werden nur vereinzelt verwendet. Die Ports die am meisten verwendet werden, sind aus dem Bereich E-Mail (IMAP, PHP, SMTP), File-Transfer (FTP), Shell-Zugriff (SSH) und logischerweise die Standard-Ports die f√ľr Web-Content (80, 443) gedacht sind.

Anzahl IPs mit typischen Ports

HTTP vs. HTTPs

Web-Content wird normalerweise auf den Ports 80 (HTTP) oder 443 (HTTPs) ausgeliefert.

Vor einigen Jahren hat Google die Website-Betreiber dazu gedr√§ngt, auf das sicherere HTTPs zu wechseln. Viele haben damals, aus Angst vor schlechteren Rankings, auf HTTPs umgestellt. Gro√üe Browserhersteller f√ľhrten ebenfalls Ma√ünahmen ein, um die Betreiber von Webseiten zur Umstellung zu motivieren. So wurden Verbindungen als "unsicher" markiert oder manche Browser-Features waren nur f√ľr HTTPs-Seiten verf√ľgbar.

Darum ist es nicht verwunderlich, dass 88% der .at-Webseiten auf HTTPs und HTTP erreichbar sind. 7% der gepr√ľften Seiten sind nur auf HTTP (Port 80) erreichbar und nur 3% der Seiten ist auf HTTPs-only konfiguriert.

Prozent offene HTTP(s) Ports

Es ist möglich, dass Web-Content auf anderen Ports als 80 und 443 ausgeliefert wird. Die gebräuchlichsten Ports sind Varianten von 80 und 443 wie 8080, 8000, 8081 oder 9443. Der Port 3000 wird ebenfalls in node.js Umgebungen öfters verwendet.

Solche Ports benutzt man manchmal um eine Entwicklungs- oder Test-Umgebung zu eigentlichen Seite zu betreiben. Die Integration von 3rd-Party-Systemen in die Netzwerklandschaft wird ebenfalls √ľber alternative Ports gel√∂st.

12% aller gepr√ľften IPs liefern Web-Content auf Port 8880 aus, 9% auf 8080 und 2% auf 8081. Wenn man es dann nachpr√ľft, sieht man, dass 8880 eigentlich immer ein Plesk-Login ist. Am Port 3000 kommt man oft zur Statistiksoftware Grafana. Andere Ports liefern Fehlermeldungen oder leere Seiten oder werden im Nachhinein von einer Firewall (zB.: FortiGuard) geblockt.

Vereinzelt kommt man auf Login-Seiten von anderen web-basierten Applikationen: i-MSCP, ISPConfig, Kibana, Roundcube, ... Ist das ein Problem? Ja, nein, vielleicht! Je nachdem wie sicher die Passwörter sind die verwendet werden, und ob die jeweilige Software regelmäßig upgedated wird.

Anmerkung: Jetzt macht ein kurzer Ausflug nach National Vulnerability Database Sinn. Dort findet man aktuelle und vergangene Sicherheitsl√ľcken, durchsuchbar nach Software und genauer Version. Hier das Beispiel "Roundcube". Wenn man dort Sicherheitsl√ľcken zur Software und Version findet, dann ist es ein Problem.

Screenshot NIST NVD

Datenbanken und Data-Stores

Datenbanken sollten in den meisten F√§llen nicht direkt mit dem Internet verbunden werden, weil das eine Angriffsfl√§che bietet, die man leicht ausschlie√üen kann. In manchen F√§llen ist es allerdings nicht zu vermeiden und dann kann man mittels Port-Scan die benutzte Datenbank ermitteln. In den gepr√ľften IPs findet man gut 22.000 offene Datenbank-Ports und der Gro√üteil davon, genau gesagt 18.091, sind MySQL-Datenbanken.

Alle populären Datenbanken (Data-Stores) haben definierte Default-Ports die meistens nicht verändert werden. Manche Datenbanken benutzen allerdings sehr generische Ports (8443, 9443 oder 8080) die in dieser Auswertung nicht betrachtet werden, weil diese Ports keine aussagekräftigen Hinweise wären.

Anzahl IPs mit offenen DB-Ports

Web-Application Server Ports

Ein Web-Application Server bietet eine Umgebung, in der Webanwendungen ausgef√ľhrt werden k√∂nnen. Dies umfasst die Bereitstellung von Laufzeitumgebungen, Frameworks, Datenbankanbindung, Sicherheitsfunktionen und anderen Diensten, die f√ľr die Entwicklung und den Betrieb von Webanwendungen erforderlich sind. Verwendete Web-App-Server sind an ihren Default-Ports ebenfalls oft von au√üen erkennbar.

Anzahl IPs mit Hinweis auf Application-Server

Ports Zugabe - Minecraft Server

Die wichtigste Frage m√ľssen wir am Kapitelende noch kl√§ren ūüėú. Gibt es IPs mit offenen Minecraft-Ports im Datenset? Yes. 191 IP-Adressen haben einen offenen Port 25565 der auf einen aktiven Minecraft-Server schlie√üen l√§sst.

Minecraft Screenshot

Und kann man sich verbinden? Die ersten zwei Server hatten eine andere Version und bei den nächsten zwei war ich nicht auf der Player-Whitelist, aber schon am 5ten Server auf der Liste konnte ich mich einloggen, obwohl der Server und die IP-Adresse nirgendwo im Internet als Minecraft-Server bekannt war.

DNS-Einträge

DNS-Einträge (DNS-Records) verbinden IP-Adressen mit Domainnamen. Stark vereinfacht gesagt, ist ein DNS-Server eine große Datenbank, die unterschiedliche Typen von Einträgen enthält, und auf ganz viele andere Server im Internet gespiegelt wird.

Datenquellen und Recherche

Im Abschnitt IP-Adressen wurde diese Datenbank bereits verwendet, um die IP-Adressen zu ermitteln. In DNS-Records kann man allerdings noch viel mehr interessante Dinge finden. DNS Einträge können mit verschiedenen Werkzeugen ausgelesen werden. Die Auswertungen in diesem Abschnitt wurden alle mit dem Kommandozeilentool dig gemacht, gespeichert und danach mit PHP geparst. Der Datensatz umfasst 6.288.955 von 888.450 Domains und ist 347 MB groß.

Aus Sicherheitsgr√ľnden antworten manche Nameserver nicht auf sogenannte ANY-Anfragen, bei denen alle Records jeden Typs zur√ľckgegeben werden. Darum wurden im ersten Schritt die 7 wichtigsten Eintragstypen (NS, TXT, A, AAAA, CNAME, MX, SOA) einzeln abgefragt.

Um ein möglichst umfassendes Bild zu bekommen, wurden im zweiten Schritt nochmal an alle Domains ANY-Anfragen gesendet und die Analysen dazu, werden im Abschnitt "DNS ANY-Anfragen" dargestellt.

Ergänzung: DNS-Records mit dig auslesen

Mit dem Kommandozeilenprogramm dig können Abfragen an Nameserver gestellt werden. Hier werden alle Einträge (ANY) von orf.at vom Nameserver mit der IP 8.8.8.8 (Google) angefragt.

dig +noadditional +noquestion +nocomments +nocmd +nostats orf.at ANY @8.8.8.8
Screenshot dig Beispiel

Häufigkeit von DNS-Einträgen

Zuerst einmal eine √úbersicht √ľber die Arten und H√§ufigkeit von DNS-Eintr√§gen. G√§ngige Typen sind: NS-, MX-, A-, AAAA-, TXT-, CNAME- und SOA-Eintr√§ge.

DNS-Einträge nach Typ

DNS Einträge nach Host/Typ

Jede Website braucht einen NS, A und SOA Eintrag, sonst w√ľrde sie nicht funktionieren. 853.055 Domains haben Eintr√§ge dieser drei Typen. Wie man im Chart links gut sehen kann, werden Eintr√§ge manche Typen (zB.: NS) mehrfach vergeben, um die Ausfallsicherheit zu erh√∂hen.

AAAA-Einträge sind IPv6-Adressen. Seit vielen Jahren wird gewarnt, dass bereits alle IPv4-Adressen vergeben wurden und alle doch bitte auf IPv6 umsteigen mögen. Passiert ist das aber offensichtlich bis jetzt noch nicht.

MX-Einträge - Mehr ist immer besser?

Die Mail Exchange (MX) DNS-Eintr√§ge geben an welcher Mail-Server f√ľr die Domain zust√§ndig ist. Daraus kann man R√ľckschl√ľsse auf benutzte Software- und Cloud-Anbieter gewinnen.

Eigentlich w√§re ich davon ausgegangen, dass die meisten Domains min. zwei oder mehr MX Eintr√§ge enthalten. Das w√ľrde die Ausfallsicherheit erh√∂hen und macht quasi kaum Mehraufwand. Wie man im linken Chart sieht, ist dem aber nicht so und das hat einen Grund.

Die einzelnen MX-Einträge zeigen auf Subdomains (zB.: xyz.mail.protection.outlook.com) die mehrere IP-Adressen (A-Einträge) zugeordnet haben. Wenn man das in die Berechnung mitaufnimmt, dann sieht der Chart (rechts) etwas anders aus.

Anzahl MX-Einträge
pro Domain

Anzahl MX-Einträge pro Domain
(Multi-IPs eingerechnet)

Wenn man Flugzeuge baut und es ganz besonders sicher haben will, dann kann man einfach auch 12 MX-Einträge anlegen.

Screenshot Boing DNS Einträge

741.491 Domains haben mindestens einen MX-Eintrag und können also theoretisch E-Mails empfangen. In den Top-10 der Mail-Server findet man die großen Hosting-Unternehmen und Cloud-Anbieter.

Mail Server Anbieter

Domains die auf outlook.com zeigen, verwenden ein Microsoft 365 (fr√ľher Office 365) Produkt. MX-Eintr√§ge die "aspmx.l.google.com" enthalten, weisen auf ein Google Workspace Produkt hin.

MX-Server Hosts

Wenn man sich die Verteilung der Domains auf Mail-Server ansieht dann f√§llt auf, dass die Top-15 f√ľr jeweils mehr als 5.000 Domains zust√§ndig sind. Danach kommen gut 60 Mail-Provider die f√ľr 500 bis 5.000 Domains die Mails verwalten. 7.814 kleinere Hoster bzw. gr√∂√üere Firmen sind f√ľr 2 bis 500 Domains verantwortlich. Der Gro√üteil der Mail-Server, n√§mlich 282.377, ist genau f√ľr eine Domain verantwortlich.

Domains pro MX-Server

Externe vs. Interne MX Domains: Wenn die Domain mit der Mail-Server Domain √ľbereinstimmt, dann ist wahrscheinlich ein lokaler Mail-Server f√ľr das Empfangen von Mails zust√§ndig. Unterschiedliche Domains k√∂nnen bedeuten, dass ein Cloud-Anbieter verwendet wird oder der Hoster einen zentralen Mail-Service betreibt.

MX Server Extern/Intern

Anmerkung: Beim Durchsehen der MX-Liste sieht man, dass gut 200 Domains einen MX-Eintrag von den russischen Cloud-Anbietern Yandex oder mail.ru haben. Die chinesischen Mail-Provider qq.com und 163.com werden nur von 6 .at-Domains verwendet.

TXT-Eintr√§ge. Da ist mehr f√ľr dich drin!

In TXT-Eintr√§ge kann man alles M√∂gliche reinschreiben, solange es 255 Zeichen nicht √ľberschreitet. Wer noch mehr Text in DNS packen will, macht einfach mehrere TXT-Eintr√§ge. Bei meinen Scans habe ich 560.400 TXT-Eintr√§ge bei 417.348 unterschiedlichen Domains gefunden.

Anzahl Domains mit n TXT-Einträgen

Die meisten Domains haben genau einen TXT-Eintrag und manche haben einfach mal 50 Einträge. Ich sag mal: "Sparkasse, quo vadis?". Ich hoffe, dass soll so sein.

Screenshot Sparkasse DNS Einträge

TXT-Eintr√§ge werden in den letzten Jahren immer mehr verwendet, um die Eigent√ľmerschaft einer Domain zu pr√ľfen. Wenn eine Domain bei einem Cloud-Anbieter benutzt werden soll, wird der Eigent√ľmer aufgefordert, einen speziellen TXT-Eintrag zu erstellen, damit der Anbieter wei√ü, dass die Domain wirklich dem Kunden geh√∂rt.

An der Art des Eintrags kann man oft erkennen, welche Domain mit welchem SaaS-Anbieter arbeitet. Anbieter wie Google, Facebook, Apple und Zoho benutzen diese Art der Domain-Verifikation.

Verify TXT-Einträge

Rein aus dem Verify-TXT-Eintrag kann man nicht ablesen welches Produkt genau vom jeweiligen Anbieter verwendet wird. Man kann nur allgemein sagen: 53k Domains verwenden irgendwas von Microsoft und 44k irgendein Produkt von Google.

Viele weitere Anbieter verwenden die TXT-Eintr√§ge um dort Konfigurationen oder Best√§tigungen (Verifications) f√ľr bestimmte Produkte zu speichern. Bei einer kurzen Durchsicht habe ich mehr als 70 Anbieter entdecken k√∂nnen:

Amazon SES, BMD, Barracuda, Brave, Cisco, Citrix, Cloudflare, ClubDesk, DigiCert, Docker, Drift, DUO, Dynatrace, Elastic Email, Firebase, Fortinet, Freshdesk, GitHub, GitLab, GlobalSign, HIBP, Hornetsecurity, HubSpot, IBM, Indeed, Infoniqa, Jimdo, KnowBe4, MIDOCO, MS Dynamics, MS Office365, Mailjet, Mailru, Mandrill, Microsec, Mimecast, Miro, MongoDB, nameshield, Offensity, OneTrust, Oracle, Pardot, Plesk, Postman, Protonmail, Rexx, SAP, Salesforce, SendGrid, Sendinblue, Seobility, Shopify, Sipgate, Smartsheet, Sophos, Spycloud, Squarespace, Stripe, TITAN, TOPDesk, Trend Micro, Trustpilot, Webex, Webflow, Wix, Wordpress, Workplace, Wrike, Yandex, Zendesk, Zoom, blackscreen, dan.com, eRecruiter, flexera, iCIMS, mailEnable, proofpoint, sevDesk, site24x7, successfactors, x-mailer, Yandex

TXT-Eintr√§ge f√ľr SPF und DMARC

Viele der Anbieter und Produkte kann man in den SPF-Infos finden. SPF steht f√ľr "Sender Policy Framework" und soll E-Mail-Kommunikation sicherer machen. In einem SPF-Record sind alle Mail-Server angegeben, die im Namen der Domain eine E-Mail versenden d√ľrfen. Darum findet man in den Values viele Marketing-, Support- und Sales-Systeme.

380.332 Domains sind durch das Sender Policy Framework abgesichert. Ein anderes Protokoll, dass die Sicherheit bei E-Mail verbessern soll ist DMARC, dieses wird allerdings nur bei 752 Domains verwendet.

SPF/DMARC TXT-Einträge

TXT-Einträge: Specials

TXT - "domain gesperrt": Bei 10.755 Domains habe ich den TXT-Eintrag "domain gesperrt" gefunden. Die Pr√ľfung einiger Stichproben hat gezeigt, dass alle diese Domains, im nic.at Whois, mit Status "pendingDelete" aufscheinen. Es d√ľrften also TXT-Eintr√§ge von der nic.at sein, f√ľr Domains die sich nicht an die Regeln halten.

TXT mit Werbung: Man kann sich auch immer ziemlich sicher sein, dass √ľberall wo ein Textfeld ist, irgendwer auf die Idee kommt, das Feld mit Werbung zu bef√ľllen. Kreativit√§t oder Verzweiflung?

IBM Werbung in DNS

DNS ANY-Anfragen: Alles auf einmal bitte.

Die bisherigen Auswertungen haben sich auf spezifische DNS Typen konzentriert. ANY Anfragen werden nicht von allen Server unterst√ľtzt, weil sie kompliziert und langsam sind (siehe Cloudflare Blog). Was bekommt man aber, wenn man ANY-Anfragen an die Nameserver sendet? √úberraschend viele Server antworten und Typen wie CCA, HINFO, RRSIG, DNSKEY und DS sind weit verbreitet bei den .at-Domains.

SPF - "You're Doing it Wrong!": 0,5 % der Domains haben Eintr√§ge vom Typ "SPF", die allerdings falsch sind, denn SPF-Eintr√§ge m√ľssen den Typ "TXT" haben und sollten darum ge√§ndert werden. Der Typ hat zwar mal existiert, wurde allerdings 2014 widerrufen und wird von vielen Servern nicht mehr unterst√ľtzt (siehe Wikipedia).

HINFO: Durch die Angabe RFC8482, oder "ANY not supported" im HINFO-Eintrag wird angezeigt, dass keine ANY-Anfragen vom Server beantwortet werden. Derzeit sind das 6 % von den angefragten Domains.

DNSSEC Eintr√§ge: DNSSEC steht f√ľr Domain Name System Security Extensions und soll die Echtheit und Integrit√§t der DNS-Eintr√§ge, durch digitale Zertifikate, sicherstellen. Es gibt verschiedene Eintragstypen, die alle eine spezifische Aufgabe beim DNSSEC √ľbernehmen: DNSKEY, RRSIG, NSEC, NSEC3PARAM, DS. Rund 3 % der .at-Domains verwenden DNSSEC.

CAA Eintr√§ge: Bei 1 % der Domains wurden CAA-Eintr√§ge angegeben, die angeben welche "Certificate Authorities" Zertifikate f√ľr diese Domain ausstellen d√ľrfen. √úblicherweise stehen dann Anbieter wie: geotrust.com, letsencrypt.org oder digicert.com in diesem Record.

HTTP-Header & Cookies

HTTP-Header sind Informationen, die von einem Webserver an einen Client (zB.: den Webbrowser) gesendet werden, um zus√§tzliche Details √ľber die √ľbertragene Daten zu √ľbermitteln. Diese Informationen k√∂nnen Verschiedenes wie den Typ des Inhalts, die Gr√∂√üe der Antwort (Englisch: Response), Cache-Anweisungen und vieles mehr umfassen.

Von den 1,3 Mio. Domains, die urspr√ľnglich abgerufen wurden, haben 888.450 eine Antwort geliefert und es wurden insgesamt 6.288.955 HTTP-Antwort-Header gespeichert. Eine √úbersicht √ľber HTTP-Header findet man bei MDN, Wikipedia oder bei OWASP

HTTP Server Header. Wer serviert?

Der Server-Header ist Antwort-Header, der optional von Webservern gesendet wird, um Namen und die Versionsnummer des verwendeten Webservers oder der verwendeten Server-Software zu identifizieren. Der Server-Header kann potenziell sensible Informationen preisgeben, die von Angreifern ausgenutzt werden können, um Schwachstellen zu finden.

Apache ist mit 305.249 Webseiten noch immer doppelt so gro√ü wie Nginx der nur f√ľr die Auslieferung von 160.585 Webseiten verantwortlich ist. 555.428 Webseiten lieferten einen von 610 unterschiedlichen Server-Headern zur√ľck.

HTTP-Server-Header

HTTP Powered-By Header. Energieschub.

Der HTTP-Header: X-Powered-By ist ein optionales HTTP-Response-Headerfeld, das von Webservern gesendet wird, um verwendete Technologien zu identifizieren. Der X-Powered-By-Header kann Informationen wie die Programmiersprache, die Webserver-Software, die Datenbank-Software und andere verwendete Technologien enthalten.

22,8 % der Startseiten senden einen X-Powered-By Header. Es wurden 475 unterschiedliche Header gespeichert, die TOP-10 werden von PHP, Plesk und ASP angef√ľhrt.

Startseiten mit X-Powered-By

HTTP X-Powered-By Header

HTTP-CSP-Header (Content Security Policy) sind ein Mechanismus zum Schutz von Webanwendungen vor Cross-Site-Scripting (XSS) und anderen Angriffen. Durch das Definieren von vertrauensw√ľrdigen Quellen soll ein Einschleusen von b√∂sartigen Daten in die Webseite verhindert werden.

Nur 0.7 % der Webseiten senden einen CSP-Header. Das erschien mir wenig, bis mir eingefallen ist, dass man CSP auch im HTML durch einen <meta>-Tag definieren kann. Deshalb wurden die Zahlen der CSP-HTML-Auswertung hier integriert. Danach waren es ganze 0.9 % ūüôĄ

Domains mit/ohne CSP

Website Alter. Alt aber gut?

138.221 Websites lieferten sowohl einen Date- als auch einen Last-Modified-Header. Das daraus errechnete Alter des Inhalts zeigt, dass es zum einen viele Webseiten gibt, die t√§glich aktualisieren, allerdings auch sehr viele deren Inhalt sich √ľber zwei Jahre lang nicht ver√§ndert hat.

Domains mit/ohne Alter

Alter in Tage

Cookies. Cookies. Cookies.

Cookies sind Daten, die von einer Website auf dem Computer oder Mobilger√§t der BenutzerIn gespeichert werden, wenn diese die Website besucht. Cookies enthalten Informationen √ľber Aktivit√§ten auf der Seite oder spezifische Einstellungen.

Cookies haben seit ein paar Jahren ein "kleines" Imageproblem, weil sie f√ľr Dinge benutzt wurden, die man bei der Erfindung nicht im Sinn hatte. Darum muss man als Websitebetreiber die Nutzer vorher fragen, ob man Cookies setzen darf, zumindest f√ľr alle Cookies die nicht technisch notwendig sind. Von den 578.385 Webseiten die gecrawlt wurden, setzten 29,4 % bei Aufruf Cookies (ohne zu fragen). Hoffentlich nur technisch notwendige?!

Startseiten mit Cookies

Es gibt Seiten die verwenden Cookies als eine Art "Datenbank" und speichern allerhand Zeugs rein. Darum setzen die Spitzenreiter in der Statistik eine zweistellige Zahl an Cookies, sobald man die Seite √∂ffnet. ūüė≥

TOP 10 - Anzahl Cookies auf Startseite

Die Cookies die meisten benutzt werden, sind typische Session-Cookies (zB.: PHPSESSID, beng_proxy_session, ...), Cookies f√ľr sicherheitsrelevante Features (zB.: XSRF-TOKEN) und Cookies die Einstellungen speichern (zB.: localization, pll_language).

TOP 10 - Cookie Namen

Leider findet man vereinzelt auch Cookies die wahrscheinlich nicht unter die "technisch notwendigen" geh√∂ren. Cookie-Namen wie: facebookPixel, remarketing_cid, SC_ANALYTICS_GLOBAL_COOKIE, ad_storage, gtm, trackings, ... klingen schon verd√§chtig nach Werbung, Analytics oder Tracking? Zum Gl√ľck findet man die nur mehr vereinzelt.

Geschwindigkeit: Need for Speed

Beim Download der Startseiten wurde die Zeit gemessen, die f√ľr den Download n√∂tig war. Nur 2 % konnten innerhalb 100 Millisekunden heruntergeladen werden. 22,8 % ben√∂tigten zwischen 100 und 249 ms. F√ľr den gr√∂√üten Anteil der Seiten (39.2 %) dauerte der Download zwischen 250 ms und 500 ms. Bei 16,3 % brauchte der Download langer als eine Sekunde um fertig zu werden.

Startseiten Speed

Mehr als 500 ms sind schon relativ langsam f√ľr eine Webseite. Man muss bedenken, dass hier nur der Download des HTML ber√ľcksichtig ist und die Zeit gemessen wird, bis das HTML vollst√§ndig im Browser angekommen ist. Dort m√ľssen dann noch Stylesheets, Bilder, Skripte geladen und ausgef√ľhrt werden.

HTML-Struktur und -Tags

HTML steht f√ľr "Hypertext Markup Language" und ist die Auszeichnungssprache zur Erstellung von Webseiten. Es wird verwendet, um den Inhalt und die Struktur einer Webseite zu definieren, indem es verschiedene Elemente wie √úberschriften, Text, Bilder und Links enth√§lt, die von einem Webbrowser interpretiert und angezeigt werden.

HTML besteht aus einer Reihe von Tags (Auszeichnungselemente), die den Browsern sagen, wie der Inhalt angezeigt werden soll. Zum Beispiel kann das <h1>-Tag verwendet werden, um eine Überschrift der ersten Ebene zu erstellen, während das <p>-Tag verwendet wird, um einen Absatz zu definieren.

Im April 2023 habe ich die Downloads von 1,3 Mio. Startseiten versucht. Vor dem Download wurde nochmal auf Port 80 oder 443 gepr√ľft und nur Responses ohne Fehler ber√ľcksichtigt (HTTP-Status-Code: 200). Dabei konnte ich das HTML von 578.385 Startseiten speichern und nachfolgend analysieren.

Details: Crawling mit crwlrsoft/crawler

Mit dem Github Package crwlrsoft/crawler von crwl.io kann man einfach und schnell Webcrawler entwickeln, die ganze Webseiten oder nur Teile davon herunterladen.

use Crwlr\Crawler\Steps\Loading\Http;

$crawler->input('https://www.orf.at/')
    ->addStep(Http::crawl()->depth(1));

HTML Größenverteilung

Die stolze √ľberraschende Gewinner des Gr√∂√üenvergleichs ist eine Webseite mit knapp √ľber 30 MB. Wohlgemerkt nur HTML und keine Bilder, JS, CSS oder sonst irgendwas. Man k√∂nnte glauben, dass da jetzt viel Sinnvolles draufsteht, dem ist leider nicht so. Die Seite wurde offensichtlich mit Microsoft Word erstellt und nach HTML exportiert und enth√§lt viel unsichtbaren Code.

Screenshot 30 MB großes HTML

Zum Gl√ľck sind solche Unget√ľme eher selten (nur 3.406 bzw. 0,58 % haben mehr als ein Megabyte). Knapp √ľber 50 % der 577.552 HTML-Responses sind zwischen 1 und 50 Kilobyte gro√ü und nochmal 34 % liegen zwischen 50 und 256kb.

Verteilung HTML Größen

HTML Tags vs. Content

Wie groß ist eigentlich der Anteil von Inhalt zu Markup? Wenn man alle HTML-Tags aus dem Markup entfernt bekommt man den reinen Inhalt der Seite. Über 85 % der Webseiten haben einen Anteil von bis zu 60 % an Inhalten. Nur gut 15 % der Seiten haben einen Content-Anteil von mehr als 60 %.

Wie groß ist Content-Anteil?

Anzahl HTML-Tags/Seite

Das Maximum an HTML-Tags sind 271.726 auf einer Seite. Diese Seite ist 21 Megabyte gro√ü und wird mit Wordpress verwaltet. Die Kommentarfunktion ist so eingestellt, dass jeder kommentieren kann. Darum sind jetzt 19.537 Spam-Kommentare auf der Seite. ūü§ē

Top-10 HTML-Tags

DIV steht nicht f√ľr Diverses, wird aber daf√ľr genutzt. Nicht √ľberraschend also, dass so viele <div>-Tags in HTMLs sind. Aber Links (<a>-Tags) auf Platz 2 und <script>- und <link>-Tags in den Top-10 ist schon interessant.

HTML-Tags f√ľr SEO

SEO steht f√ľr "Search Engine Optimization" (auf Deutsch: Suchmaschinenoptimierung) und bezieht sich auf die Praxis, Webseiten so zu gestalten und zu optimieren, dass sie in den Suchergebnissen m√∂glichst weit oben angezeigt werden.

Es gibt bestimmte Empfehlungen wie eine gut SEO-optimierte Seite sein sollte. Zuerst sollte das HTML "wohlgeformt" sein, was soviel hei√üt wie: Es d√ľrfen keine Fehler im Markup sein. Am einfachsten kann man das mit HTML Tidy pr√ľfen. Nur 6,9 % der Seiten sind fehlerfrei, 84,1 % haben Warnungen (also kleine Fehler) und 9 % der Seiten weisen gro√üe HTML-Fehler auf.

HTML-Errors und Warnings

HTML mit SEO-Tags

Ein paar grundlegende Dinge sollten auf einer SEO-optimierten Seite zu finden sein. 21,7 % von den getesteten Seiten enthalten einen DOCTYPE, <title>, <meta>-Description, genau eine <h1> und min. einen <a>-Tag.

Ergänzung: Tags und Qualität mit PHP

HTML-Tidy kann direkt in PHP verwendet werden, weil es eine native PHP-Erweiterung gibt.

# sudo apt-get install php8.2-tidy

$tidy = tidy_parse_string($htmlContent);
$tidy->cleanRepair();
$tidy->diagnose();

var_dump($tidy->errorBuffer);

HTML bearbeite ich am liebsten mit der Symfony DomCrawler Erweiterung.

# composer require symfony/dom-crawler
# composer require symfony/css-selector

use Symfony\Component\DomCrawler\Crawler;
use Symfony\Component\CssSelector\CssSelectorConverter;

$crawler = new Crawler($html);
$titles = $crawler->filterXPath($converter->toXPath('title'));
var_dump(count($titles));

Im Gegensatz zu nicht-semantischen Tags wie <div> oder <span>, die nur verwendet werden, um Abschnitte der Webseite zu strukturieren oder Elemente zu gruppieren, geben semantische Tags spezifische Informationen dar√ľber, welche Art von Inhalt sich im Tag befindet.

Oft verwendete semantische Tags sind: <header>, <footer>, <main>, <aside>, <nav> und <section>. 71 % der gepr√ľften Webseiten verwenden semantische block-level HTML-Tags.

HTML mit semantischen Tags

schema.org im HTML

Strukturierte Daten in HTML beziehen sind ein standardisiertes Format zur Darstellung von Informationen √ľber den Inhalt einer Webseite. Diese Metadaten werden von Suchmaschinen, sozialen Medien und anderen Webdiensten verwendet, um den Inhalt und Kontext einer Webseite besser zu verstehen.

Screenshot von schema.org

Auf schema.org wird eine Sammlung von Spezifikationen f√ľr Metadaten (sogenannte "Schemas") ver√∂ffentlicht, die Entwickler verwenden k√∂nnen, um Webseiten besser maschinenlesbar zu machen. Die meistgenutzten Elemente betreffen eher technische Details wie: EntryPoint, SearchAction, BreadcrumbList, ... oder die allgemeine Angabe das es sich um WebSite bzw. WebPage handelt.

Top-10 Schema-Properties

Inbound / Outbound Links

Verlinkungen sind immer noch ein wichtiger Ranking-Faktor bei allen großen Suchmaschinen. Wer verlinkt eigentlich auf wen und wie oft? Innerhalb der .at-Domains sind die meist-verlinkten Seiten herold.at, google.at und wko.at.

Top-10 Inbound Links

Die meisten in der Liste sind nicht √ľberraschend, aber warum ist das Bundeskanzleramt (bka.gv.at) so gut verlinkt? Unter der Subdomain ris.bka.gv.at ist das Rechtsinformationssystem erreichbar, und viele Unternehmen verlinken im Footer auf die aktuelle Gewerbeordnung, die im RIS zu finden ist. R√§tsel gel√∂st!

Screenshot vom Rechtsinformationssystem

Die höchste Anzahl an ausgehenden Links auf unterschiedliche .at-Domains, ist auf der Seite: museen-in-oesterreich.at zu finden. Dort sind 561 .at-Domains verlinkt und insgesamt 1.551 externe Links zu finden.

Outbound-Links Histogramm

<img>-Tags. Bilder in deinem Kopf.

Das <img>-Tag wird verwendet, um ein Bild in eine Webseite einzuf√ľgen. Das Tag hat ein erforderliches Attribut "src", das die URL des Bildes angibt, das eingef√ľgt werden soll. Ich fand 8,7 Mio. Bilder auf 489k Seiten, davon hatten immerhin 2 Mio. ein ALT-Attribut.

<img> Insgesamt

8.745.391

Seiten mit <img>

489.633

<img> mit ALT

2.090.312

Max. auf einer Seite

27.377

Eine Seite hatte sogar 27.377 Bilder auf der Seite eingebunden und weil das sicher keiner glauben w√ľrde, habe ich hier einen Beweisscreenshot. Es ist nicht ganz so tragisch wie man zuerst glaubt, die Bilder werden mit lazy-loading nachgeladen und die Seite ist "okay" schnell. Trotzdem nicht optimal.

Screenshot der 27k Webseite

Das "alt"-Attribut ist ein wichtiges Attribut f√ľr Bilder. Es gibt an, was in einem Bild zu sehen ist, falls das Bild aus irgendeinem Grund nicht angezeigt werden kann, und dient auch dazu, die Zug√§nglichkeit der Website f√ľr Menschen mit visuellen Beeintr√§chtigungen zu verbessern.

Stehen in "alt"-Attributen wichtige Dinge? "Logo" ist das Wort, dass mit großem Abstand am meisten in "alt"-Texten seht. Auf 128.494 Seiten findet man ein Bild mit "Logo"-Alt-Text. Besonders gscheit finde ich "alt"-Texte die "Image" (10.685 Seiten), "Bild" (5.496 Seiten), Foto (4.128) oder "Icon" (9.370 Seiten) enthalten. Nicht.

Oft verwendete Worte beschreiben entweder Menuelemente oder Social-Media Verlinkungen bzw. Sharing Buttons. Nachfolgend eine kleine √úbersicht aus diesen beiden Kategorien.

Navigation Icons
menu, men√ľ, menue, menu-icon, mobile-menu, submenu, ... 62.508
home, haus, homepage, ... 16.864
arrow, pfeil, arrow-right, arrow-left, pfeilchen, abwärtspfeil, previous, next, richtungspfeil, pfeil-icon, navigationspfeil, pfeillinks, pfeilrechts, ... 13.001
icon, icons, ... 9.662
burger, burger-menu, bento ... 866
Social Media Icons
facebook, facebookicon, facebook_pixel, facebook-logo, ... 18.602
instagram, instagramicon, instagramm, ... 9.934
youtube, youtubeicon, social-logo-youtube, ... 8.178
linkedin, linkedin-logo, ... 3.603
tiktok, tiktok-logo, #tiktok, ... 498

Google Tags - "Abmahnanwälte lieben diesen Trick"

Wenn Sie Datenschutzanwalt Abmahnanwalt sind, und eine Einnahmequelle suchen, ein Disziplinarverfahren bei der Rechtsanwaltskammer Sie nicht abschreckt und Sie wegen schweren Betrugs vor Gericht stehen wollen, dann k√∂nnen Sie die 95.102 Webseiten mit Google Fonts "eigenh√§ndig ansurfen" und danach abmahnen. ūü§° ... und bitte die 130 .gv.at-Seiten nicht vergessen.

Startseiten mit Google-Tags

Datenexporteure mit <script> oder <link>

Mittlerweile wissen alle, dass Google Fonts abmahnbar sind. Das Problem mit den externen Verlinkungen, die private IP-Adressen in die USA oder andere Länder senden, ist allerdings ein größeres, und betrifft quasi alle externen Ressourcen die mittels <script> oder <link> eingebunden werden ohne das ein Benutzer vorher zustimmt.

Wenn man schon 95k Seiten mit Google Fonts findet, wie viele Seiten binden √ľberhaupt externe Ressourcen von anderen Domains ein? Ich konnte insgesamt 379k Domains (65 %) finden, die externe Scripte oder Stylesheets verwenden, und damit potenziell personenbezogene Daten an Dritte weitergeben.

TOP 20 externe Ressourcen Domains

  • [1] googleapis.com, googletagmanager.com, gstatic.com, google.com, google-analytics.com
  • [2] jimstatic.com, jimcdn.com
  • [3] parastorage.com, wixstatic.com
  • [4] wp.com, wp.me

Ressourcen (Skripte oder Stylesheets) von allen Google Domains zusammen, werden auf √ľber 221k Webseiten eingebunden. Da fallen zum Beispiel die Google Fonts, Google Analytics und Google Tag Manager rein. In den "Top Ten" sind die Content Management Systeme Jimdo, WIX und Wordpress. World4You (Platz 3) kommt hier wieder vor, weil dort so viele .at-Domains geparkt sind.

Website Inhalte

In diesem Abschnitt sind alle Analysen die auf Basis der Website-Inhalte durchgef√ľhrt wurden, aber nicht speziell mit HTML oder anderen Technologien zu tun haben.

Content is King.

Die Wortanzahl, nachdem HTML, Skripte und Styles entfernt wurden, liegt zwischen 0 und 600.000 W√∂rtern (... wieder die Wordpress-Seite mit den offenen Kommentaren ūüė≥). Auf 29 % der Webseiten sind weniger als 100 W√∂rter geschrieben. Ein Teil davon l√§dt wahrscheinlich Inhalte mittels Javascript nach und die anderen sind Platzhalter-Seiten oder Webseiten von Menschen die sich gerne kurzfassen.

Anzahl Wörter auf Webseiten

Impressumspflicht

Seit einigen Jahren existiert in √Ėsterreich die Offenlegungspflicht f√ľr elektronische Medien nach dem Mediengesetz (umgangssprachlich Impressumspflicht). Da sowohl gewerbliche als auch private Webseiten ein Impressum ben√∂tigen, k√∂nnte man davon ausgehen, dass auf jeder Seite irgendwo das Wort Impressum (bzw. eine englische Form) vorkommt?

Webseiten mit/ohne Impressum

Ich konnte auf 64,67 % der Webseiten das Wort "Impressum", "Imprint", "Legal Notice", "Legal Disclosure" finden. Da fehlen jetzt noch Seiten, die den gesamten Inhalt der Javascript nachladen und Webseiten in anderen Sprachen als Deutsch oder Englisch. Wenn wir schon bei Sprachen sind! Welche Sprachen sind auf österreichischen Webseiten zu finden?

Sprachen

Mit dem PHP Package patrickschur/language-detection kann man Sprachen erkennen. Ich habe die Inhalte der Webseiten gek√ľrzt auf 50 Worte und dann die Spracherkennung durchgef√ľhrt. Wenig √ľberraschend, sind 70 % in Deutsch, bei 20 % war keine Erkennung m√∂glich und 8,5 % sind in Englisch. Bei den 1,5 % sonstigen Sprachen findet man haupts√§chlich Sprachen aus den Nachbarl√§ndern.

Webseiten Sprache


TOP 10 - Sonstige: Tschechisch (680), Vietnamesisch* (279), Polnisch (219), Ungarisch (184), Slowakisch (176), Russisch (133), Schwedisch (90), Slowenisch (84), T√ľrkisch (80), Serbisch (72)

* Ergänzung: Vietnamesische .at-Seiten?

279 Seiten auf Vietnamesisch? Das kam mir spanisch vor. Ist es auch. Alle diese Seiten liefern denselben Content (siehe Screenshot), der von einer Landingpage-Platform in Vietnam kommt. Die Domains gehören einem Domain-Reseller in Deutschland. Viele der Seiten werden von Google Chrome als Phishing-Seiten markiert.

Chrome Screenshot

Da ist was faul im Staate Dänemark. Derzeit scheinen die Seiten unbedenklich zu sein, dass kann sich jederzeit ändern, wenn neuer Content ausgespielt wird.

Geschlechtergerechte Sprache

Geschlechtergerechte Sprache ist auf österreichischen Webseiten noch nicht wirklich angekommen. Wenn man die 345.105 Seiten mit mehr als 200 Wörtern nach typischen Gendering-Formen durchsucht, findet man diese nur auf 14 % der Startseiten. Gesucht wurde nach den empfohlenen/gebräuchlichen Formen mit binnen I (In, Innen), Sternchen (*in, *innen), Doppelpunkt (:in, :innen), Schrägstrich (/in, /innen) und Unterstrich (_in, _innen).

Gendern auf Webseite

Bei den Genderformen ist das binnen I mit 8 % am beliebtesten, gefolgt von Doppelpunkt (4 %), Sternchen (4 %) und abgeschlagen Schr√§gstrich (2 %) und Unterstrich (0,3 %). Am √∂ftesten werden folgende W√∂rter gegendert: Mitarbeiter, Kunde, Sch√ľler, Teilnehmer und Patient.

Gender-Formen

Gegenderte Wörter

* Bei der Singular binnen-I-Form (In) musste ich manuell nacharbeiten und alle offensichtlich falschen Wörter entfernen. Also so Sachen wie LinkedIn, LogIn, CheckIn, ... wurden entfernt.

Die Liste der gegenderten W√∂rter enth√§lt 11.433 unterschiedliche W√∂rter. Neben vielen g√§ngigen Begriffen, findet man auch W√∂rter die man nicht so oft braucht: Trickdogtrainer/in, Corona-Verharmloser*innen, Woidarbeiter*innen, Qualit√§tsr√∂ster/innen, DownhillerInnen, Clown*innen, Hackbrett-K√ľnstler/in, Wildtierschmuggler:innen, ViewerInnen, ...

Zusammenfassung

Ich hoffe ich konnte an diesen Beispielen zeigen, dass man durch die strukturierte Analyse von Webseiten einiges √ľber seine Konkurrenten oder potenziellen Kunden erfahren kann. Der Schwerpunkt der Auswertungen lag hier eher auf technischen Kennzahlen und oberfl√§chlichen Auswertungen. Die M√∂glichkeiten sind allerdings viel weitreichender und k√∂nnen wichtige Erkenntnisse f√ľr dein Unternehmen liefern.

Autor, Impressum und Datenschutz

Michael Feichtinger. Entwickler und Berater. Nach 10 Jahren in verschiedenen Webagenturen und beinahe 15 Jahren bei einem großen österreichischen Jobportal, jetzt selbstständig und buchbar. Ich beschäftige mich mit allen Themen rund um Webentwicklung, Technologien und Prozessen in der Entwicklungsabteilungen.

Man kann mich auf Twitter, LinkedIn oder per Mail erreichen.

Datenschutz: Auf dieser Seite werden keine personenbezogenen Daten erhoben, verarbeitet, gespeichert oder weitergegeben. Es werden keine Cookies gesetzt und es ist kein Tracking eingebunden oder andere externe Abhängigkeiten.

Impressum: Klosterstra√üe 3, 4020 Linz, Webentwicklung und Beratung, Mitglied der WK√Ė, Beh√∂rde: Bezirkshauptmannschaft Linz, GISA: 35488286

Versionen

  • 1.5.2023 - Version 1.0
  • 10.5.2023 - Version 1.1 - Kapitel: "Geschlechtergerechte Sprache" hinzugef√ľgt