Hvordan fjerne spam i Analytics

Spam i Analytics

Spam

Først og fremst når det kommer til google analytics er det viktig å være klar over spam trafikk og hvor stort problemet kan være ettersom vi har sett sider der opptil 95% av trafikken er spam i analytics. Det finnes forskjellige typer spam som vi deler inn i 3 grupper crawler spam, ghost spam og bot direct trafikk der den sistnevnte er litt i en gråsone.

Hvorfor sender de spam trafikk til akkurat meg?

Det er ikke slik at det er noen som er spesifikt ute etter deg, men heller går etter alle sider som er på nettet og de går også i mange tilfellet direkte til Google sine servere og ikke igjennom din side.

Hva er hensikten til de som lager denne spam trafikken?

Poenget med spam i analytics er at de legger igjen for eksempel en referanse link som det er en mulighet for at noen som sitter i analytics vil trykke på for å se hvor trafikken kommer fra. Eller så kan det være et budskap som noen vil ha ut. Budskapet ville eventuelt stått i stedet for språkkoden.

ØNSKER DU HJELP TIL ADWORDS ELLER ANALYTICS?

Forskjellige typer spam

Crawler spam

Crawler spam kommer av crawlers som er programmert til å gå inn på sider og legge igjen falske referrals som kun personer som sitter i analytics vil kunne se. De pleier å ignorere robots.txt (fil som forteller hva de skal).
Det brukes mye mindre enn ghost spam ettersom det bruker mer ressurser.
Det kan blokkeres på flere måter(htaccess, web.config, WordPress plugins), men det er anbefalt å bare bruke analytics filter ettersom de andre løsningene kan føre til andre seriøse problemer som faktisk påvirker siden.

Ghost spam

Ghost spam er spam som egentlig aldri når din side fordi trafikken går direkte til google sine servere og derfor vil ikke serverløsninger kunne stoppe det og en må bruke filtre i analytics.
Ghost spam er også den mest brukte ettersom det krever mindre ressurser og når flest mulig.
Det fungerer ved at de generer tilfeldige analytics koder (UA-XXXXXX-Y) og sender data til Google sine servere og tilfeldigvis så ender det opp med å matche din ID en gang i blant.

Bot direct

Bot direct trafikk er i en gråsone fordi det finnes trafikk av den typen som ikke er ment for å lage spam som å analysere nettsider, men siden det kan ødelegge verdien på dataene så vil vi helst ikke ha det heller.

Filtre

Grunnlegende regler

Før en setter opp filtre er det viktig å følge noen grunnleggende regler med visninger og det er at en helst skal ha 3 visninger for å sikre at en ikke mister informasjon, ettersom en ikke kan hente informasjon etter at det har blitt filtrert.

Ufiltrert Visning

Vi trenger en visningen som er helt ufiltrert for samle opp all data selv spam og ikke spam i tilfellet vi ender opp med å fjerne virkelig data i hovedvisningen. Dette er nødvendig ettersom Analytics ikke lagrer data som blir filtrert vekk.

Hovedvisning (med filter)

Hovedvisningen er den som vi vil få helt fri for spam trafikk så vi kan se på reelle data for trafikk som faktisk er menneskeskapt og derfor er kunder og potensielle kunder.

Test visning

Test visningen brukes for å teste nye filtre for å ikke risikere å fjerne for mye på hovedvisningen. Dette er viktig ettersom filtre gjør permanente endringer til dataene og det er viktig å lage dem riktig slik at vi ikke fjerner feil data.

REGEX

Regular expression

Filtre kan bruke Regex dette gjør at vi kan lage filtre som tar vekk mye spam og ikke et filter for eventuelt hver spam kilde. Dette forebygger også mot framtidig spam og gjør at vi forhåpentligvis ikke må endre så ofte på de.

Symbol Funksjon Eksempel
| Brukes som eller m360 | blogg matcher m360 eller blogg
. Punktum matcher alle tegn m360.no matcher m360.no og m3604no
^ Markerer hvordan det skal starte ^m360 matcher m360.no men ikke www.m360.no
$ Markerer hvordan det skal slutte m360$ matcher www.m360 men ikke m360.no
() Brukes for å lage grupper m360\.no.(blogg|tjenester) Vil matche m360.no/blogg-2 og m360.no/tjenester
\ Gjør spesial karakterene til vanlige www\.m360\.no

Include Hostname filter

Brukes hovedsakelig mot ghost spam ettersom en filtrerer bort all data som ikke er direkte rettet mot din side.
Her er det viktig å huske på å bruke include og ikke ekskluder som vi bruker i de andre filtrene.
Dette kan være så enkelt som

m360\.no

Men det er viktig å sørge for å inkludere alle sidene som en eier og vil ha i rapportene, men unngå å ta med testsider.

Falske språk

Mye spam inneholder falske språk koder der det typisk står en melding.
Her vil vi ekskludere alle språk som matcher følgende for å få fjernet forhåpentligvis alt som vi har sett tidligere og fremtidig spam som matcher.

\s[^\s]*\s|.{15,}|\.|,|^c$

Page Title Spam

Velg ekskluder og page title og bruk følgende.

google-liar|whitehouse\.gov|life\.ru|vice\.com|vc\.ru

Crawler spam filter

For crawler spam så må vi lage 2 forskjellige filtre av samme typen fordi det blir for langt for et filter ettersom Google har en begrensning på antall symboler og her vil vi velge campaign source og ekskluder.

Filter 1

(best|dollar|success|top1)\-seo|(videos|buttons)\-for|anticrawler|^scripted\.|semalt|forum69|7makemon|sharebutton|ranksonic|sitevaluation|dailyrank|vitaly|profit\.xyz|rankings\-|dbutton|uptime(bot|check|\.com)

Filter 2

datract|hacĸer|ɢoogl|responsive\-test|dogsrun|tkpass|free\-video|keywords\-monitoring|pr\-cy\.ru|fix\-website|checkpagerank|seo\-2\-0\.|platezhka|timer4web|share\-button|99seo|3\-letter|top10\-way|\-seo\-service|rencer\.ru

Segmentering

Vi kan ikke bruke filtre på tidligere data så eneste muligheten vi har for å få noe nytte ut av dataene er å segmentere det så best som mulig. Her er det ikke like krise om en gjør feil siden det ikke blir noen permanente endringer på dataene.

Hostname

Her vil vi bruke hostname filteret vi lagde tidligere. Og det er viktig å huske på å velge include og matches regex.

m360\.no

Crawler og språk

Trykk “+add filter” velg så sessions exclude og source med matches regex og lim inn følgende:

(best|dollar|success|top1)\-seo|(videos|buttons)\-for|anticrawler|^scripted\.|\-gratis|semalt|forum69|7make|sharebutton|ranksonic|sitevaluation|dailyrank|vitaly|profit\.xyz|rankings\-|dbutton|\-crew|uptime(bot|check|\.com)|datract|hacĸer|ɢoogl|responsive\-test|torrent\-to|magnet\-to|dogsrun|tkpass|free\-video|keywords\-monitoring|pr\-cy\.ru|fix\-website|checkpagerank|seo\-2\-0\.|platezhka|timer4web|share\-button|99seo|3\-letter|top10\-way|google\-liar|\-seo\-service\.|rencer\.ru

Trykk så “or”
Her velger vi language og matches regex og limer inn språk filteret.

\s[^\s]*\s|.{15,}|\.|,|^c$

Nå ved bruk av dette segmentet som vi nå har laget skal det være mulig å kunne lese av de tidligere dataene uten at de er fulle av spam.