Jak odstranit spamové návštěvy z Google Analytics?
Asi jste to zažili taky. Přišli jste do Google Analytics, koukli na úvodní graf návštěvnosti a s velkou radostí zjistili, že máte za včerejšek dvojnásobnou návštěvnost. "Super", pomyslíte si, "návštěvnost pěkně roste". Pokud jste se však do dat ponořili trošku více, asi jste zjistili, že za zvýšenou návštěvností stojí příchozí uživatelé ze zdrojů jako semalt.semalt.com, free-share-buttons.com, buttons-for-website.com. atp.
Pokud patříte mezi "šťastlivce", kteří mají v Google Analytics tento balast, mám pro vás dvě zprávy. Jednu dobrou a jednu méně dobrou. Začněme tou méně dobrou:
Návštěvnost vašeho webu se nejspíš nezvýšila. Nově příchozí nejsou reální uživatelé, ale nereálné, spamové, chybové nebo chcete-li falešné návštěvy.
A teď ta dobrá:
Statistiky v Google Analytics můžete upravit tak, že se vám tento balast nebude zobrazovat a vy uvidíte pouze reálnou návštěvnost. Spam v grafech návštěvnosti vás pak nikdy nebude tahat za nos.
Pojmenujme problém – je to Referral spam
Podívejte se na tabulku níže. Připomíná váš Google Analytics?
Vidíte zde několik případů falešné (spamové) návštěvnosti. Jak vzniká? Je to docela jednoduché. Mnoho lidí mylně předpokládá, že pokud je něco zapsáno do Google Analytics, tak to automaticky znamená, že daná osoba navštívila jejich stránky. Ale tato domněnka je špatná. Do dat v Google Analytics mohou proniknout i ti, kdo na vaše stránky vůbec nepřišli.
Jak to celé funguje?
V praxi klasický pohyb v Google Analytics vypadá nějak takto (na obrázku znázorněno zelenými šipkami).
Popsáno velmi jednoduše a laicky:
1. Uživatel přijde na váš web
2. Načte si část Javascriptového kódu v prohlížeči (ten máte umístěn např. v patičce stránky)
3. Javascriptový kód pošle HTTP požadavek k serverům Google Analytics
4. Google Analytics zaregistruje pohyb na vašem webu a dle pohybu uživatele zapisuje data
Toto je ideální stav. Stav ve světě bez spamů. Jak to ale funguje v reálném světě spamů?
Crawler Referral Spam a Ghost Spam – naši úhlavní nepřátelé
Ve vašem Google Analytics dělají neplechu hlavně tyto dva spamy. Abychom s nimi mohli zatočit, musíme je nejdřív pořádně poznat. Takže:
Ghost spam
Ghost spamu je v Google Analytics drtivá většina. Ghost se mu říká proto, že tento druh spamu vůbec nenavštíví váš web („ghost“ česky znamená „duch“). Spam a váš web se nikdy nepotkají, nedojde mezi nimi k interakci. Projevuje se pouze v Google Analytics (jako ta červená šipka na obrázku).
HTTP požadavek může být poslán z jakéhokoli zařízení připojeného k internetu, a pokud obsahuje všechny potřebné náležitosti, bere ho Google Analytics v potaz. Spam tedy vůbec nemusí načíst vaši stránku, vůbec nemusí přijít na web – ale data do vašeho Google Analytics pošle i tak. Stačí mu, že zná vaše ID ve tvaru UA-XXXXXXX-XX a voila, data do GA směle plynou.
Toto jsou příklady ghost spamu, který se vám v Google Analytics může zobrazovat:
Crawler Referral Spam
Crawler je robot, který prohlíží (prochází) webové stránky, typicky pro účely webové indexace. Příklady takových crawlerů jsou roboti fulltextových vyhledávačů Seznambot a Googlebot. To jsou příklady těch „dobrých“ robotů.
Crawler Referral Spam také prochází weby, ale za jiným účelem. Tento robot (prohledávač) obvykle ignoruje všechna pravidla (např. ta v souboru robots.txt), které mají roboty zastavit. Hlavní rozdíl mezi Ghost a Crawlerem je, že ten druhý skutečně navštíví vaše stránky. Tento druh spamu má interakci s vašimi stránkami. Ale logicky jej v google analytics nechcete - kazí vám statistiky. Můžete jej zablokovat pomocí serverového řešení, jako je soubor .htaccess nebo web.config. Ale pro většinu případů stačí filtrování v GA.
Příklady Crawler Referral spamu:
Proč je to pro vás problém?
Teď asi můžete namítnout „tak budu mít o pár přístupů víc, no a co?“. Ono to ale není tak docela pravda. Problémů se spamem v Google Analytics může být více:
- spamu v GA bývá opravdu hodně. Rozhodně víc, než jen pár přístupů. Reálných přístupů může být v řádu stovek a stejně tak i spamu. A pokud máte 100 reálných návštěvníků denně a 150 spamu, pak statistika dostane pěkně na zadek.
- data budou zkroucená. A budou vám k ničemu. Jeden příklad za všechny - říká vám něco míra okamžitého opuštění? Tuto metriku spamy znehodnotí úplně strašlivě. Stejně tak průměrnou dobu trvání návštěvy.
- ztrácíte čas. Pokud se probíráte nereálnými daty, ztrácíte kopec času. A máte v dnešní době času nazbyt? Nejspíš ne. Stejně jako nečtete spamové e-mailové zprávy ve vaší schránce.
Jak odfiltrovat spam v Google Analytics?
Odpovědí na tuto otázku jsou filtry. S jejich pomocí můžete poslat spamové návštěvy k pánu. Jedinou nevýhodou je, že filtry nelze aplikovat na data, která už jste nasbírali. Vždy proto ovlivní až data budoucí – ta, která začnete sbírat po jeho nasazení.
O jakých filtrech je tu řeč? Primárně o těchto dvou:
1. Filtr na hostitele (hostname)
2. Filtr na zdroj návštěvnosti
1. Filtr na hostitele (hostname)
Skvělý filtr na Ghost Spam. Jak už bylo řečeno, Ghost spam vůbec nenavštíví vaše stránky, takže má vždy hodnotu hostname (not set). Pokud uděláte filtr na všechny zdroje, které mají hodnotu hostname (not set), tak ghost spam převezete a budete ho z GA filtrovat pryč.
Zde se hodí ještě jedna rada. Před aplikací filtrů si v Google Analytics vytvořte nový Výběr dat – a ten poté filtrujte. Pojmenujte si ho např. „Návštěvnost bez spamu“. Pak budete moci v Analytics sledovat jak celkovou návštěvnost (včetně spamů a celé historie), tak i návštěvnost bez spamu (bez historie, ale s relevantními daty).
Postup na vytvoření filtru:
1) Založte si nový výběr dat
2) Vytvořte si filtr na hostname
Ve Správci a v části Výběr dat (ve třetím sloupečku) otevřete sekci filtry a klekněte na tlačítko Přidat nový filtr.
Pojmenujte filtr např. Ghost spam a nastavte Zahrnout (pozor na záměnu s Vyloučit!), pak Název hostitele a obsah políčka nastavte na:
Pokud máte na subdoménách další obsah, kterých chcete do hostitele zahrnout, tak nastavte např.:
Toto je velmi jednoduchý regulární výraz, který zahrne do dat v Google Analytics jen ty uživatele, kteří skutečně načetli obsah vašich stránek. Ghost spam už se tam proto nedostane.
2. Filtr na zdroj návštěvnosti
Zbavili jste se Ghost spamu, ale co se spamem, který na vaše stránky přijde a hostname má definovaný? Například na níže uvedeném obrázku můžete vidět, že zdroj success-seo.com má hostitele definovaného a prvním filtrem ho proto nezrušíte.
Uděláme opět filtr, tentokrát však trochu jiný. Na úrovni zdroje návštěvnosti nebo odkazu. Nezapomeňte, že pokud budete dělat tento filtr, opět ho aplikujte na nový Výběr dat (např. „Návštěvnost bez spamu“, a jeden (ten základní) si nechejte bez ovlivnění filtry. Pokud jste si již udělali nový Výběr dat podle předchozího kroku, můžete do něj zavést oba zmíněné filtry.
1) Vytvořte si filtr na zdroj návštěvnosti
Opět stejným postupem vytvoříme filtr, jen nyní dáme Zahrnout a volbu Zdroj návštěvnosti (nebo Odkazy) a přidáme pomocí regulárního výrazu spamové návštěvy:
.*best-seo-offer.com*|.*best-seo-solution.com*|.*youporn-forum.ga*|.*social-buttons.com*|.*free-share-buttons.com*|.*buy-cheap-online.info*|.*Get-Free-Traffic-Now.com*|.*simple-share-buttons.com*|.*guardlink.org*|.*event-tracking.com*
Regulární výrazy si samozřejmě upravte podle svého GA. Takto odfiltrujete návštěvnost ze všech spamových zdrojů návštěvnosti, které ve svém nástroji Google Analytics nechcete.
Další tipy jak na spam
Na závěr článku přidám dvě další doporučení pro odstranění spamu.
1) Použít můžete i jiné filtry
Moje rada: hrajte si s daty v Google Analytics a zjistíte, že spamu se můžete zbavit i pomocí dalších filtrů. Tak třeba:
a) filtr na rozlišení obrazovky – ghost spamy se na váš web vůbec nedostanou, proto ani nemohou zanechat informaci o tom, jaké měly rozlišení obrazovky. Je to logické, že?
b) filtr na prohlížeč – stejná písnička, jako předchozí příklad
c) filtr na použitý operační systém
d) filtr na barevný režim obrazovky
Žádnou z těchto informací u vás Ghost spam nezanechá. Takže i pomocí těchto informací můžete spam filtrovat.
2) Jak na historická data?
V článku jste se dozvěděli, že filtr umí ovlivnit jen data budoucí. A tak to je, přes to nejede vlak. Ale co když nutně potřebujete ovlivnit i data minulá? I pro vás má Google Analytics pomoc. A sice v podobě segmentů. Pohrajte si se segmenty, a téměř stejně jako pomocí filtrů můžete vysegmentovat čistá požadovaná data bez hnusného spamu.
Takže šup do vašeho Google Analytics a vyčistěte si svoje data od nepořádku. Teprve až budete mít čistá a nezkreslená data, můžete výkon vašeho webu vyhodnocovat.
Pavel Horelica
SEO konzultantPavel Horelica
SEO konzultant email: pavel.horelica@impnet.czPavel je tu od toho, aby vás lidé na internetu našli. Stará se o optimalizaci stránek pro vyhledávače, spravuje PPC kampaně a sleduje webová analytika. Má neustále nové nápady a posouvá váš web kupředu.