Четверг, 18 апреля, 2024

Google Analytics – как эффективно фильтровать спам, ботов и другой нежелательный трафик

Софт и игры
Вячеслав Питель
Вячеслав Питель
Редактор сайта, опыт работы 10 лет, пишу на тему гаджетов, новостей в мире технологий, игр и софта admin@uspei.com, VK, OK, сот. 89132476241

Здравствуйте, уважаемые читатели сайта Uspei.com. Несомненно, что Google Analytics является одним из самых важных инструментов, которые вы могли бы использовать для понимания поведения своих пользователей и оценки эффективности вашего сайта. Нет причин не доверять системе аналитики, которой пользуются миллионы людей во всем мире.

Но, несмотря на то, что аналитика является неотъемлемой частью процесса принятия решений для многих сайтов и блогов, я часто вижу сайты (всех размеров), которые мало или вообще не фильтруют данные после установки кода отслеживания, что является большой ошибкой.

Подумайте о своем Google Analytics без отфильтрованных данных как об одном из слоев этого торта из пенополистирола со съедобными частями. Это может показаться красивым и значимым снаружи, и может даже приносить вам какое-то удовлетворение, но когда вы разрезаете срез и проникаете все глубже и глубже, вы обнаружите, что большая часть его искусственна.

Если вы один из тех, кто неправильно настроил свою Google Analytics, и вы обращаете внимание только на итоговые отчеты, вы, вероятно, не заметите, что с вашими реальными пользовательскими данными смешиваются всевозможные фиктивные.

И как следствие, вы не поймете, что ваши усилия тратятся на анализ данных, которые не отражают фактическую производительность вашего сайта.

Чтобы убедиться, что вы получаете только настоящие ингредиенты и не позволяете скармливать этот кусочек пенополистирола, я покажу вам, как использовать инструменты, которые предоставляет GA, чтобы устранить весь искусственный избыток, который раздувает ваши отчеты и искажает ваши данные.

Общие угрозы Google Analytics

Как и большинство людей, с которыми я работал, я всегда был одержим точностью данных, главным образом потому, что в качестве маркетолога / аналитика нет ничего хуже, чем понимать, что вы приняли неправильное решение, потому что ваши данные не были точны. Вот почему я постоянно изучаю новые способы улучшения их точности.

В результате этого исследования я написал свое первое сообщение о важности фильтрации в Google Analytics, в частности о призрачном спаме, что в то время было серьезной проблемой и остается такой по-прежнему (хотя и в меньшей степени).

Хотя описанные там методы по-прежнему весьма полезны, я с тех пор изучал решения для других типов спама Google Analytics и несколько других угроз, которые могут быть не столь раздражающими, но которые одинаково или даже более вредны для вашей Google Analytics.

Давайте рассмотрим один за другим.

Призраки, сканеры и другие типы спама

Команда GA сделала довольно хорошую работу с призрачным спамом. За последний год его количество значительно сократилось по сравнению началом 2015-2017 годов .

Тем не менее, миллионы текущих пользователей и тысячи новых, которые присоединяются каждый день, хотят знать знать, почему Google Analytics слишком привлекательная цель для спамеров. И вместо того, чтобы оставить его в покое – они все активнее пытаются влиять на данные.

Та же логика может быть применена к любому широко используемому и популярному инструменту: независимо от того, какие меры безопасности он имеет, всегда будут люди, пытающиеся злоупотреблять открытым исходным кодом этих сервисов для своих собственных интересов. Таким образом, разумно добавить дополнительный уровень безопасности.

Возьмем, к примеру, самую популярную CMS: WordPress. Несмотря на некоторые встроенные меры безопасности, если вы не предпримете дополнительных шагов для его защиты (например, установите сложное имя пользователя и пароль или установите плагин безопасности), вы рискуете быть взломанным.

То же самое происходит с Google Analytics, но вместо плагинов вы используете фильтры для его защиты.

В каких отчетах вы можете искать спам?

Спам-трафик обычно отображается как referral, но он может отображаться в любой части ваших отчетов даже в неожиданных местах, таких как язык или название страницы.

Иногда спамеры будут пытаться обмануть, используя вводящие в заблуждение URL-адреса, которые очень похожи на известные веб-сайты, или они могут попытаться привлечь ваше внимание, используя необычные символы и emojis в имени источника.

Как, например, российский спамер Виталий Попов, которые купил домен google.com и бомбардировал страницы Google Analytics фальшивыми рефералами.

Независимо от типа спама, есть три вещи, которые вы всегда должны делать, когда подозреваете, что нашли их в своих отчетах:

  1. Никогда не посещайте подозрительный URL. Большую часть времени они будут пытаться продать вам что-то или продвигать их услуги, но некоторые спамеры могут иметь некоторые вредоносные скрипты на своем сайте.
  2. Это само собой разумеется, но никогда не устанавливайте скрипты с неизвестных сайтов; если по какой-то причине вы это сделали, немедленно удалите его и просканируйте свой сайт на наличие вредоносных программ.
  3. Отфильтруйте спам в Google Analytics, чтобы ваши данные были чистыми (подробнее об этом ниже).

Если вы не уверены, действительно ли запись в вашем отчете реальна, попробуйте найти URL-адрес в поиске в кавычках («example.com»). Ваш браузер не откроет сайт, но вместо этого отобразит результаты поиска; если это спам, вы обычно увидите сообщения или форумы, в которых пользователи жалующиеся на этот адрес.

Трафик ботов

Бот – это часть программного обеспечения, которое запускает автоматические сценарии через Интернет для разных целей.

Есть очень большая разновидность ботов. У некоторых есть хорошие намерения, такие как боты, используемые для проверки контента, защищенного авторским правом, или те, которые индексируют ваш сайт для поисковых систем, и другие полезные.

2016. Источник: инкапсула

В любом случае, даже если эти боты безопасны (не говоря об остальных), этот тип трафика не подходит для ваших отчетов и может быть даже более опасным, чем спам, как из-за количества, так и из-за того, что его сложнее идентифицировать (и, следовательно, отфильтровывать его).

Стоит упомянуть, что боты могут быть заблокированы с вашего сервера, чтобы они не могли полностью получить доступ к вашему сайту, но обычно это связано с редактированием файлов, требующее высоких технических знаний, и, как я уже говорил, есть хорошие боты.

Таким образом, если вы не получаете прямую атаку, которая искажает ваши ресурсы, я рекомендую вам просто фильтровать их в Google Analytics.

В каких отчетах вы можете искать бот-трафик?

Боты, как правило, отображаются как прямой трафик в Google Analytics, поэтому вам придется создавать шаблоны, чтобы их можно было отфильтровать. Например, крупные компании, которые используют ботов для навигации по Интернету, обычно имеют уникальное имя поставщика услуг.

Я расскажу подробнее об этом ниже.

Внутренний трафик

Большинство пользователей волнуются и беспокоятся о спаме, что нормально – никто не любит странные URL-адреса, появляющиеся в их отчетах. Однако спам не является самой большой угрозой для вашей Google Analytics.

Трафик, создаваемый людьми (и ботами), работающими на сайте, часто упускается из виду, несмотря на огромное негативное влияние. Основная причина, по которой это так негативно, заключается в том, что в отличие от спама, внутренний трафик трудно идентифицировать, когда он попадает в вашу Analytics, и он может легко смешиваться с вашими реальными пользовательскими данными.

Существуют различные типы внутреннего трафика и различные способы борьбы с ним.

Прямой внутренний трафик

Вебмастера, разработчики, фрилансеры, маркетинговая команда, поддержка, аутсорсинг, администраторы … список можно продолжать долго. Любой член команды, посещающий веб-сайт компании или блог для любых целей, может внести свой вклад в создание искусственного трафика на сайт.

В каких отчетах вы можете искать прямой внутренний трафик?

Если ваша компания не использует частный домен Интернет-провайдера, этот трафик трудно определить, как только он попадет вам, и обычно будет отображаться как «Прямой» в Google Analytics.

Сторонние сайты / инструменты

Этот тип внутреннего трафика включает в себя трафик, созданный непосредственно вами (вашей CMS или плагинами) или вашей командой при использовании инструментов для работы на сайте.

Сюда также можно отнести трафик, поступающий от ботов, выполняющих автоматическую работу для вас; например, услуги, используемые для мониторинга производительности и скорости вашего сайта, такие как Pingdom или GTmetrix.

Некоторые типы инструментов, которые вы должны учитывать:

  • Управление сайтом
  • Управление социальными сетями
  • Услуги мониторинга производительности / времени работы
  • Инструменты SEO
В каких отчетах вы можете искать внутренний трафик сторонних инструментов?

Этот трафик обычно отображается в Google Analytics так:

Среда разработки / установки

Некоторые веб-сайты используют тестовую среду для внесения изменений, прежде чем применять их к основному сайту, например filezilla.

Как правило, в этих промежуточных средах есть такой же код отслеживания, что и вышеупомянутые сайты отслеживания производительности, поэтому, если вы его не отфильтровываете, все тесты будут записаны в Google Analytics.

В каких отчетах вы можете найти среду разработки / промежуточной подготовки?

Этот трафик обычно отображается как «Прямой» в Google Analytics, но вы можете найти его под своим собственным именем (подробнее об этом позже).

Сайты веб-архивов и службы кеширования

Архивные сайты, такие как Wayback Machine, предлагают просмотры истории веб-сайтов. Причина, по которой вы можете видеть эти посещения в вашей Google Analytics, даже если они не размещены на вашем сайте, заключается в том, что код отслеживания был установлен на вашем сайте, когда бот-машина Wayback Machine скопировала ваш контент в свой архив.

Одно можно сказать наверняка: когда кто-то идет проверять, как выглядит ваш сайт в 2015 году, у них нет никакого намерения покупать что-либо с вашего сайта – они просто делают это из любопытства, либо это какие-то разработчики-вебмастера, поэтому этот трафик не пригодится.

В каких отчетах вы можете искать трафик с сайтов веб-архива и служб кеширования?

Вы также можете определить этот трафик в отчете имени хоста.

Основное понимание фильтров

В описанных ниже решениях используются фильтры Google Analytics, поэтому, чтобы избежать проблем и путаницы, вам потребуется некоторое базовое понимание того, как они работают, и проверить некоторые предварительные условия.

Что нужно учитывать перед использованием фильтров:

1. Создайте нефильтрованный представление.

Прежде чем что-либо сделать, очень важно сделать нефильтрованный шаблон – это поможет вам отслеживать эффективность ваших фильтров. Кроме того, он сработает как резервная копия, если что-то пойдет не так.

2. Убедитесь, что у вас есть правильные права и разрешения.

Для создания фильтров вам понадобятся права на редактирование на уровне аккаунта; права с разрешением редактировать  на уровне шаблонов или свойств не будут работать.

3. Фильтры работают только с момента их применения.

В GA агрегированные статистические данные за ранние периоды не могут быть отфильтрованы. Поэтому, чем раньше вы применяете фильтры к своим данным, тем лучше.

4. Изменения, внесенные фильтрами, постоянны!

Если ваш фильтр настроен неправильно, потому что вы не указали правильное выражение (отсутствующие соответствующие записи, опечатка, дополнительное пространство и т. д.), вы рискуете потерять ценные данные НАВСЕГДА, нет способа восстановить отфильтрованные данные.

Но не беспокойтесь – если вы будете следовать приведенным ниже рекомендациям, у вас не должно быть проблем.

5. Проявите терпение.

В большинстве случаев вы можете увидеть эффект фильтра в течение нескольких минут или даже секунд после его применения, однако официально это может занять до двадцати четырех часов, поэтому будьте терпеливы.

Типы фильтров

Существуют два основных типа фильтров: встроенные и пользовательские.

Встроенные фильтры очень ограничены, поэтому я редко их использую. Я предпочитаю использовать пользовательские, потому что они позволяют регулярные выражения, что делает их намного более гибкими.

В пределах пользовательских фильтров существует пять типов: исключить, включить, ввести нижний регистр или верхний регистр, выполнить поиск и заменить, а также расширенный.

Здесь мы будем использовать первые два: исключить и включить. Мы оставим остальные для других случаев.

Основы регулярных выражений

Если вы уже знаете, как работать с регулярными выражениями, вы можете перейти к следующему разделу.

REGEX (сокращение от регулярных выражений) – это текстовые строки, подготовленные для сопоставления шаблонов с использованием некоторых специальных символов. Эти символы помогают сопоставить несколько записей в одном фильтре.

Не беспокойтесь, если вы ничего не знаете о них. Мы будем использовать только основы, а для некоторых фильтров вам просто нужно будет скопировать выражения, которые я предварительно создал.

Специальные символы REGEX

В REGEX есть много специальных символов, но для основных выражений GA мы можем сосредоточиться на трех:

  • ^ Каретка: используется для указания начала рисунка,
  • $ Знак доллара: используется для обозначения конца шаблона,
  • | Вертикальная черта или вертикальный слеш: означает «ИЛИ» и используется для указания того, что вы запускаете новый образец.

При использовании символа вертикальной черты вы никогда не должны:

  • Помещать ее в начале выражения,
  • Помещать ее в конце выражения,
  • Помещать сразу 2 или более вместе.

Любой из них испортит ваш фильтр и, возможно, вашу аналитику.

Простой пример использования REGEX

Скажем, я иду в ресторан, в котором есть автомат, который делает фруктовый салат, и выбирая фрукты, вы должны использовать регулярные выражения.

Эта супер машина имеет следующие фрукты на выбор: клубника, апельсин, голубика, яблоко, ананас и арбуз.

Чтобы сделать салат с моими любимыми фруктами (клубника, голубика, яблоко и арбуз), я должен создать REGEX, который соответствует всем им. Легко! Поскольку символ трубы «|» означает ИЛИ, я мог бы сделать это так:

  • REGEX 1: клубника | черника | яблоко | арбуз

Проблема с этим выражением состоит в том, что REGEX также рассматривает частичные совпадения, и поскольку ананас (pineapple) также содержит «яблоко» (apple), он также будет выбран … но я не люблю ананас!

Чтобы этого избежать, я могу использовать два других специальных символа, о которых я упоминал ранее, чтобы точно соответствовать яблоку. Каретка «^» (начинается здесь) и знак доллара «$» (заканчивается здесь). Это будет выглядеть так:

  • REGEX 2: клубника | черника | ^ яблоко $ | арбуз

Выражение будет точно выбирать те фрукты, которые я хочу.

Но скажем, ради примера скажу, что чем меньше элементов вы используете, тем дешевле будет салат. Чтобы оптимизировать выражение, я могу использовать возможность для частичных совпадений в REGEX.

Поскольку клубника и голубика содержат «ягоды» (berry), и никаких других фруктов в списке нет, я могу переписать свое выражение следующим образом:

  • Оптимизированный REGEX: ягода | ^ яблоко $ | арбуз

Вот и все – теперь я могу получить свой фруктовый салат с правильными ингредиентами и по более низкой цене. Это чем-то похоже на написание стилей css.

3 способа тестирования выражения фильтра

Как я упоминал ранее, изменения фильтра постоянны и их нельзя переназначить для прошедшего периода, поэтому вы должны убедиться, что ваши фильтры и REGEX верны. Есть три способа их тестирования:

  • Прямо из окна фильтра; просто нажмите «Проверить этот фильтр», быстро и просто. Тем не менее, это не самый точный вариант, поскольку он принимает только небольшую выборку данных.

  • Использование онлайн-теста REGEX – очень точные и красочные примеры, вы также можете многому научиться у них, поскольку они показывают вам точно соответствующие детали и дают вам краткое объяснение причин.

  • Использование временного фильтра in-table в GA ; вы можете проверить свой фильтр на всех ваших статистических данных. Это самый точный способ убедиться, что вы ничего не пропустили.

Если вы делаете простой фильтр или имеете уже большой опыт, вы можете использовать встроенную проверку фильтра. Однако, если вы хотите быть на 100% уверенным, что ваш REGEX в порядке, я рекомендую вам создать выражение в онлайн-тесте, а затем перепроверять его с помощью фильтра в таблице.

Быстрый вызов REGEX

Вот небольшое упражнение, чтобы вы освоились. Перейдите на этот пример с оптимизированным выражением для салата и проверьте первые 2 REGEX I. Вы увидите, как выражения влияют на список.

Теперь сделайте свое собственное выражение, чтобы заплатить как можно меньше за салат.

Запомните:

  • Нам нужны только клубника, голубика, яблоко и арбуз;
  • Чем меньше символов вы используете, тем меньше вы платите;
  • Вы можете выполнять небольшие частичные совпадения, если они не включают запрещенные плоды.

Совет. Вы можете сделать это всего за 6 символов.

Теперь, когда вы знаете основы REGEX, мы можем продолжать использовать фильтры ниже. Но я рекомендую вам « узнать больше об REGEX » – они могут быть невероятно полезны не только для GA, но и для многих инструментов, которые позволяют им.

Как создавать фильтры для предотвращения спама, ботов и внутреннего трафика в Google Analytics

Вернемся к нашему главному событию: фильтры!

С чего начать: Чтобы избежать повторения при описании нижеприведенных фильтров, выполните следующие стандартные шаги, которые необходимо выполнить для их создания:

  1. Перейдите в раздел администратора в своей Google Analytics (значок шестеренки в левом нижнем углу),
  2. В столбце «Вид» (главный вид) нажмите кнопку «Фильтры» (не нажимайте «Все фильтры» в столбце «Учетная запись»):
  3. Нажмите на красную кнопку «+ Добавить фильтр» ( если вы не видите ее, или вы можете применить  / удалить уже созданные фильтры, то у вас нет разрешения на уровне аккаунта. Обратитесь к администратору , чтобы получить такие права.
  4. Затем следуйте определенной конфигурации для каждого из фильтров ниже.

Окно фильтра – ваш лучший партнер для улучшения качества ваших данных Google Analytics, поэтому неплохо ознакомиться с ним. Вы увидите КАК это повлияет на результаты статистики и будите приятно удивлены чистоте данных.

Действительный фильтр имени хоста (призрачный спам, среды разработки)

Предотвращает трафик:

  • Призрачный спам (без взаимодействия с сайтом)
  • Разработка имен хостов
  • Web scraping (парсинг)
  • Сайты кэширования и архивирования

Этот фильтр может быть самым эффективным решением против спама. В отличие от других общедоступных решений, фильтр имен хостов является профилактическим, и его редко нужно обновлять.

Призрачный спам получил свое название, потому что он никогда не посещает ваш сайт. Он отправляется непосредственно на серверы Google Analytics, используя функцию «Протокол измерений», инструмент, который при нормальных обстоятельствах позволяет отслеживать с устройств, которые вы не могли себе представить, которые невозможно отследить, например, кофе-машины или холодильники.

Реальные пользователи проходят через ваш сервер, затем данные отправляются в GA; следовательно, он оставляет достоверную информацию. Спам Ghost отправляется непосредственно на серверы GA, не зная URL вашего сайта; поэтому все данные остаются поддельными. Источник: carloseo.com

Спамер злоупотребляет этой функцией, чтобы имитировать посещения вашего сайта, скорее всего, используя автоматические сценарии для отправки трафика на случайно сгенерированные коды отслеживания (UA-0000000-1).

Поскольку эти хиты случайны, спамеры не знают, кого они бьют; по этой причине призрачный спам всегда будет оставлять поддельный или (не установленный) хост. Используя эту логику, создав фильтр, который включает только действительные имена хостов, все спам-призраки будут отфильтованы.

Где найти ваши имена хостов

Теперь вот «сложная» часть. Чтобы создать этот фильтр, вам понадобится список допустимых имен хостов.

Список чего !?)

По сути, имя хоста – это любое место, где присутствует ваш код отслеживания GA. Вы можете получить эту информацию из отчета имени хоста:

  • Перейдите в «Аудитория»> «Выберите сеть»> В верхней части таблицы измените основное измерение на «Имя хоста».

Если ваш Analytics активен, вы должны увидеть хотя бы одно имя вашего домена. Если вы увидите больше, просмотрите их и составите список всех, которые относятся к вам.

Типы имени хоста вы также можете найти

Хорошие:

Тип пример
Ваш домен и субдомены yourdomain.com
Инструменты, подключенные к вашей Google Analytics YouTube, MailChimp
Платежные шлюзы Покупки, системы бронирования
Службы перевода Гугл переводчик
Мобильные ускоренные услуги Google weblight

Плохие (плохо, я имею в виду не полезно для ваших отчетов):

Тип Пример / Описание
Среда разработки / разработки staging.yourdomain.com
Сайты интернет-архива web.archive.org
парсинговые сайты URL парсера
Спам В большинстве случаев они будут показывать свой URL, но иногда они могут использовать имя известного веб-сайта, чтобы попытаться обмануть вас. Если вы видите URL-адрес, который вы не узнаете, просто подумайте: «Я могу это сделать?» Если ответ отрицательный, то это не ваше имя хоста.
(не задано) имя хоста Обычно это происходит от спама. В редких случаях это связано с проблемами кода отслеживания.

Ниже приведен пример моего имени хоста.

Теперь со списком ваших хороших имен хостов сделайте регулярное выражение. Если у вас есть только ваш домен, то это ваше выражение; если у вас больше, создайте выражение со всеми из них, как в примере с фруктовым салатом:

Имя хоста REGEX (пример) 
yourdomain.com | hostname2 | hostname3 | hostname4

Важно! Вы не можете создать более одного «Включить фильтр имен хостов»; если вы это сделаете, вы исключите все данные. Поэтому постарайтесь вместить все ваши имена хостов в одно выражение (у вас есть 255 символов).

Конфигурация «правильного имени хоста»:

  • Имя фильтра : включить допустимые имена хостов
  • Тип фильтра : Пользовательский> Включить
  • Поле фильтра : имя хоста
  • Шаблон фильтра : [имя хоста REGEX, которое вы создали]

Фильтр источника кампании (спам-робот, внутренние источники)

Предотвращает трафик:

  • Спам-робот
  • Внутренние сторонние инструменты (Trello, Asana, Pingdom)

Важное примечание. Даже если эти образы отображаются в качестве реферала, поле, которое вы должны использовать в фильтре, это «Источник кампании» – поле «Реферал» не будет работать.

Фильтр для спам-робота

Второй наиболее распространенный тип спама – искатель. Они также притворяются действительным визитом, оставляя поддельный URL-адрес источника, но, в отличие от спам-призрак, они получают доступ к вашему сайту. Поэтому они оставляют правильное имя хоста.

Вам нужно будет создать выражение так же, как фильтр имени хоста, но на этот раз вы наоборот соберете источник / URL-адреса спам-трафика. Разница в том, что вы можете создавать несколько фильтров исключений.

Crawler REGEX (пример) 
spam1 | spam2 | spam3 | spam4

Crawler REGEX (встроенный) 
Как я и обещал, здесь представлены последние встроенные выражения для искателя,которые вам просто нужно скопировать / вставить.

Конфигурация фильтра «спам-фильтр»:

  • Имя фильтра : исключить спам-робот 1
  • Тип фильтра : Пользовательский> Исключить
  • Поле фильтра : источник кампании
  • Шаблон фильтра : [искатель REGEX]

Фильтр для внутренних сторонних инструментов

Хотя вы можете комбинировать фильтр спам-роботов с внутренними сторонними инструментами, мне нравится их разделять, чтобы они были организованы и более доступны для обновлений.

Конфигурация «фильтр внутренних инструментов»:

  • Имя фильтра : исключить внутренние источники инструмента
  • Шаблон фильтра : [источник инструмента REGEX]

Внутренние инструменты REGEX (пример) 
trello | asana | redmine

В случае, если один из инструментов, которые вы используете внутри, также отправляет вам трафик от реальных посетителей, не фильтруйте его. Вместо этого используйте «Исключить внутренний URL-запрос» ниже.

Например, я использую Trello, но так как я обмениваюсь советами аналитиков на своем сайте, некоторые люди связывают их со своими учетными записями Trello.

Фильтры для языкового спама и других типов спама

Предыдущие два фильтра остановят большую часть спама, однако некоторые спамеры используют разные методы для обхода предыдущих решений.

Например, они пытаются запутать вас, показывая одно из ваших действительных имен хостов в сочетании с известным источником, например Apple, Google или Moz. Даже мой сайт был целью (не говоря о том, что все знают мой сайт, просто похоже, что спамеры не согласны с этим).

Однако, даже если источник и хост выглядят нормально, спамер вводит свое сообщение в другой части ваших отчетов, таких как ключевое слово, заголовок страницы и даже язык.

В этих случаях вам нужно будет принять размер / отчет, в котором вы найдете спам, и выбрать это имя в фильтре. Важно учитывать, что имя отчета не всегда совпадает с именем в поле фильтра:

Название отчета Поле фильтра
язык Языковые настройки
Направления Источник кампании
Органическое ключевое слово Искать термин
Поставщик услуг Организация ISP
Сетевой домен Домен интернет-провайдера

Вот несколько примеров.

Конфигурация «языковой спам / бот-фильтр»:

  • Имя фильтра : Исключить языковой спам
  • Тип фильтра : Пользовательский> Исключить
  • Поле фильтра : настройки языка
  • Шаблон фильтра : [Язык REGEX]

Языковой спам REGEX (Prebuilt) 
\ s [^ \ s] * \ s |. {15,} | \. |, | ^ C $

Вышеприведенное выражение исключает поддельные языки, которые не соответствуют требуемому формату. Например, возьмите эти странные сообщения, появляющиеся вместо обычных языков, таких как en-us или es-es:

Примеры языкового спама

Конфигурация фильтра фильтра органических / ключевых слов:

  • Имя фильтра : исключить органический спам
  • Тип фильтра : Пользовательский> Исключить
  • Поле фильтра : поисковый запрос
  • Шаблон фильтра : [ключевое слово REGEX]

Фильтры для прямого бот-трафика

Трафик ботов немного сложнее фильтровать, потому что он не оставляет следов как спам, но его тоже можно фильтровать при наличии терпения.

Первое, что вам нужно сделать, это включить фильтрацию ботов. По-моему, она должна быть включена по умолчанию.

Перейдите в раздел «Админ» в вашей Google Analytics и нажмите «Просмотреть настройки». Вы можете выбрать опцию «Исключить все хиты известных ботов и пауков» ниже селектора валют:

Было бы замечательно, если бы этот пункт позаботился о каждом боте – мечта бы сбылась. Тем не менее, ключевым здесь является слово «известно». Этот вариант касается только известных ботов, включенных в список «IAB известных ботов и пауков». Это хорошо, но этого недостаточно.

Существует много «неизвестных» ботов, которые не включены в этот список, поэтому вам придется играть в детектива и искать шаблоны прямого бот-трафика через разные отчеты, пока не найдете что-то, что можно безопасно отфильтровать, не рискуя своими реальными пользовательскими данными.

Чтобы начать поиск бот-трека, нажмите на поле «Сегмент» вверху любого отчета и выберите сегмент «Прямой трафик».

Затем перейдите по различным отчетам, чтобы узнать, находите ли вы что-нибудь подозрительное.

Некоторые отчеты начинаются с:

  • Поставщик услуг
  • Версия браузера
  • Сетевой домен
  • Разрешение экрана
  • Версия для Flash
  • Страна город

Признаки бот-трафика

Хотя ботов трудно обнаружить, есть некоторые сигналы, которые вы можете отследить:

  • Неестественное увеличение прямого трафика
  • Старые версии (браузеры, ОС, Flash)
  • Они посещают только домашнюю страницу (обычно представленную косой чертой «/» в GA)
  • Экстремальные показатели:
    • Показатель отказов близок к 100%,
    • Время сеанса близко к 0 секундам,
    • 1 страница за сеанс,
    • 100% новых пользователей.

Важно Если вы обнаружите трафик, который подпадает под многие из этих сигналов, это, скорее всего, бот-трафик. Однако не все записи с этими характеристиками являются ботами, и не все боты соответствуют этим шаблонам, поэтому будьте осторожны.

Возможно, самый полезный отчет, который помог мне определить бот-трафик, – это отчет «Поставщик услуг». Крупные корпорации часто используют собственное имя поставщика услуг Интернета.

У меня также есть встроенное выражение для ботов ISP, аналогичное выражению искателя.

Конфигурация фильтра бота ISP:

  • Имя фильтра : Исключить боты провайдером
  • Тип фильтра : Пользовательский> Исключить
  • Поле фильтра : организация провайдера
  • Шаблон фильтра : [провайдер ISP REGEX]

Поставщики ISP-провайдеров REGEX (prebuilt) 
hubspot | ^ google \ sllc $ | ^ google \ sinc \. $ | Alibaba \ .com \ sllc | ovh \ shosting \ sinc \.
Последнее выражение bot ISP

IP-фильтр для внутреннего трафика

Мы уже рассмотрели различные типы внутреннего трафика, один из тестовых сайтов (с фильтром имен хостов) и один из сторонних инструментов (с фильтром источника кампании).

Теперь пришло время взглянуть на наиболее распространенный: трафик, созданный вами непосредственно или любым членом вашей команды при работе над любой задачей для сайта.

Чтобы справиться с этим, стандартным решением нам нужно создать фильтр, который исключает все IP-адреса, используемые для работы на сайте.

Примеры мест / людей, которые должны быть отфильтрованы

  • офис
  • Поддержка
  • Главная
  • Разработчики
  • Гостиница
  • Кофейный магазин
  • Бар
  • Торговый центр
  • Любое место, которое регулярно используется для работы на вашем сайте

Чтобы найти общедоступный IP-адрес местоположения, на котором вы работаете, просто выполните поиск «моего IP-адреса» в Google. Вы увидите одну из следующих версий:

Версия IP пример
Короткие IPv4 1.23.45.678
Длинные IPv6 2001: 0db8: 85a3: 0000: 0000: 8a2e: 0370: 7334

Независимо от того, какую версию вы видите, создайте список с IP-адресом каждого места и поместите их вместе с REGEX, так же, как и с другими фильтрами.

  • Выражение IP-адреса: IP1 | IP2 | IP3 | IP4 и т. Д.

Конфигурация статического IP-фильтра:

  • Имя фильтра : исключить внутренний трафик (IP)
  • Тип фильтра : Пользовательский> Исключить
  • Поле фильтра : IP-адрес
  • Шаблон фильтра: [Выражение IP]

Случаи, когда этот фильтр не будет оптимальным:

Есть некоторые случаи, когда фильтр IP не будет эффективным:

  • Вы используете анонимизацию IP (требуется по регулированию ВВП). Когда вы анонимизируете IP-адрес в GA, последняя часть IP изменяется на 0. Это означает, что если у вас есть 1.23.45.678, GA передаст его как 1.23.45.0, поэтому вам нужно поместить его так же в  свой фильтр. Проблема в том, что вы можете исключить другие IP-адреса, которые не являются вашими.
  • Ваш интернет-провайдер часто меняет ваш IP-адрес (динамический IP-адрес). В последнее время это стало распространенной проблемой, особенно если у вас длинная версия (IPv6).
  • Ваша команда работает из нескольких мест. Способ работы меняется – теперь не все компании работают в центральном офисе. Часто бывает, что некоторые из них будут работать из дома, другие из поезда, в кафе и т. Д. Вы можете фильтровать эти места; однако сохранение списка исключаемых IP-адресов может быть кошмаром,
  • Вы или ваша команда часто путешествуете. Как и в предыдущем сценарии, если вы или ваша команда постоянно путешествуете, вы не можете идти в ногу с IP-фильтрами.

Если вы проверите один или несколько из этих сценариев, то этот фильтр не является оптимальным для вас; Я рекомендую вам попробовать фильтр «Расширенный внутренний URL-запрос» ниже.

Фильтр URL-адресов для внутреннего трафика

Если в компании работают десятки или сотни сотрудников, чрезвычайно сложно их исключить, когда они путешествуют, доступ к сайту из их личных мест или мобильных сетей.

Вот где запрос URL-адреса приходит на помощь. Чтобы использовать этот фильтр, вам просто нужно добавить параметр запроса. Я добавляю «?» По любой ссылке, которую ваша команда использует для доступа к вашему сайту:

  • Внутренние информационные бюллетени
  • Инструменты управления (Trello, Redmine)
  • Письма для коллег
  • Также работает добавление его непосредственно в адресную строку браузера

Основной внутренний фильтр URL-адресов

Основная версия этого решения – создать фильтр, чтобы исключить любой URL-адрес, содержащий запрос «? Internal».

  • Имя фильтра : исключить внутренний трафик (URL-запрос)
  • Тип фильтра : Пользовательский> Исключить
  • Поле фильтра : запрос URI
  • Шаблон фильтра: \? Внутренний

Это решение идеально подходит для случаев, когда пользователь, скорее всего, останется на целевой странице, например, при отправке бюллетеня всем сотрудникам для проверки нового сообщения.

Если пользователь, скорее всего, посещает более целевую страницу, то последующие страницы будут записаны.

Расширенный внутренний фильтр запросов URL-адресов

Это решение является чемпионом всех фильтров внутреннего трафика!

Это более полная версия предыдущего решения и работает, динамически фильтруя внутренний трафик с помощью Диспетчера тегов Google , настраиваемого GA и файлов cookie.

Хотя это решение немного сложнее настроить:

  • Вариант не нуждается в обслуживании
  • Любой член команды может использовать его, не нужно объяснять технические вещи
  • Может использоваться из любого места
  • Может использоваться с любого устройства и любого браузера

Чтобы активировать фильтр, вам просто нужно добавить текст «?» На любой URL-адрес веб-сайта.

Это добавит небольшой куки-файл в браузер, который скажет GA не записывать посещения этого браузера.

И самое лучшее, что cookie останется там в течение года (если только он не будет удален вручную), поэтому пользователю не нужно добавлять «?» Каждый раз.

Бонусный фильтр: включить только внутренний трафик

В некоторых случаях интересно знать трафик, генерируемый сотрудниками – возможно, потому, что вы хотите измерить успех внутренней кампании или просто потому, что вы любопытный человек.

В этом случае вы должны создать дополнительный вид, назовите его «Только внутренний трафик» и используйте один из внутренних фильтров выше. Только один! Потому что, если у вас есть несколько включенных фильтров, хит должен соответствовать всем из них для подсчета.

Если вы настроили фильтр «Расширенный внутренний URL-запрос», используйте его. Если нет, выберите один из других.

Конфигурация точно такая же – вам нужно только изменить «Исключить» для «Включить».

Очистка статистических данных

Фильтры предотвратят будущие удары от нежелательного трафика.

Но как насчет данных прошлых периодов?

Я знаю, что я сказал вам, что удаление агрегированных данных невозможно в GA. Тем не менее, есть еще способ временно очистить хотя бы часть неприятного трафика, который уже загрязнил ваши отчеты.

Для этого мы будем использовать расширенный сегмент (подмножество данных Google Analytics). Есть встроенные сегменты, такие как «Органический» или «Мобильный», но вы также можете создавать их, используя свой собственный набор правил.

Чтобы очистить наши статистические данные, мы построим сегмент, используя все выражения из вышеперечисленных фильтров в качестве условий (за исключением тех, что от IP-фильтра, поскольку IP-адреса не хранятся в GA, следовательно, они не могут быть сегментированы).

Чтобы помочь вам начать работу, вы можете импортировать этот шаблон сегмента .

Вам просто нужно следовать инструкциям на этой странице и заменять заполнители. Вот как это выглядит:

В фактическом шаблоне весь текст черный; цвета просто помогают вам визуализировать условия.

После импорта его, выберите сегмент:

  1. Нажмите на поле с надписью «Все пользователи» в верхней части любого из ваших отчетов
  2. Из списка сегментов отметьте «0». Все пользователи – Очистить “
  3. Наконец, снимите флажок «Все пользователи»,

Теперь вы можете перемещаться по своим вкладкам, и весь нежелательный трафик, включенный в сегмент, будет удален.

Несколько вещей, которые следует учитывать при использовании этого сегмента:

  • Сегменты должны выбираться каждый раз. Способ его выбора по умолчанию заключается в добавлении закладки при выборе сегмента.
  • Вы можете удалить или добавить условия, если вам нужно.
  • Вы можете отредактировать сегмент в любое время, чтобы обновить его или добавить условия (откройте список сегментов, затем нажмите «Действия», затем «Изменить»).

  • Выражение имени хоста и сторонние выражения инструментов разные для каждого сайта.
  • Если ваш сайт имеет большой объем трафика, сегменты могут отображать ваши данные при их выборе, поэтому, если вы видите, что значок маленького щита в верхней части ваших отчетов становится желтым (обычно зеленый), попробуйте выбрать более короткий период (т.е. 1 год, 6 месяцев, один месяц).

Вывод: Какой торт вы едите?

Иметь реальные и точные данные важно. Если вы не отфильтровали их правильно, то почти наверняка, что они будут заполнены всякими мусорными и искусственными данными.

Хуже всего то, что если вы не понимаете, что ваши отчеты содержат поддельные данные, вы, вероятно, ошибетесь или сделаете неправильные решения, решив следующие шаги для своего сайта или бизнеса.

Фильтры, которые я рассказываю выше, помогут вам предотвратить три наиболее вредных угрозы, которые загрязняют вашу Google Analytics, и не позволяют вам получить четкое представление о фактической производительности вашего сайта: спам, боты и внутренний трафик.

После того, как эти фильтры будут в действии, вы можете быть уверены, что ваши усилия (и деньги!) не будут потрачены впустую на анализ обманчивых данных Google Analytics, и ваши решения будут основаны на достоверной информации.

И преимущества здесь не исчерпываются. Если вы используете другие инструменты, которые импортируют данные из GA, например, плагины WordPress, такие как GADWP, excel add-ins, такие как AnalyticsEdge или SEO-пакеты, такие как Moz Pro , преимущества будут распространяться на всех из них.

Кроме того, подчеркивая важность фильтров в GA (которые, я надеюсь, я прояснил к настоящему времени), я также хотел бы подготовить эти фильтры, чтобы вдохновить любопытство и основу для создания других манипуляций, которые позволят вам делать всевозможные замечательные вещи с вашими данными.

Помните, что фильтры не только позволяют вам уйти от мусора, вы также можете использовать их для изменения вашей реальной информации о пользователе, но об этом в другом случае.

Также отличная статья на эту тему.

Источник

Свидетельство о регистрации СМИ в РКН: ЭЛ № ФС77-83818 от 29.08.2022

Оставьте комментарий

Пожалуйста, введите Ваш комментарий
Пожалуйста, введите Ваше имя здесь

Гаджеты

Как выбрать Pod-систему

Если вы решили перейти с сигарет на вейпинг и выбираете свою первую Pod-систему, есть несколько важных аспектов, на которые...

Также на эту тему