Как определить фейковые отзывы

Данная статья рассматривает вопрос с технической точки зрения и предназначена для веб-мастеров, а также спаммеров тех, кто хочет оставить комментарии с разных аккаунтов, но с одного устройства.

Что знает о нас любой сайт?

Часть параметров передаёт браузер при обращении к серверу, а другую часть можно определить с помощью яваскрипта и передать аяксом.

  • IP-адрес
  • название и версию ОС
  • название и версию браузера
  • разрешение экрана и размер окна браузера
  • прочие параметры...

Айпи можно скрыть с помощью специальных сервисов или плагинов. Про остальное обычно забывают. Однако этих данных достаточно, чтобы с большой вероятностью вычислить спам-комментарии на одном и том же сайте (или на сетке своих сайтов, или в сообществе сайтов одной тематики).

Пример расчёта

Для упрощения будем считать, что распределение параметров равномерное. В реальности это не так: есть рейтинг браузеров, гаджетов, а браузеры обычно последней версии. Это увеличивает погрешность.

С другой стороны, мы берём только 5 параметров. Если добавить больше параметров, это увеличит точность расчётов.

Особенно эффективны поведенческие параметры, например, скорость печатания пользователя внутри текстовых форм.

Возьмём минимальные округлённые цифры:

Количество ОС 5
Версий каждой ОС 5
Количество браузеров 5
Версий браузеров 5
Разрешения экрана 10

Итого различных комбинаций: 5×5×5×5×10 = 6250.

Будем считать, что окно развёрнуто во весь экран (например, браузер TOR не рекомендует разворачивать окно, ведь это дополнительный признак, снижающий вашу анонимность).

Допустим, в ветке 20 комментариев от разных реальных людей, и мы добавляем ещё 3 ответа — от Маши, Васи и Пети — с одного компьютера, но меняя IP-адрес. Значит, все параметры у нас одинаковые, кроме подставного IP.

Поставим себя на место владельца сайта, который хочет вычислить спамеров или нечестные отзывы. Какая вероятность, что Маша, Вася и Петя — реальные люди? Иными словами, какая вероятность, что у 3 из 23 случайных посетителей сайта совпадут все параметры?

Формулу для данного случая не нашёл. Решил, что быстрее и надёжнее написать программу для оценки вероятности, чем выводить формулу. Программа выдала вероятность: 0,0004. Проверить результат и попробовать другие цифры можно здесь: Калькулятор вероятности.

С вероятностью 99,96% наши 3 отзыва — фейковые.

Изначально я не предполагал, что получится так близко к 100%.
Выводы делайте сами :)

Заметка понравилась? → Поделитесь в соцсетях:

Ваш комментарий

comments powered by HyperComments

Следующая заметка

Иван ТитовИван Титов
Фрилансер, музыкант, физтех по жизни, семьянин, философ.
© 2017