Как определить фейковые отзывы

Данная статья рассматривает вопрос с технической точки зрения и предназначена для веб-мастеров, а также спаммеров тех, кто хочет оставить комментарии с разных аккаунтов, но с одного устройства.
Что знает о нас любой сайт?
Часть параметров передаёт браузер при обращении к серверу, а другую часть можно определить с помощью яваскрипта и передать аяксом.
- IP-адрес
- название и версию ОС
- название и версию браузера
- разрешение экрана и размер окна браузера
- прочие параметры...
Айпи можно скрыть с помощью специальных сервисов или плагинов. Про остальное обычно забывают. Однако этих данных достаточно, чтобы с большой вероятностью вычислить спам-комментарии на одном и том же сайте (или на сетке своих сайтов, или в сообществе сайтов одной тематики).
Пример расчёта
Для упрощения будем считать, что распределение параметров равномерное. В реальности это не так: есть рейтинг браузеров, гаджетов, а браузеры обычно последней версии. Это увеличивает погрешность.
С другой стороны, мы берём только 5 параметров. Если добавить больше параметров, это увеличит точность расчётов.
Особенно эффективны поведенческие параметры, например, скорость печатания пользователя внутри текстовых форм.
Возьмём минимальные округлённые цифры:
Количество ОС | 5 |
Версий каждой ОС | 5 |
Количество браузеров | 5 |
Версий браузеров | 5 |
Разрешения экрана | 10 |
Итого различных комбинаций: 5×5×5×5×10 = 6250.
Будем считать, что окно развёрнуто во весь экран (например, браузер TOR не рекомендует разворачивать окно, ведь это дополнительный признак, снижающий вашу анонимность).
Допустим, в ветке 20 комментариев от разных реальных людей, и мы добавляем ещё 3 ответа — от Маши, Васи и Пети — с одного компьютера, но меняя IP-адрес. Значит, все параметры у нас одинаковые, кроме подставного IP.
Поставим себя на место владельца сайта, который хочет вычислить спамеров или нечестные отзывы. Какая вероятность, что Маша, Вася и Петя — реальные люди? Иными словами, какая вероятность, что у 3 из 23 случайных посетителей сайта совпадут все параметры?
Формулу для данного случая не нашёл. Решил, что быстрее и надёжнее написать программу для оценки вероятности, чем выводить формулу. Программа выдала вероятность: 0,0004. Проверить результат и попробовать другие цифры можно здесь: Калькулятор вероятности.
С вероятностью 99,96% наши 3 отзыва — фейковые.
Изначально я не предполагал, что получится так близко к 100%.
Выводы делайте сами 😃
Смотрите также
Комментарии
Дальнейшие комментарии закрыты. По всем вопросам пишите или звоните мне лично, см. раздел Контакты