DELETED
Online, последняя активность 1970-01-01 03:00:00
(..)

0

?

?

друзья подписчики изменения скрывающие скрытые

Кого добавил в друзья и на кого подписался DELETED ",. Новые подписчики.

Обновляем изменения в друзьях...

Теперь изменения в списке друзей будут отслеживаться. Каждый раз при посещении этой страницы будет происходить повторная проверка.


Для оперативного получения новой информации добавьте эту страницу в закладки. (На компьютере Ctrl+D)

Открытые анкетные данные ", DELETED:


Упоминание DELETED ", в коментариях и постах


Продолжаю про очередной #deephack. Начало: https://vk.com/kalaidin?w=wall143978_1455

Часть ботов была весьма продвинута (см пример, где Alice - бот, а Bob - Алексей).

До хакатона был отборочный раунд на кегле: https://inclass.kaggle.com/c/human-or-machine-generated-text, придуманные фичи с которого Игоря и Павла мы использовали как боевые с самого начала.

Теперь к подходу - финальная метрика определялась тем, как хорошо мы отранжируем ботов и людей между собой. Задача усложнялась тем, что некоторые люди писали как боты (и получали соответствующие оценки), так и хорошим ботам иногда ставили плохие оценки.

Тем не менее идея была проста:
1) данных мало (скажем, 1000 диалогов вида Alice - Bob). Как же нам набрать данных?

2) гипотеза: бота можно определить только по его репликам

3) генерим пары всех со всеми (1e6 пар, much more!)

4) берем фичи с существующих моделей (например средний w2v всех реплик бота, длину реплик или как далеко первая реплика бота отстоит от контекста, который нужно обсуждать) для обоих ботов в паре

5) учимся предсказывать, что оценка первого собеседника в паре больше оценки второго (xgboost, logloss, nothing serious)

6) на этапе предсказаний суммируем предсказания по всем 1000 парам, где присутствует определенный бот. То есть результат - это бот лучше, например, 600 других ботов, это и есть финальный рейтинг. Абсолютные значение для метрики не важны, важен порядок.

Как выяснилось на постерной сессии, такой подход никто не использовал, хотя вроде обсуждали; он на достаточно простых фичах и без ансамблей моделей (финальный сабмит - ровно одна модель) выдал весьма приличный результат.

Метод между собой называли HBO, чтобы не спойлерить решение. В воскресенье он удачно расшифровался в human bot order :)
Ссылка на источник


Сайт не являеет официальным сайтом вКонтакте
Политика обработки персональных данных
Время выполнения скрипта: 0.42941212654114 сек.