ShiftRy - это веб-сервис для анализа диахронических изменений в употреблении слов в российских новостях. Он назван в честь покемона Шифтри (англ. shift - «сдвиг»), внешне похожего на японских тэнгу. Мы используем диахронические дистрибутивные модели, обученные на большом корпусе русскоязычных новостных текстов, опубликованных в период с 2010 по 2020 год.
Вы можете исследовать историю семантических сдвигов любого заданного слова или получить списки слов, упорядоченных по силе семантических изменений между двумя данными годами. Также мы предоставляем визуализации «траекторий» слов через время, от одних значений к другим. Возможно получить корпусные примеры употребления конкретного слова до и после семантического сдвига.
Мы планируем обновлять ShiftRy ежегодно.
Фонтанка (только до 2020)
Газета.ру (только до 2020)
Интерфакс (только до 2020)
Известия (только до 2020)
Векторные семантические модели (word embeddings) на этом сайте были обучены на новостных текстах, опубликованных российскими СМИ в период между 2010 и 2020 годами. Полный корпус за 11 лет содержит около 185 миллионов слов, с годовыми размерами подкорпусов от 9 миллионов (2014) до 29 миллионов (2020) слов. Модели были выровнены при помощи Procrustes transformation, и полностью совместимы друг с другом.
Скачать модели:
Работа по созданию ShiftRy велась в рамках магистерской программы по компьютерной лингвистике в Высшей школе экономики. Участники проекта:
Андрей Кутузов (Университет Осло)
Вадим Фомин (Высшая Школа Экономики)
Владислав Михайлов (Высшая Школа Экономики, Сбербанк)
Юлия Родина (Высшая Школа Экономики)
Исходный код проекта на GitHub
Наши публикации о поиске изменений в значениях слов: