ShiftRy

Что такое ShiftRy

ShiftRy - это веб-сервис для анализа диахронических изменений в употреблении слов в российских новостях. Он назван в честь покемона Шифтри (англ. shift - «сдвиг»), внешне похожего на японских тэнгу. Мы используем диахронические дистрибутивные модели, обученные на большом корпусе русскоязычных новостных текстов, опубликованных в период с 2010 по 2020 год.

Вы можете исследовать историю семантических сдвигов любого заданного слова или получить списки слов, упорядоченных по силе семантических изменений между двумя данными годами. Также мы предоставляем визуализации «траекторий» слов через время, от одних значений к другим. Возможно получить корпусные примеры употребления конкретного слова до и после семантического сдвига.

Мы планируем обновлять ShiftRy ежегодно.

Рассказ о ShiftRy на конференции "Диалог-2020"

Источники новостных текстов

  1. Фонтанка (только до 2020)

  2. Газета.ру (только до 2020)

  3. Интерфакс (только до 2020)

  4. Известия (только до 2020)

  5. Комсомольская правда

  6. Лента.ру

  7. Новая Газета

  8. N + 1

  9. РБК

  10. The Village

Диахронические дистрибутивные модели

Векторные семантические модели (word embeddings) на этом сайте были обучены на новостных текстах, опубликованных российскими СМИ в период между 2010 и 2020 годами. Полный корпус за 11 лет содержит около 185 миллионов слов, с годовыми размерами подкорпусов от 9 миллионов (2014) до 29 миллионов (2020) слов. Модели были выровнены при помощи Procrustes transformation, и полностью совместимы друг с другом.

Скачать модели:


Создатели ShiftRy

Работа по созданию ShiftRy велась в рамках магистерской программы по компьютерной лингвистике в Высшей школе экономики. Участники проекта:

Исходный код проекта на GitHub

Наши публикации о поиске изменений в значениях слов: