20 лет НКРЯ: люди, язык и технологии

спецпроект

{"points":[{"id":7,"properties":{"x":0,"y":0,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}},{"id":9,"properties":{"x":252,"y":-1,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}},{"id":14,"properties":{"x":252,"y":348,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}}],"steps":[{"id":8,"properties":{"duration":5,"delay":0,"bezier":[],"ease":"Power2.easeOut","automatic_duration":true}},{"id":15,"properties":{"duration":4,"delay":0,"bezier":[],"ease":"Power2.easeIn","automatic_duration":true}}],"transform_origin":{"x":0.5,"y":0.5}}

20 лет НКРЯ

Люди, язык и технологии

В Национальном корпусе русского языка собраны русскоязычные тексты общим объемом более 2 миллиардов слов. С помощью НКРЯ лингвисты изучают язык менее субъективно, чем раньше, когда ученый мог написать труд, исходя из своего кругозора и небольшого количества текстов, к которым у него был доступ. Теперь лингвисты могут открыть Корпус и найти тысячи самых разных примеров того, как ведет себя то или иное слово в самых разных контекстах — от классической литературы до соцсетей, от берестяных грамот до кино.

Переводчикам НКРЯ помогает узнать, как их коллеги переводили слова и словосочетания на иностранные языки и обратно. А людям вне лингвистики НКРЯ помогает узнать что-нибудь интересное о русском языке: например, что «надо» говорят в два раза чаще, чем «нужно», а в XX веке со словом «собес» ассоциировались поликлиника, финотдел, регистратура.

В апреле 2024 года НКРЯ исполняется 20 лет. Его создатели вспомнили, как начинался проект, с какими трудностями сталкивался, какие технологии помогают ему развиваться и при чем здесь Яндекс.

{"points":[{"id":1,"properties":{"x":0,"y":0,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}},{"id":3,"properties":{"x":1422,"y":1,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}}],"steps":[{"id":2,"properties":{"duration":22101,"delay":0,"bezier":[],"ease":"Power2.easeInOut","automatic_duration":false}}],"transform_origin":{"x":0.5,"y":0.5}}

октябрь

Семинары о технологиях
для лингвистики

Московские лингвисты обсуждали, какие инструменты для исследований можно создать с помощью новых технологий: баз данных, автоматического поиска, интеллектуальных систем и корпусов текстов.

Владимир Александрович Плунгян, академик РАН, профессор, заведующий отделом корпусной лингвистики и лингвистической поэтики Института русского языка имени В. В. Виноградова РАН и сектором типологии Института языкознания РАН (Москва).

Михаил Александрович Даниэль, кандидат филологических наук, российский лингвист.

В семинарах участвовали лингвисты Центра лингвистической документации под руководством В. А. Плунгяна и М. А. Даниэля.

{"points":[{"id":7,"properties":{"x":0,"y":0,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}},{"id":9,"properties":{"x":-1,"y":486,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}},{"id":10,"properties":{"x":227,"y":253,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}}],"steps":[{"id":8,"properties":{"duration":486,"delay":0,"bezier":[],"ease":"Power0.easeNone","automatic_duration":true}},{"id":11,"properties":{"duration":233,"delay":0,"bezier":[],"ease":"Power0.easeNone","automatic_duration":false}}],"transform_origin":{"x":0.5,"y":0.5}}

В. А. Плунгян:

Если упростить, то лингвист — это человек, которому нужно выписать из текста примеры того, что его интересует.

Допустим, я решил изучать вид глагола в прошедшем времени. Для этого мне нужны примеры с такими глаголами. Тогда я смогу их посмотреть, проанализировать, обобщить и прочее.

Корпус — отобранная по определенному признаку совокупность текстов, на основе которых можно исследовать язык. В НКРЯ десятки корпусов. Например, из текстов Поэтического корпуса можно узнать, что любимый стихотворный размер А. С. Пушкина — четырехстопный ямб, а по текстам Корпуса региональных СМИ — исследовать поведение слов в публицистике.

Раньше лингвисты открывали книгу и выписывали нужные примеры, что могло занимать месяцы и годы. Это было некоторое искусство, которое эпоха 90-х стала превращать в рутину благодаря новым технологиям и интернету.

Сергей Александрович Шаров, кандидат физико-математических наук, преподаватель Центра исследований перевода факультета гуманитарных наук Лидсского университета (Лидс, Великобритания).

Корпусная лингвистика — раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использованием лингвистических корпусов (корпусов текстов).

Мы без конца говорили, что продолжаем искать «кустарно» и нужно с этим что-то делать. И тогда впервые мы услышали слово «корпус». Кажется, его произнес С. А. Шаров, который уже тогда занимался корпусной лингвистикой и был хорошо знаком с существующими за рубежом корпусами.

январь

Формируется коллектив
Корпуса

Илья Валентинович Сегалович (1964–2013), технический директор Яндекса.

Виталий Александрович Титов, программист Яндекса.

Лингвисты и технические специалисты из Яндекса — И. В. Сегалович
и В. А. Титов — договариваются вместе работать над созданием Национального корпуса русского языка.

Предполагалось, что в Корпус войдут культурно значимые литературные тексты, а основной разметкой будет морфологическая.

В. А. Плунгян:

Илья Сегалович сыграл колоссальную роль. Он просто пришел на какой-то из семинаров и сказал, что услышал о нашем желании создать Корпус, который как раз нужен был Яндексу для своих целей. У Яндекса не было лингвистов, а у нас не было технических специалистов, поэтому все совпало. Сам Сегалович был удивительным человеком: всегда интересовался лингвистикой, любил лингвистов.

{"points":[{"id":7,"properties":{"x":0,"y":0,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}},{"id":9,"properties":{"x":249,"y":0,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}},{"id":12,"properties":{"x":249,"y":505,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}}],"steps":[{"id":8,"properties":{"duration":125,"delay":0,"bezier":[],"ease":"Power0.easeNone","automatic_duration":true}},{"id":13,"properties":{"duration":505,"delay":0,"bezier":[],"ease":"Power0.easeNone","automatic_duration":true}}],"transform_origin":{"x":0.5,"y":0.5}}

Со стороны лингвистов у нас было и есть очень сплоченное сообщество выпускников Отделения теоретической и прикладной лингвистики МГУ. Еще в 60-х отделение основали математики, и окончившие обучение лингвисты могли заниматься сложными проблемами, связанными с языком, мышлением, человеком, но действуя точными методами.

Все это небольшая среда, мы все единомышленники, поэтому неудивительно, что именно у нас возникло желание создать Корпус.

На первых порах мы спорили о том, какие тексты в Корпус включать. С высоты сегодняшнего дня ответ простой: нужно включать любые тексты. Корпус на то и Корпус, чтобы как можно полнее отражать язык.

июнь

Морфологическая разметка

Чтобы лингвисты быстро находили нужные им примеры, тексты нужно было разметить — указать для каждого слова морфологические признаки: часть речи, форму и прочее.

В то время разметка делалась полностью вручную. Так, студенты и аспиранты МГУ и РГГУ разметили миллион слов текстов второй половины XX века.

сентябрь

Автоматическая
разметка MyStem

Команда формулирует характеристики будущего Корпуса: полный, культурно-репрезентативный, «эталонный» и включающий прозу 1965–2000 годов.

Понимая, что большие объемы текстов вручную не разметить, Илья Сегалович вместе с лингвистами совершенствует программу автоматической разметки MyStem.

Из воспоминаний лингвистов:

Омонимия — неоднозначность форм слова. Например, слово «печь» одновременно может быть и глаголом, и существительным.

Снять омонимию — придать однозначность слову и его грамматическому разбору в конкретном примере.

В то время уже существовали разные маленькие корпуса, созданные лингвистами для своих целей. Кто-то размечал синтаксис, кто-то составлял словарь и подбирал для него примеры.

Нам нужен был большой корпус. А на раннем этапе стало понятно, что снять омонимию с 6 миллионов слов можно, но снять с 60 миллионов или даже 6 миллиардов крайне сложно и ресурсозатратно.

Например, «отца» — родительный или винительный падеж? Обычно выбор ясен, но есть контексты типа «не знал родного отца», когда это может быть и то и другое. Неснятая омонимия нужна, чтобы показать такие неоднозначные примеры. Кроме того, и автоматическая разметка, и человек, размечая, могут случайно ошибиться и отнести в итоге пример не к тому падежу, и лингвист из-за ошибки в разметке что-то важное может упустить.

Но неснятая омонимия — признак уходящей эпохи. Сейчас все большие корпуса используют грамматическую разметку с помощью нейросетевых механизмов. Тот объем, который может разметить нейросеть, компенсирует ее ошибки.

Схема устройства полуавтоматической разметки в 2000-х. Источник

Идея нескольких корпусов

лето

С. А. Шаров предлагает расширить проект: создать не один корпус, а несколько — с другим составом текстов и видами разметки. Лингвисты решают разные задачи, поэтому и корпуса должны отличаться.

апрель

Корпус открыт
для свободного доступа

Сайт заработал на сервере Яндекса. Посмотреть, как он выглядел тогда, можно в Музее НКРЯ.

Главная страница старой версии сайта НКРЯ. Источник

50 миллионов слов
во всем НКРЯ

апрель

октябрь

Открыт первый
параллельный корпус

Параллельный корпус упрощает работу лингвистов. Используя его, они могут быстро и удобно сравнить текст на русском и иностранном языке.

Первым параллельным корпусом был русско-английский и англо-русский. Сейчас в НКРЯ 28 параллельных корпусов.

Слово «удалой». Его не встретить в русскоязычных переводах Стейнбека или Диккенса. Однако «удалой» встречается у Гоголя и Булгакова и на английский слово каждый раз переводят по-новому.

апрель

Появились два новых корпуса —
Поэтический и Диалектный

ноябрь

Открыт
Обучающий корпус

Светлана Олеговна Савчук, кандидат филологических наук, ведущий научный сотрудник отдела корпусной лингвистики и лингвистической поэтики Института русского языка имени В. В. Виноградова РАН (Москва).

С. О. Савчук :

Обучающий корпус создан для тех, кто преподает русский язык. В первую очередь для школьных учителей, которым приходится постоянно придумывать новые задания и упражнения. С помощью корпуса за несколько секунд можно получить сотни примеров для составления упражнений, что экономит время преподавателя.

При этом для школьного обучения подходят не всякие тексты, а только те, которые соответствуют нормам современной орфографии и пунктуации. Морфологический разбор в школе также отличается от разметки в корпусе — например, в школе не изучают местный или второй родительный падеж. Все это было учтено при подготовке Обучающего корпуса.

Сейчас в Обучающем корпусе уже более 13 миллионов слов. Мы также разработали систему упражнений на основе корпуса и поместили их на отдельную страницу. Упражнения можно использовать в готовом виде или составлять на их основе свои собственные задания.

март

Открыт Синтаксический корпус
и Корпус устной речи

Оборот «все равно» имеет несколько значений: «по-любому», «безразлично» и «эквивалентно». В зависимости от значения меняются и особенности употребления этого оборота.

октябрь

Открыт
Акцентологический корпус

В XVIII веке ударение в слове «музыка» падало на второй слог. А в течение XIX века слово поменяло свое ударение — оно переместилось со второго слога на первый. В современной версии Акцентологического корпуса можно посмотреть на графике, как именно проходил этот процесс.

февраль

Открыт
Газетный корпус

июль

KWIC (Key Word in Context) — режим, в котором поиск выдает результаты так, что явно выделено центральное слово, а слева и справа от него находится контекст.

Новый формат выдачи —
KWIC

KWIC помещает искомое слово в центр экрана выдачи. Тогда слева от него оказывается предшествующий контекст, а справа — последующий.

Алексей Игоревич Зобнин, программист компании Яндекс.

А. И. Зобнин :

Мы сделали две вещи, которые были новыми для Корпуса. Первая — это графики, на которых можно было видеть частоту употребления тех или иных слов. Вторая — особый формат выдачи, который называется Key Word in Context, или KWIC, когда слово, которое ты ищешь, стоит по центру, а все контексты — по бокам от него.

Частотность — показатель того, как часто в корпусе встречается заданное слово, его конкретная форма или искомые грамматические признаки.

сентябрь

Появился частотный
словарь Корпуса

Самые частотные существительные в русской классике — «человек», «жизнь», «дело», «время», «год», «бог», «письмо», «слово», «рука» и «день».

декабрь

Открыт Мультимедийный русский корпус (МУРКО)

Для исследований устной речи недостаточно расшифровок — люди передают информацию не только словами, но и невербальными
средствами — интонацией и жестами.

Елена Александровна Гришина (1958–2016), кандидат филологических наук, старший научный сотрудник отдела корпусной лингвистики и лингвистической поэтики Института русского языка имени В. В. Виноградова РАН (Москва).

С. О. Савчук:

Проблему со структурированием и поиском аудиовизуальной информации решила Елена Александровна Гришина. Она предложила делить видеозапись на фрагменты длительностью от 10 до 30 секунд, каждый из которых равен более-менее законченной мысли. Расшифровка видеозаписи также делится на те же самые фрагменты и связывается с видео. Каждая связка — это единица корпуса, клипотекст. И в каждом клипотексте размечены реплики говорящих, морфологические признаки, ударение в словах и другие детали.

Помимо этого, в части корпуса — в общей сложности это больше 5 тысяч клипотекстов — есть разметка жестов и речевых действий. Классификацию и технологию разметки жестов разработала тоже Елена Александровна, и она же самостоятельно разметила все жесты и речевые действия — это своего рода научный подвиг.

Благодаря разметке мы можем найти в корпусе и узнать, как выглядит и что означает жест «развести руками» или «широко раскрыть глаза», какими жестами можно привлечь чье-то внимание или остановить кого-то. Мы можем найти в корпусе эпизоды, в которых отражены разные ситуации общения. Например, как люди знакомятся, прощаются, спорят друг с другом, благодарят друг друга, хвалят или передразнивают кого-то и так далее. И мы также можем увидеть, какие слова они при этом произносят и какие жесты используют. Это особенно важно для изучения русского языка как иностранного, потому что одно дело — учить слова и грамматику, а другое — видеть, как носители языка ведут себя в соответствующих ситуациях.

май

340 миллионов слов
во всем НКРЯ

июль

Появились графики

График — пример статистической обработки данных. С его помощью можно проследить по годам, как часто использовалось конкретное слово или слова в сравнении друг с другом.

Основной корпус — первый корпус НКРЯ, состоит из русских письменных прозаических текстов, созданных после 1700 года.

В то время Графики работали только в Основном корпусе.

В современной версии Корпуса можно посмотреть, как «смартфон» подменил собой «сотовый» и «мобильник».

Источник

«смартфон»

«сотовый»

«мобильник»

май

Открыт
Церковнославянский корпус

Алексей Евгеньевич Поляков — старший научный сотрудник НТЦ «Информрегистр» Минсвязи РФ (Москва).

Из воспоминаний лингвистов:

Церковнославянский корпус — проект программиста и лингвиста Алексея Евгеньевича Полякова. Он собрал всю совокупность оцифрованных церковных книг, по которым служили в православной церкви в XX веке, и сделал из этого корпус, подготовив грамматический словарь церковнославянского языка.

В русском языке многое из церковнославянского. Например, слова «довлеть», «краткий» или целые фразы, включая «притча во языцех».

январь

Открыт
Старорусский корпус

май

Открыты Древнерусский корпус
и Корпус берестяных грамот.
Появилась возможность получать
по лицензии готовые датасеты

В древнерусском языке слово «възлѣ» («возле») использовалось не только с родительным падежом («возле Вислы»), но и гораздо чаще с винительным («возле берег»).

апрель

Открыт
Корпус региональных СМИ

Увеличение
объема НКРЯ

Пополнены существующие корпуса, открыты новые пары параллельных корпусов.

Слухи о закрытии
НКРЯ

Первая версия платформы НКРЯ перестала справляться с постоянно растущим объемом Корпуса.

Стал хуже работать поиск по сайту, плохо функционировала выгрузка примеров, возможность просмотра расширенного контекста и построение графиков.

Лингвисты из разных стран мира начали беспокоиться о возможном закрытии Корпуса и обратились к общественности с призывом помочь его сохранить.

В. А. Плунгян:

Уход Сегаловича сказался на Корпусе. Найти замену человеку, который стоял у истоков Корпуса и был его движущей силой, нелегко.

Позже мы все же сделали колоссальный скачок в развитии НКРЯ, поэтому кризис даже пошел немного на пользу — может быть, мы без него жили бы спокойно и не вкладывались в совершенствование технологий. А так мы почувствовали необходимость доказать, что это крутейший инструмент. Вы нам не верите? Так вот, сейчас мы все сделаем и докажем. Нас это немножко встряхнуло.

декабрь

Восстановление НКРЯ

Начался переход на новые серверы и технологии. Корпуса стали активнее пополняться.

ноябрь

1 миллиард слов
во всем НКРЯ

декабрь

Поиск
на двух языках

В Параллельном корпусе появилась возможность искать слова сразу на двух языках.

Благодаря этому можно увидеть родственные слова в разных языках: «мороз» болгары называют словом «мраз», чехи — «mráz», а поляки — «mróz».

май

Обновление дизайна
НКРЯ

Сайт полностью обновился к концу 2023 года.

Ирина Игоревна Виноградова — кандидат технических наук, старший менеджер продукта, Яндекс (Москва).

И. И. Виноградова :

Мы хотели не просто обновить интерфейс, а сделать платформу более универсальной и удобной.

Всем хорошо заметны внешние изменения сайта Корпуса. При этом сложность обновления заключалась в том, что многое менялось и внутри. Мы сделали универсальный API, многое привели в порядок, унифицировали формальные описания корпусов, кое-где поменяли внутреннюю логику работы. Нам было важно перенести в новый интерфейс все настройки, детали и даже функции, которыми пользуются редко.

При этом было понятно, что переход на новый интерфейс вызовет сопротивление тех, кто давно пользуется НКРЯ и привык к старому интерфейсу. Чтобы процесс изменений прошел мягче, сначала мы сделали новую главную страницу, подготовили руководство пользователя, запустили канал в телеграме с примерами и инструкциями. Это позволило пользователям привыкнуть к новой версии. А дальше постепенно, один за другим, мы начали переносить корпуса.

август

Переход НКРЯ на новую
программную платформу

Сергей Александрович Гладилин — кандидат физико-математических наук, старший научный сотрудник ИППИ РАН,
технический директор НКРЯ (2019–2022).

С. А. Гладилин :

Новая программная платформа НКРЯ — модульная: она обеспечивает возможность подключения различных пользовательских интерфейсов и различных поисковых систем. Классический веб-интерфейс НКРЯ разработан 20 лет назад и уже устарел. Новая платформа позволила по частям заменять его, не нарушая функциональности. В будущем через этот же механизм можно будет подключить к НКРЯ телеграм-бот в качестве еще одного интерфейса.

{"points":[{"id":4,"properties":{"x":0,"y":0,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}},{"id":6,"properties":{"x":0,"y":0,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":360}}],"steps":[{"id":5,"properties":{"duration":500,"delay":0,"bezier":[],"ease":"Power0.easeNone","automatic_duration":false}}],"transform_origin":{"x":0.5,"y":0.5}}

Поисковых систем в НКРЯ целых три.

Первая основана на Яндекс Поиске и позволяет быстро находить только первые несколько десятков или сотен страниц с примерами. Это похоже на то, как работает поисковик Яндекса, но не годится, чтобы анализировать все примеры, найденные в Корпусе. Дело в том, что поиск основан на разделении информации между серверами, которые работают параллельно и обрабатывают только свою часть информации, не зная, что там у «соседей». В итоге если результатов поиска много, то примеры могут дублироваться и искажать статистику, необходимую лингвистам.

Чтобы решить эту проблему, мы разработали новую специализированную поисковую систему на движке ElasticSearch. Она подходит, например, для работы с корпусами с неснятой омонимией и выявления лингвистических закономерностей.

Кроме того, для самого сложно структурированного корпуса НКРЯ — Синтаксического — мы используем особую и очень гибкую, хотя и менее быструю поисковую систему, основанную на MySQL.

Все это многообразие вариантов уживается благодаря новой корпусной платформе, действующей как дирижер в оркестре.

сентябрь

Внедряется
нейроразметка

В корпусе появились два вида разметки, которые выполняются с помощью нейросетевых методов: синтаксическая и лексико-грамматическая с разрешением омонимии.

Ольга Николаевна Ляшевская, кандидат филологических наук, профессор факультета гуманитарных наук Высшей школы экономики (Москва), старший научный сотрудник Института русского языка имени В. В. Виноградова РАН

{"points":[{"id":4,"properties":{"x":0,"y":0,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}},{"id":6,"properties":{"x":0,"y":0,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":180}}],"steps":[{"id":5,"properties":{"duration":392,"delay":0,"bezier":[],"ease":"Power0.easeNone","automatic_duration":false}}],"transform_origin":{"x":0.5,"y":0.5}}

О. Н. Ляшевская :

Разметчик MyStem был создан Ильей Сегаловичем и его коллегами в начале 2000-х и не учитывал контекст при разметке Корпуса. Это порождало ошибки. Например, MyStem хуже проводил морфологический разбор слов из социальных сетей, чем слов из литературных текстов. Поэтому зародилась идея разработать разметчик, который сможет проводить синтаксический разбор — размечать, как слова связаны друг с другом.

В итоге на смену MyStem начал постепенно приходить РуБик — автоматический разметчик на основе нейросетей, который проводит морфологический и синтаксический разборы и выбирает наиболее вероятный в данном контексте разбор. Система основана на архитектуре AllenNLP, которую мы обучили и для которой смогли прописать некоторые правила устройства именно русского языка.

Однако не для всех корпусов возможна обработка РуБиком. У нас, например, есть Корпус берестяных грамот. Берестяные грамоты — это памятники древнерусской письменности, дошедшие до нас в ограниченном количестве. Нейросети же лучше обучать на больших данных, чтобы в будущем они допускали меньше ошибок. Учитывая, что каждый год ученые находят примерно 10–20 грамот, гораздо проще и даже полезнее, если их разбором будут заниматься эксперты.

ноябрь

Открыт
Панхронический корпус

С помощью корпуса можно проследить историю слов с XII века
до наших дней.

Есть литературная традиция — перечислять все плохое. В Средние века к плохому относили сквернословие, ложь и клевету, а сейчас — воровство, блат и несправедливость.

декабрь

1,5 миллиарда слов
во всем НКРЯ

Открыт Корпус «От 2 до 15»
с текстами для детей

февраль

Запущен сервис
«Портрет слова»

Новый сервис показывает выжимку всего, что известно о слове: грамматические и семантические свойства, морфемный разбор, устойчивые сочетания и похожие слова.

Самые характерные определения слова «хлеб»: «насущный», «ржаной», «черствый», «печеный» и «пшеничный».

март

Открыт корпус
«Социальные сети»

В корпусе можно проследить изменение значения сленговых слов и вытеснение одних значений другими.

Например, слово «бумер» сейчас чаще используется как поколенческая характеристика, чем как марка машины.

Коллокации — слова, которые часто встречаются вместе.

В коллокации добавлен поиск по синтаксическим связям

май

Указание синтаксической связи между словами позволяет уточнить результаты поиска.

О. Н. Ляшевская:

Если мы посмотрим на коллокации со словом «рост» в Основном корпусе, то выясним, что чаще всего оно встречается с «экономический», «ВВП» и «цена». А слово «вы» чаще идет со «знать» в различных его формах.

Такой анализ сочетаемости полезен, например, для психолингвистического понимания — как именно человек думает, какими готовыми фразами мыслит и говорит.

Еще одна область практического применения — лексикография. Например, над Активным словарем русского языка работают наши коллеги, и им важно описать, как именно употребляется слово в современном языке. Для этого им нужно изучить сочетаемость, с чем и помогают коллокации в НКРЯ.

Новые возможности
«Портрета слова»

октябрь

В «Портрете слова» теперь можно увидеть однокоренные слова. Для их поиска используется морфемный разбор слова, сформированный при помощи нейросети.

Дмитрий Алексеевич Морозов — младший научный сотрудник ИППИ РАН и НГУ, технический директор НП «НКРЯ» с 2023.

Д. А. Морозов :

Трудности начинаются, когда слово надо разобрать на приставку, корень, суффиксы и окончания. Лингвистам это помогает отслеживать этимологию слова, а обывателю правильно писать приставки «раз-/рас-», понять, ставить одну или две Н в слове и так далее.

Проблема в том, что нет универсального морфемного словаря, и сами лингвисты спорят о том, как следует разбирать слово на морфемы. «Обувь» и «обуться» — очевидно однокоренные слова. Потом оказывается, что «обуться» и «разуться» тоже похожи и семантически понятно, что это родственные слова. Тогда получается, что в слове «обувь» корень — «у». Мы уходим в сторону, которая для неподготовленного человека кажется контринтуитивной.

В итоге в зависимости от того, на каких словарях обучить нейросеть, делать морфологический разбор она будет немного по-разному. Можно взять для обучения разметку из Основного корпуса и получить модель, которая строит разборы, опирающиеся на этимологию. Например, «морозы» и «мерзкие» в этом случае — однокоренные слова. С другой стороны, мы можем обучить модель на более привычном словаре для школьников — словаре Тихонова — и получится вариант для Обучающего корпуса.

Уже на основе разбора можно искать однокоренные слова. Здесь все упирается в то, что бывают совпадающие корни, но по смыслу или происхождению они совсем разные. Например, как определить, что слова «лучник» и «луковый» — не являются однокоренными? Надо знать, что бывают разные корни «лук». Поэтому нужно их сравнить с точки зрения семантики и понять, что это два разных корня. Это одна из задач, которую решает недавно созданная внутри Корпуса команда НейроКРЯ.

декабрь

Автоматически размечены жанры текстов
в корпусе «Социальные сети»

Ранее с помощью нейросетей удалось разметить ключевые слова в текстах Корпуса региональных СМИ.

Д. А. Морозов:

Некоторые корпуса собираются при минимальном участии человека в автоматическом режиме. Это позволяет быстро сформировать корпуса огромных объемов, которые можно разметить при помощи нейромодели. Тогда пользователи смогут сузить область поиска и исследовать, как слово функционирует в текстах, отобранных по какому-то признаку, например только в рецензиях, только в стихотворениях или только в текстах про спорт.

Один из таких автоматически собранных корпусов — Корпус социальных сетей. Для того чтобы его разметить, мы обучили нейросеть распознавать жанры текста. Благодаря этому можно сравнить, например, как выглядят контексты для слова «рыба» в гороскопах и в рецептах.

Недавно для желающих помочь НКРЯ мы запустили сообщество «Друзья НейроКРЯ», где рассказываем о планирующихся проектах и просим волонтеров помочь нам в их реализации.

Так, с помощью волонтеров мы за три недели собрали обучающую выборку для нейросети, которая будет размечать тексты из соцсетей по тональности: положительной, отрицательной и неопределенной. А сейчас мы хотим добавить толкования в «Портрет слова», и пользователи помогают оценить, какие толкования больше нравятся — словарные или сгенерированные нейросетью.

февраль

Поиск по синтаксическим связям
в Газетном корпусе

Самым объемным в мире онлайн-корпусом русского языка с возможностью поиска по синтаксическим связям стал Газетный корпус НКРЯ.

Обновлена страница
с публикациями о НКРЯ

март

На странице можно посмотреть публикации о Корпусе.

20-летие НКРЯ

апрель

В. А. Плунгян:

Конечно, моя мечта в том, чтобы НКРЯ был абсолютно неуничтожаемой, с большим запасом прочности институцией. Чтобы появился, например, Институт Корпуса и он не так сильно зависел от человеческого фактора. Недостатка в ярких личностях у нас никогда не было, а вот слаженно работающие механизмы — это очень важно. Мне кажется, это было бы здорово.

{"points":[{"id":7,"properties":{"x":0,"y":0,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}},{"id":9,"properties":{"x":0,"y":723,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}},{"id":16,"properties":{"x":-403,"y":1082,"z":0,"opacity":1,"scaleX":1,"scaleY":1,"rotationX":0,"rotationY":0,"rotationZ":0}}],"steps":[{"id":8,"properties":{"duration":723,"delay":0,"bezier":[],"ease":"Power0.easeNone","automatic_duration":true}},{"id":17,"properties":{"duration":359,"delay":0,"bezier":[],"ease":"Power0.easeNone","automatic_duration":true}}],"transform_origin":{"x":0.5,"y":0.5}}

Самым романтическим периодом для меня остается начало. Встреча с Ильей Сегаловичем, симпатия с первого взгляда, его незабываемая личность. Потом у нас начал расти круг единомышленников, появилась замечательная Гришина, кипящая энтузиазмом. Наши выпускники сами приходили: «Ой, а что это вы такое делаете, а можно с вами?» Все это, конечно, ни с чем не сравнимо.

И мы всегда в шкафу нашей памяти будем держать этот мысленный моментальный снимок. Независимый университет, парты такие школьные старые, и там мы сидим с Ильей за партой. И слово «корпус» произносится в первый раз.

Национальный корпус русского языка стал для Яндекса первым проектом в обширной истории поддержки научных, образовательных и просветительских инициатив.

Вначале Яндекс помогал Корпусу разработать систему поиска и новые функции для работы с текстами. А теперь НКРЯ помогает Яндексу в развитии его сервисов.

Сотрудничество Яндекса и НКРЯ способствует сохранению и приумножению знаний о русском языке и делает их доступными для всех.

Материал подготовлен
при поддержке

Реклама. Рекламодатель: ООО ЯНДЕКС.
ИНН 7736207543. 27.04.2024

{"width":1440,"column_width":720,"columns_n":2,"gutter":0,"line":20}

default

true

960

1440

false

true

{"mode":"page","transition_type":"slide","transition_direction":"horizontal","transition_look":"belt","slides_form":{}}

{"css":".editor {font-family: PT Serif; font-size: 16px; font-weight: 400; line-height: 24px;}"}

[{"caption":"Roboto","name":"Roboto","styles":{"Thin":"100, normal","Thin Italic":"100, italic","Light":"300, normal","Light Italic":"300, italic","Regular":"400, normal","Italic":"400, italic","Medium":"500, normal","Medium Italic":"500, italic","Bold":"700, normal","Bold Italic":"700, italic","Black":"900, normal","Black Italic":"900, italic"}},{"caption":"PT Serif","name":"PT Serif","styles":{"Regular":"400, normal","Italic":"400, italic","Bold":"700, normal","Bold Italic":"700, italic"}}]

https://fonts.googleapis.com/css2?family=Roboto:ital,wght@0,100;0,300;0,400;0,500;0,700;0,900;1,100;1,300;1,400;1,500;1,700;1,900&family=PT%20Serif:ital,wght@0,400;0,700;1,400;1,700

Разделы

20 лет НКРЯ: люди, язык и технологии

Другие статьи по темам