Информационные
технологии
в образовании
Ежеквартальный бюллетень НГТУ и Ассоциации «Сибирский открытый университет»
 
 
Поиск
 
№ 4 декабрь 2006free space
Информационные ресурсы России
free spaceНациональный корпус русского языка
free space

Национальный корпус — это информационно-справочная система, основанная на электронной коллекции текстов. Национальный корпус представляет определенный язык на конкретном этапе (или этапах) его существования во всем многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Национальный корпус создается лингвистами для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпусы (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является Британский национальный корпус (BNC); среди корпусов славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги.

От библиотек электронных текстов и всего комплекса электронных текстов, размещенных в интернете, Национальный корпус отличается двумя важными особенностями.

Во-первых, он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит все возможные типы письменных и устных текстов, представленных в данном языке (художественные тексты разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные тексты и т.п.), и что все эти тексты входят в корпус пропорционально их доле в языке соответствующего периода. Для составителей Национального корпуса такие факторы как увлекательность или полезность текста, его высокие художественные или научные достоинства являются важными, но не первостепенными. Национальный корпус — это собрание текстов, интересных или полезных для изучения языка, а такими текстами, наряду с классическими художественными произведениями, могут оказаться и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды.

Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни миллионов словоупотреблений). Планируемый составителями объем Национального корпуса русского языка — 200 млн слов, в настоящее время объем корпуса — более 120 млн слов.

Во-вторых, корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса.

Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексики и грамматики языка и процессов, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям.

Инициатива создания большого представительного корпуса русского языка принадлежит С. А. Шарову и В. Б. Касевичу, который, в частности, предложил нынешнее название «Национальный корпус русского языка». Эта инициатива возникла как закономерное развитие исследований по корпусной лингвистике и автоматической обработке текста, имеющих в России давнюю традицию.

В программе развития корпуса участвуют специалисты Института русского языка им. В. В. Виноградова РАН, Института языкознания РАН, Института проблем передачи информации РАН, Всероссийского института научной и технической информации РАН и Института лингвистических исследований РАН в Санкт-Петербурге (совместно с Санкт-Петербургским государственным университетом).

В 2003 г., когда проект получил поддержку Российского гуманитарного научного фонда  был создан веб-сайт корпуса: http://www.ruscorpora.ru/. Поддержка сайта осуществляется компанией «Яндекс».

Состав и структура корпуса

В Национальный корпус русского языка, по замыслу его составителей, включаются тексты, представляющие современный русский литературный язык (с начала XIX века), а также тексты, представляющие древнерусский язык (XI-XIV вв.) и нелитературные формы современного русского языка: разговорную, просторечную, диалектную.

Тексты, представляющие современный русский литературный язык, в свою очередь, распределяются по двум большим подкорпусам: корпус ранних текстов (начало XIX — середина XX века) и корпус современных текстов (середина XX — начало XXI века). В корпус современных текстов входят следующие типы письменных текстов: современная художественная проза разных жанров и направлений, современная драматургия, мемуарно-биографическая литература, журнальная публицистика и литературная критика, газетная публицистика и новости, научные, научно-популярные и учебные тексты, религиозные и религиозно-философские тексты, производственно-технические тексты, официально-деловые и юридические тексты, бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.).

Поиск в корпусе

Поиск по корпусу осуществляется поисковой системой Яndex.Server 3.1 Professional.

Тексты, размещенные на сайте, доступны для некоммерческого использования в научно-исследовательских и учебных целях (в соответствии со статьей 19 Закона «Об авторском праве и смежных правах»). Однако следует иметь в виду, что тексты, помещаемые на сайт, не предназначены ни для чтения, ни для копирования: они могут использоваться в режиме поиска как источники примеров (цитат), иллюстрирующих то или иное языковое явление.

Поиск лексических единиц может вестись как во всем корпусе текстов, так и в отдельных его разделах (подкорпусах); например, можно ограничить число текстов, выбрав тип или жанр текста, место и время описываемых событий.

 

Обсуждению широких возможностей Национального корпуса для обучения русскому языку будет посвящена конференция «Национальный корпус русского языка и проблемы гуманитарного образования», которая будет проводиться в Высшей школе экономики 19-20 апреля 2007 года. Срок подачи заявок на конференцию — 10 января 2007 г. Более подробная информация о конференции представлена на сайте Центра лингвометодических информационных ресурсов ИДО НГТУ (http://www.itlt.edu.nstu.ru/masterclass_conference.php).

По материалам веб-сайта Национального корпуса русского языка (http://www.ruscorpora.ru)

 
Все статьи выпуска:
free space
Программы заседаний Координационного совета НГТУ

Эффективность телекоммуникационной и вычислительной сети НГТУ
B.М. Зыбарев, О.В. Казанская

Опыт работы информационно-технической службы факультета энергетики НГТУ
Ю.М. Сидоркин
С.С. Шевченко

Портал НГТУ
М.А. Бовтенко

Регистрация электронных изданий сотрудников НГТУ
в Научно-техническом центре «Информрегистр»

Интервью с Н.Ш. Никитиной, Э.И. Кропотовой,
О.А. Винниковой

Научно-образовательные ресурсы ТГУ
Я.А. Кузнецова

Дистанционное повышение квалификации преподавателей в рамках Ассоциации «Сибирский открытый университет»
О.Н. Протасова

Национальный корпус русского языка
По материалам веб-сайта Национального корпуса русского языка

Эффективная электронная коммуникация
(электронная почта)

М. А. Бовтенко, Н. А. Кочетурова

Полная версия выпуска
Скачать (825,11 Kb)

 
 
ИТО © 2004 - 2017 
 
Новосибирский государственный технический университет
Институт дистанционного образования НГТУ
Ассоциация «Сибирский открытый университет»