![]() | Информационные технологии в образовании | ![]() | |||
| |||||
Национальный корпус — это информационно-справочная система, основанная на электронной коллекции текстов. Национальный корпус представляет определенный язык на конкретном этапе (или этапах) его существования во всем многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Национальный корпус создается лингвистами для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпусы (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является Британский национальный корпус (BNC); среди корпусов славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги. От библиотек электронных текстов и всего комплекса электронных текстов, размещенных в интернете, Национальный корпус отличается двумя важными особенностями. Во-первых, он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит все возможные типы письменных и устных текстов, представленных в данном языке (художественные тексты разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные тексты и т.п.), и что все эти тексты входят в корпус пропорционально их доле в языке соответствующего периода. Для составителей Национального корпуса такие факторы как увлекательность или полезность текста, его высокие художественные или научные достоинства являются важными, но не первостепенными. Национальный корпус — это собрание текстов, интересных или полезных для изучения языка, а такими текстами, наряду с классическими художественными произведениями, могут оказаться и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды. Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни миллионов словоупотреблений). Планируемый составителями объем Национального корпуса русского языка — 200 млн слов, в настоящее время объем корпуса — более 120 млн слов. Во-вторых, корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексики и грамматики языка и процессов, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям. Инициатива создания большого представительного корпуса русского языка принадлежит С. А. Шарову и В. Б. Касевичу, который, в частности, предложил нынешнее название «Национальный корпус русского языка». Эта инициатива возникла как закономерное развитие исследований по корпусной лингвистике и автоматической обработке текста, имеющих в России давнюю традицию. В программе развития корпуса участвуют специалисты Института русского языка им. В. В. Виноградова РАН, Института языкознания РАН, Института проблем передачи информации РАН, Всероссийского института научной и технической информации РАН и Института лингвистических исследований РАН в Санкт-Петербурге (совместно с Санкт-Петербургским государственным университетом). В 2003 г., когда проект получил поддержку Российского гуманитарного научного фонда был создан веб-сайт корпуса: http://www.ruscorpora.ru/. Поддержка сайта осуществляется компанией «Яндекс». Состав и структура корпуса В Национальный корпус русского языка, по замыслу его составителей, включаются тексты, представляющие современный русский литературный язык (с начала XIX века), а также тексты, представляющие древнерусский язык (XI-XIV вв.) и нелитературные формы современного русского языка: разговорную, просторечную, диалектную. Тексты, представляющие современный русский литературный язык, в свою очередь, распределяются по двум большим подкорпусам: корпус ранних текстов (начало XIX — середина XX века) и корпус современных текстов (середина XX — начало XXI века). В корпус современных текстов входят следующие типы письменных текстов: современная художественная проза разных жанров и направлений, современная драматургия, мемуарно-биографическая литература, журнальная публицистика и литературная критика, газетная публицистика и новости, научные, научно-популярные и учебные тексты, религиозные и религиозно-философские тексты, производственно-технические тексты, официально-деловые и юридические тексты, бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.). Поиск в корпусе Поиск по корпусу осуществляется поисковой системой Яndex.Server 3.1 Professional. Тексты, размещенные на сайте, доступны для некоммерческого использования в научно-исследовательских и учебных целях (в соответствии со статьей 19 Закона «Об авторском праве и смежных правах»). Однако следует иметь в виду, что тексты, помещаемые на сайт, не предназначены ни для чтения, ни для копирования: они могут использоваться в режиме поиска как источники примеров (цитат), иллюстрирующих то или иное языковое явление. Поиск лексических единиц может вестись как во всем корпусе текстов, так и в отдельных его разделах (подкорпусах); например, можно ограничить число текстов, выбрав тип или жанр текста, место и время описываемых событий.
По материалам веб-сайта Национального корпуса русского языка (http://www.ruscorpora.ru)
|
Программы заседаний Координационного совета НГТУ Эффективность телекоммуникационной и вычислительной сети НГТУ Опыт работы информационно-технической службы факультета энергетики НГТУ Регистрация электронных изданий сотрудников НГТУ Научно-образовательные ресурсы ТГУ Национальный корпус русского языка Эффективная электронная коммуникация
| ||||||||||||||||||
| |||
| Новосибирский государственный технический университет Институт дистанционного образования НГТУ Ассоциация «Сибирский открытый университет» |