Меню Рубрики

Как вы понимаете метод корпусного анализа

Статья № 2 цикла продолжит рассказ о пользе корпусной лингвистики в контексте преподавания иностранного языка. Цикл статей составлен на основе материала из лекций курса «Введение в корпусную лингвистику», который читает Левинзон Анна Иосифовна, ст. преподаватель Школы лингвистики гуманитарного факультета НИУ ВШЭ. Этот курс каждый может пройти совершенно бесплатно онлайн на сайте «Открытое образование»

Корпусная лингвистика часто решает не только теоретические задачи, но и задачи сугубо практические, связанные с бизнесом, например, или криминалистикой.

Пример практической задачи на немецком языке, которая была поставлена перед исследователем:

Компания, размещая наружную рекламу своего продукта, хотела сделать рекламную бегущую строку, количество окошек для букв в которой зависит от количества букв в среднем немецком слове. Такую информацию можно получить достоверно только на основе корпусного запроса, а не на основе среднего арифметического. Самое длинное немецкое слово состояло из 32 букв, самое короткое – из одной. Согласно данным корпуса, среднее немецкое слово состоит из 5, 7 букв.

Многие исследования в корпусе требуют применения статистических методов, владение которыми становится для исследователя необходимым. Помимо чисто практических задач, популярны исследования сравнительные на лексическом материале разных эпох и разных авторов текстов. Есть даже такой индекс лексического разнообразия автора, получить который можно только с помощью корпуса.

Нередко лингвистов интересует частотность ключевых слов определенных авторов или в определенных текстах и т.д. Популярным является такое направление корпусных исследований, как выявление неслучайных сочетаний слов – коллокаций. Во многом изучение коллокаций вызвано необходимостью преподавать язык. Уже в начале тридцатых годов ХХ века была признана важность включения коллокаций в учебники и тесты английского языка как иностранного. Тогда же появились частотные словари. Один из современных популярных частотных словарей – словарь издательства Macmillan состоит из коллокаций английского языка на современном этапе развития.

Девизом его является цитата «Вы узнаете слово по его компании» Дж.Фёрс.

Инструмент исследования на базе корпусов, который был создан в начале двухтысячных годов и основан на корпусах. Здесь имеются базы многих корпусов на многих языках.

Sketch Engine for Language Learning: sketchengine.co.uk/skell

Инструмент применяется для составления конкорданса – сопоставительного материала по слову в его контекстах, когда слово графически удобно располагается посередине, а контексты слева и справа.

Ресурс дает возможность самому быстро составлять тезаурусы – отнесение слова к определенной категории в соответствии с его значением, например, синонимов.

С помощью этого инструмента можно исследовать свой собственный подкорпус языка, на основе которого можно составлять переводческие соответствия терминов.

И, наконец, функция, которая и дала название самого инструмента, с помощью которого исследователь может получить «Скетч слова». Скетч слова – это коротко изложенное на одной странице описание грамматических конструкций, в которых данное слово встречается, и лексических сочетаний, в которых появляется это слово. С помощью этого инструмента исследователь значительно экономит свое время и силы на просматривание многих страниц выдачи корпусных данных.

Примером получения такой быстрой информации могут служить скетчи слов intelligent и clever. На одной странице такого скетча можно сразу увидеть, что слово intelligent употребляется для характеристики робота, а clever – человека, который придумал что-то хитрое trick J.

Беслатный, очень полезный и простой инструмент для изучающих английский язык, который функционирует в рамках sketchengine является SKELL.

Безусловно, описанный инструмент, так же, как и сам огромный корпус языка, является только инструментом для опровержения или подтверждения тех умозаключений, которые имеет исследователь изначально, либо имеющихся у него вопросов.

На таком подходе к корпусу основано направление корпусной лингвистики, которое называется corpus-based research. При этом исследователь имеет предварительно до работы с корпусом собственную гипотезу, которую данные корпуса подтверждают или нет.

Примером такого исследования может служит контент-анализ слова «Европа», где корпус является источником примеров

Иного принципа придерживаются исследователи направления corpus-driven research, которые не имеют заранее определенной установки, а наоборот, полностью полагаются на данные корпуса, из которого затем уже выводятся теории, нормы и правила.

Конечно, приверженцы обоих методов критикуют друг друга.

Главное достижение обоих методов состоит в том, что идея «описать язык в целом» признана невозможной, да и ненужной, а все исследования проводятся только в рамках определенных регистров, поскольку определенные правила действуют исключительно в одних регистрах и исчезают в других. Таким образом, защищается установка, когда в языке нет неправильного и нормы, а есть только разнообразие регистров, то есть форм существования языка.

В последнее время оба подхода сближаются и дают новые возможности для исследования, примером сближения рекомендуется ознакомиться с исследованием Piperski, A. Kukhto. Intra-speaker stress variation in Russian: A corpus-driven study of Russian poetry .

источник

Корпус – репрезентативное собрание текстов, обычно в читаемом машиной формате и включающее информацию о ситуации, в которой текст был произведен, такую как информация о говорящем, авторе, адресате или аудитории.

Корпусная лингвистика – деятельность, требующаяся для составления и использования корпуса, направленная на исследование естественного использования языка.

Цель КЛ – исследование естественного использования языка.

— Сбор текстов с определенной целью

— Помощь в создании словарей (лексикографическая поддержка)

— Составление конкордансов (список встречающихся в тексте словоформ, располож в алфавитном порядке. В противоположность словарю, слово дается с его словесным окружением).

— Составление частотных словарей

— Создание национальных корпусов

— Исследование использования естественного языка в разных регистрах

— Помощь в создании лингводидактических пособий

— Проверка лингвистических теорий

Существует 2 типа корпусов: Национальный (средний объем 160 млн слов) и корпусы, предназначенные для определенных целей. Национальный корпус представляет данный язык на определенном этапе (ах) его существования и во всем многообразии жанров, стилей, территориальных и социальных вариантов. # ruscorpora.ru

Методы КЛ – КЛ сама представляет собой пучок методов из разных областей лингвистических исследований.

Главная цель КЛ – лингвистическое описание яз системы (подход от конкретного изучения коммуникации людей), особый способ отражения речевого материала в корпусе текстов, кот может использоваться в свою очередь другими лингв дисциплинами.

КЛ имеет 2 черты, дающие основание претендовать на положение самостоятельной дисциплины:

— Характер используемого словесного материала

— КЛ не отрицает ценности и необходимостиречевых данных, не представленных в корпусной форме

— КЛ утверждает то, что из корпусов текстов невозможно извлечь все возможные лингв выводы, те корпус текстов не является самодостаточным.

2) LOB (London Oslo/Bergen corpus) (1 млн слов британского англ, аналог Brown corpus)

3) British national corpus

4) International corpus of English (600 тыс словоупотреблений)

5) Bank of English (585млн словоупотреблений)

7) Американский национальный корпус ( в свободном доступе 14 млн словоупотреблений, 15 % объем устных текстов от общего объема)

КЛ лучше всего представляется в виде пучка методов, процедур и ресурсов, имеющих дело с эмпирическими данными в лингвистике. В качестве методологии, подъем современной КЛ тесно связан с историей лингвистики как эмпирической науки.

1) историческая лингвистика – изменения в языке и реконструкция (сравнительно историч метод)

2) Написание грамматик, лексикография и обучение языку (Герман Пауль)

3) Социолингвистика – языковое многообразие.

Судебная лингвистика – раздел прикладной лингвистики. Дисциплина, в которой научные знания о языке, накопленные в теоретической лингвистике, используются в сфере судопроизводства (forensic linguistic, от лат forum – место для дебатов в суде и forensic). Термин предложен в 1968 году британским лингвистом Яном Свартвиком, который в этом же году произвел лингвистический анализ судебных документов по делу Тимати Эвенса (Эвенс был повешан за убийство его жены и ребенка). Свартвик убедил суд, что Эвенс невиновен и был посмертно оправдан.

Сейчас судебной лингвистикой называют все аспекты судопроизводства, требующие лингвистических знаний как в сфере защиты, так и в сфере обвинения и в судебном разбирательстве в целом.

С 70 годов ХХ века стали опубликовывать статьи о суд лингвистике в научных журналах. В основном по установлению авторства в документах. Далее возникли другие аспекты и проблемы, связанные с критической лингвистикой (1979г). в этом году опубликована книга «Language and control». Авторы поставили проблему анализа языка как контроля над другими. Язык стал изучаться как что-то еще для понимания чего-то еще: что-то еще – социальное и экономическое устройство общества, организация социального порядка, структура межличностных отношений. Критическая лингвистика отвергает понятие объективной действительности в обществе. Мысль: Все что есть в обществе, могло бы быть каким либо другим.

Тематика исследований, ведущихся в русле критической лингвистики разнообразна и включает в себя анализ того, каким образом язык (дискурс) способствует созданию и поддержанию социальных явлений (политическая и этическая неккоректность). Этноцентризм (Россия для русских), расизм, сексизм, угнетение, неравенство. Также в критической лингвистике исследуется язык, способы осуществления власти, манипуляции, пропаганды доминирования, дискриминации, соц влияние, стереотипы. в результате такого анализа вскрывается зависимость между социальной и лингвистической структурами. Критическая лингвистика доказывает, что выбор языковых знаков мотивируется соответствующей идеологией.

Критическая лингвистика имеет выход и в сферу суд лингвистики. Он был впервые осуществлен в связи с постановкой задачи создания текстов законов понятных простым гражданам. В 1982 году Водак в Австрии организовала лингвистическую команду, которая в течении 3 лет проводила тесты на понятность текстов законов для простых людей. На примере закона «О применении техники в строительстве» она делает вывод, что понятность текстов законов – общ-политич проблема. Необходимо принимать срочные меры, чтобы приблизить законы к гражданину и убрать барьеры при их чтении и непонимании.

По ходу развития суд лингвистики анализу подверглись различные аспекты коммуникаций во время суд процесса. Лингвистов интересовало, понимают ли присяжные инструкции, полученные перед вынесением вердикта. Изучение показало, что многие присяжные не понимают значимость предъявляемых доказательств, аргументацию сторон и обращенные к ним инструкции и вопросы судьи.

След проблема – адекватной интерпретации смысла того или иного языкового выражения, употребляемого обвиняемым или свидетелем. Это направление заложено Малькольмом Култхардом. Он провел лингвистическую экспертизу по делу Бентли, кот был повешан в 50 годах ХХ века. Экспертиза в 80 годах помогла оправдать Бентли посмертно.

Далее в сферу суд лингвистики был вовлечен человек как личность. Поставлена проблема. # неискренний дискурс личности.

Изучение интересующих суд лингвистику типов языковых коммуникативных личностей. # неискренняя дискурс. личность, угражающая личность, плагиатор (человек, ворующий чужой дискурс).

Трудности, испытываемые некоторыми говорящими в процессе судебной коммуникации. # с детьми; людьми, говорящими на диалекте; иностранцами.

В последнее время – проблема суд перевода и необходимости подготовки квалифицированных суд переводчиков..

Итак, в настоящее время суд лингвистика решает след проблемы (задачи):

— установление авторства того или иного устного или письм дискурса текста

— установление смысла того или иного слова, высказывания, текста

— критический анализ лингв аспектов, взаимосвязь юридической системы и общества

— выявление юридически значимых типов дискурса

— суд перевод и иные виды обеспечения суд процесса

В ряде стран для принятия суд лингвистики судами есть более прочная основа, в частности в США. Там любой научный метод применяется судом, если он проходит тест Дауберта, кот отвечает след критериям:

— Знание и статус эксперта – эксперт должен иметь достаточно знания в области, должное образование, опыт работы и иметь статус в академич или другом сообществе

— Проверяемость метода – техника, процедура дБ эмпирически тестируемой, проверяемой на фактах. Методика дБ опровергаемой и подвергаемой сомнению.

— peer review (человек равный по статусу) . Процедура дБ подтверждена научным сообществом и дБ опубликована и отрецензирована

— понятность – эксперт д объяснить сущность процедуры

— voice parade – опознание подозреваемого по голосу жертвой или свидетелем преступления (Nolan фонетист )

— автоматическое распознавание говорящего по голосу (комп определяет кто говорит)

— распознавание умышленно измененного голоса

— установление авторства на основе статистического метода

— метод дискриптивного анализа идиолекта (индивидуальное варьирование языка) – снятие лингв отпечатков идиолекта (редкие слова, выражения)

— семантический анализ – анализ значений, имеющихся или отсутствующих у тех или иных языковых выражений.

источник

Секция: 4. Лингвистика

XXV Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: гуманитарные науки»

ПРИМЕНЕНИЕ СОВРЕМЕННЫХ МЕТОДОВ КОРПУСНОЙ ЛИНГВИСТИКИ ПРИ АНАЛИЗЕ ТЕКСТА (НА ПРИМЕРЕ КОРПУСА BFM)

Научные исследования в рамках различных лингвистических направлений зачатую имеют объектом своего исследования текст или собрание текстов и подразумевают сначала подбор материала, а затем анализ и обработку больших текстовых объемов с целью выявления некоторых языковых закономерностей. Традиционные лингвистические методы анализа текста позволяют выполнить все вышеперечисленные задачи, но их невысокая эффективность обуславливает все более частое использование методов компьютерного анализа текста, который позволяет сократить работу лингвиста, при этом значительно увеличив объем обрабатываемых данных, а также избежать неточности и ошибки в подсчетах [2, с. 48]. Таким образом, компьютерный анализ текста делает возможным установление языковых закономерностей, основанных не на теоретических, но на эмпирических данных.

Читайте также:  Какие анализы сдавать на иммунитет

В рамках корпусной лингвистики под «корпусом» понимают «унифицированный, структурированный и размеченный массив языковых (речевых) данных в электронном виде, предназначенный для определенных филологических и, более широко, гуманитарных изысканий» [4, с. 52]. Преимущество применения корпусного анализа текста заключается в большой степени объективности исследования: такие функции как подбор, разметка, анализ текстов и выявление соответствий выполняются автоматически. Таким образом, задачей исследователя является не анализ материала, а обработка полученных данных, выведение языковых закономерностей и подведение итогов.

В зависимости от используемых корпусов и программ, методы корпусного анализа позволяют решать ряд задач в рамках лингвистических, социологических и исторических дисциплин. Так, корпус позволяет производить поиск лексических и грамматических языковых единиц и отбор слов, словоформ, грамматических категорий и словосочетаний. При поиске словоформ функция морфологического дескриптора позволяет проанализировать искомую единицу исходя из грамматических категорий слова.

Возможен поиск искомой словоформы во всех или в определенных параметрами контекстах. Данная функция применяется в практическом аспекте исследования для сбора фактического материала и для составления теоретической базы исследования (словарей, грамматик, справочных пособий). Смежная функция конкорданса (по А.С. Герду, — «упорядоченный список словоформ с указанием всех вхождений в заданный массив текстов») позволяют проследить употребление языковой единицы в контексте фиксированной длины, проанализировать совместное употребление искомых словоформ [3, с. 73].

Одной из основных функций лингвистического корпуса является возможности получения лингвостатистических данных о частоте использования тех или иных форм, слов или словосочетаний, то есть определить частотность употребления. Данная функция позволяет определить различия семантики синонимов, установить контексты, характерные для синонимичных слов, а также разграничить жанровые и стилистические особенности и оттенки значений лексических единиц. В социолингвистическом исследовании частотность позволяет определить употребляемость языковой единицы определенной социальной, возрастной, гендерной группой. В историческом аспекте данная функция позволяет проследить этимологию и изменение семантики языковой единицы. Следствием частотного анализа текста является выделение статистики. Таким образом, в исследовании с применением корпусного анализа основанием научной гипотезы служат точные и конкретные эмпирические данные.

Каждый текст корпуса сопровождается паспортизацией или метаразметкой, то есть полным библиографическим описанием. В зависимости от вида корпуса метаразметка может содержать также и данные о стилистической и исторической принадлежности текста. Данная функция может быть использована в научных исследованиях по социолингвистике, лингвокультурологии, психолингвистике, стилистике.

Основной возможностью корпусного анализа является функция создания собственного подкорпуса (выборка форм по заданным параметрам поиска). Ввод параметральных данных, характерных для конкретного исследования позволяет составить собственный лингвистический корпус, который может служить как инструментом анализа имеющегося текста, так и собственной эмпирической базой исследования.

На данный момент существует несколько проектов исторических диахронных корпусов французского языка, одним из которых является проект «База средневекового французского языка» или BFM (“La base du français médiéval”). На ферваль 2014 г. данный корпус включает 198 транскрипций текстов IX — конца XV вв., основанных на современных критических изданиях [5, с. 105]. Работа над созданием корпуса BFM началась в 1989 г. под руководством профессора Высшей Нормальной Школы Гуманитарных Наук (ENS LSH) К. Маркелло-Низья. В настоящее время над проектом работает группа сотрудников лингвистической лаборатории ICAR (Intéractions, Corpus, Apprentissages, Représentations). Данный корпус доступен для исследований как в режиме онлайн [9], так и для скачивания в свободном доступе.

Корпус BFM включал несколько проектов: BFM 2014 — основной корпус, СORPTEF — корпус наиболее ранних текстов IX—XII вв. на поздней латыни и их перевод на старофранцузский язык, BFMMSS — транскрипции рукописных текстов и манускрипты, GRAAL — электронное издание романа XIII в. «В поисках Святого Грааля», разработанное под руководством К. Маркелло-Низья и А.М. Лаврентьева [7, с. 145—148].

Основной базой исследования корпуса BFM являются транскрипции средневековых рукописных текстов различных скрипт и диалектов (flandre, franco-occitan, normand, liégeois, poitevin, champenois, picard), жанров (roman, miracle, serment, hagiographie, bestiaire) и форм (vers, prose, mixte). Отличительна особенность данного корпуса заключается в представлении в проекте GRAAL транскрипций одного текста в нескольких изданиях. Адаптированное издание содержит транскрипцию, приближенную к современным нормам языка и предназначено для удобного прочтения текста. Дипломатическое издание более точно приближенно к оригинальному тексту, но также содержит некоторые расшифровки и пояснения. В факсимильном издании наиболее близко к оригинальному написанию переданы особенности графики средневекового текста. Кроме трех версий, в проект включен современный перевод текста и фототипическое издание манускрипта. Важной функцией проекта GRAAL является представление версий в многомерном формате (multifacettes), что позволяет выводить на экран сразу несколько изданий, при этом сохраняя параллельное отображение текста построчно.

Функционал корпуса помимо транскрипций составляют различные возможности поиска и отбора эмпирических и статистических данных. Данный корпус оснащен метаразметкой, которая включает в себя библиографические данные о каждом произведении и позволяет произвести социолингвистическую диверсификацию текстов.

Базовым принципом корпуса BFM является строгое соответствие критическому изданию. В связи с этим при построении корпуса используется формат XML, который позволяет воспроизвести не только сам текст, но и ряд элементов критического аппарата (нумерацию строк, использование различных шрифтов, варианты текста, примечания). Для реализации поиска и составления подкорпусов проект BFM использует язык компьютерного запроса CQL (Contextual Query Language или Common Query Language). Данный язык представляет собой ряд обозначений-символов, позволяющих производить поиск и отбор словоформ [6, с. 338]. Полный список принятых тэгов и обозначений размещен в свободном доступе на сайте смежного проекта лаборатории ICAR [10] в пособии “Manuel de TXM” [8, с. 116—117].

При исследованиях в корпусе BFM язык CQL позволяет производить несколько видов поиска. Простой поиск графического написания позволяет отобрать все случаи употребления конкретной формы слова. Например, запросы вида Graal, “Graal” и [word= “Graal”] используются для поиска конкретной формы слова “Graal”. Поиск по лемме возможен вследствие наличия в корпусе BFM морфологического дескриптора и позволяет произвести поиск различных форм слова. Таким образом, запрос вида [frlemma= “beau”] предоставит выборку всех форм имени прилагательного “beau”, а именно “beau”, “bel”, “belle”, “beaux”, “bels”, “belles”. Поиск по грамматической категории позволяет произвести выборку всех слов, обладающих искомой грамматической категорией. При этом необходимо использование принятых тэгов [8, с. 160]. Например, [frpos= “ADV”] — подборка всех наречий. Поиск вариантов написания диакритических знаков или регистра букв позволяет расширить поиск однокоренных слов. Так, запрос вида “franc.*”%cd позволяет отобрать все примеры с корнем “franc” включая варианты корня “franç” и написание с прописной буквы. Кроме того, в корпусе возможен поиск пунктуации, части слова или вариативный поиск, для чего используются комбинации символов CQL.

Кроме поиска в корпусе BFM представлена функция создание индексов, которые показывают частоту использования искомой языковой единицы.

Также в корпусе возможно использовать режимы конкорданса и контекста, которые показывают употребление искомой языковой единицы в полном и наглядном словарном окружении. Корпус также оснащен лексикойсловарем использованных слов в тексте.

Наряду с вышеперечисленными функциями, наиболее важная возможность для исследований в компьютерном корпусе — это создание, настройка и анализ собственного подкорпуса текстов. Применение комбинированных поисковых запросов и внетекстовых функций корпуса позволяют производить подбор примеров по узким параметральным данным. В данной статье мы продемонстрируем применение возможностей корпуса GRAAL в исследовании по исторической грамматике, а именно при анализе использования заглавных букв в средневековом тексте. Мы воспользовались функциями корпуса для того, чтобы отобрать все употребления заглавной буквы после прямой речи в дипломатическом издании романа «В поисках Святого Грааля». Для данного поиска применяется запрос следующего вида:

Формула данного вида приводит к подборке из 294 вхождений по заданному запросу. Так как задачи данного поиска требуют синтаксически распространенные результаты, поиск наиболее удобно производить в режимах контекста и конкорданса. В окне контекста приведены примеры вхождений с указанием страницы в электронном издании, а также с выделенными красным цветом первыми словами после окончания прямой речи. Кроме того, режим контекста позволяет задать размер правого и левого контекстов: таким образом, можно восстановить и начало прямой речи, получая полное и исчерпывающее словарное окружение. Также формат XML позволяет перейти по каждому примеру к выбранному электронному изданию в параллельном окне, что создает оптимальное расположение страниц для анализа искомой языковой единицы как в поисковом списке, так и интегрировано в тексте.

В отличие от режима контекста, в конкордансе подборка вхождений форматируется по первому слову запроса, то есть по первому слову после окончания прямой речи для конкретного поиска. При этом, в данном режиме также указывается страницы электронного издания и представлена возможность перехода к изданию по каждому примеру.

Отметим, что подборка по данному запросу не является конечным действием, позволяющим сделать выводы по поставленной цели, а именно, определить закономерность использования прописных и строчных букв после прямой речи. Дело в том, что запрос производится в дипломатической версии, текст которой с точки зрения оформления предложения адаптирован к современным нормам. Таким образом, все буквы после прямой речи — прописные. Тем не менее, параллельное воспроизведение дипломатической версии и фототипического издания позволяет отследить использование регистра букв в самом манускрипте. В итоге, совместное применение таких функций корпуса GRAAL, как поиск, контекст или конкорданс и параллельное отображение электронных версий, позволяет отследить написание прописных и строчных букв в средневековом тексте, при этом исключив трудоемкий процесс прочтения, расшифровки и анализа старофранцузского рукописного текста. Таким образом, корпусный анализ данного текста становится доступным для исследователей, не владеющих навыками прочтения и понимания старофранцузского письма, и вместе с тем позволяет пропустить этап ручного отбора эмпирической базы исследования.

Методы корпусного анализа текста позволяют значительно повысить эффективность исследовательской деятельности ввиду автоматизированной системы отбора, обработки и вывода результатов. Преимуществом использования методов корпусного анализа также является возможность производить подсчет и составлять статистики, подтверждающие или опровергающие гипотезы исследования [1, с. 135—137]. Таким образом, производя корпусный анализ текста, становится возможным обосновать исследование не на гипотезах и предположениях, но на точных эмпирических данных.

Корпус “La Base du Français Médiéval” представляет собой автоматизированную программу хранения и анализа текстов эпохи Средневековья. Благодаря обширной базе текстов данный корпус может быть использован в исследованиях по истории литературы, истории языка и стилистике. Возможности поиска при условии владения языком CQL позволяют проводить исследования в области исторической грамматики, орфографии, пунктуации, лексикологии и семантики. Представленные в корпусе средневековые манускрипты могут выступать объектами исследований по палеографии и каллиграфии, а также по книговедению, археографии, филологии, дипломатике, текстологии и источниковедению.

источник

В настоящее время корпусы письменных и устных текстов успешно применяются при обучении иностранному языку и в лингвистической педагогике. В статье рассматривается «корпусный подход» (Corpus-Based Approach) в задачах, связанных с обучением иностранным языкам, указываются основные характеристики метода, определяющие его надежность и достоверность. Корпусный подход, или метод лингвистического исследования, основанный на корпусах текстов, ориентирован на прикладное изучение языка, его функционирование в реальных средах и текстах, что важно для преподавания языка. Мировая практика развития этой области доказывает эффективность такого рода приложений, хотя в настоящее время возможности методов корпусной лингвистики в России пока не находят должной реализации в прикладной лингвистике, лингвистическом обучении, обучении родному и иностранному языку. Определяются типы корпусов, которые возможно использовать в практике преподавания иностранных языков, приводятся примеры корпусов, доступных для рядового преподавателя иностранных языков. В данной статье в качестве примера рассматривается практическое использование параллельных корпусов в обучении языку и переводу, а также учебных корпусов в исследованиях, связанных с проблемами освоения иностранного языка. В докладе также раскрывается эффективность использования такого компьютерного обеспечения корпусной лингвистики как программ-конкордансов в лингвистических задачах, в том числе в «автоматизированном обучении» иностранным языкам. В заключении отмечаются реальные приложения корпусной лингвистики, метода корпусного анализа в лингвистических исследованиях и практике преподавания иностранного языка.

Читайте также:  Простата анализ какие надо сдать

The article considers «corpus-based approach» in Foreign Language Teaching and the basic characteristics of this method that determine its reliability. Corpus-based approach, or the method of linguistic research based остранногnot act entirely oисходon text corpora focuses on the applied study of language, its functioning in natural environment and texts, that is important in language teaching. The world practice of development of Corpus Linguistics (CL) proves the efficiency of these applications, though in today Russia the rich opportunities of CL methods have not been thoroughly realized in applied linguistics, linguistic pedagogy, native and foreign language teaching. We specify the types of corpora which can be used in practice of language teaching, and present the examples of corpora accessible to a teacher of foreign languages. The paper considers practical use of Parallel Corpora in language teaching, learning and translation, and Learner Corpora in Language Acquisition research. We prove the efficiency of application of concordance programs in linguistic tasks, e.g. Computer-Assisted Language Learning and Training. In the conclusion we mention the real application of Corpus Linguistics, method of corpus analysis in linguistic research and practice of Foreign Language Teaching.

В настоящее время корпусы письменных и устных текстов успешно применяются при обучении иностранному языку и в лингвистической педагогике. На базе корпусов формируются списки активной лексики студентов, частотные списки терминов для использования в профессиональных курсах и т.п. Разработчики академических словарей и учебных пособий опираются на аутентичные массивы текстов (Corpora). Кроме того, коллекции, библиотеки и массивы текстов отражают реальное функционирование того или иного языка, а их перенос в компьютерные среды только активизировал их практическое и широкое использование в прикладной лингвистике [1].

Корпусная лингвистика дает материал для различного рода исследований языка и его вариантов, и определяет основной метод анализа текстов на базе корпусов (Corpus-Based Approach) [3]. Корпусный подход, или метод лингвистического исследования, основанный на корпусах текстов, ориентирован на прикладное изучение языка, его функционирование в реальных средах и текстах, что важно для преподавания языка. Например, лексикографический анализ на базе корпусов явно помогает раскрыть контекстное употребление тех или иных слов, особенно синонимичных (например, small/little, big/large), частотную сочетаемость их с другими словами, регулярность в тех или иных стилях, и четко определить их семантику.

Основные характеристики метода, определяющие его надежность и достоверность, следующие:

— является эмпирическим и анализирует реальные словоупотребления в естественной языковой среде,
— использует достаточно большую, репрезентативную подборку текстов,
— активно использует компьютеры и специальные программы-конкордансы для анализа в автоматическом и интерактивном режимах работы,
— базируется на методах статистического и качественного анализа текста,
— является целевым, т.е. должен быть ориентирован на реальное приложение и результаты.

Одной из важных особенностей метода анализа на базе корпусов текстов является исследование не только чисто лингвистических явлений (грамматических или лексических функций слов, их связей с другими лексемами), но и таких явлений, как, например, частотности лексем или грамматических конструкций в тех или иных жанрах, диалектах.

Электронные корпусы предоставляют богатый лингвистический материал для учебных и исследовательских целей. В настоящее время в Internet представлено множество классических электронных корпусов на иностранных языках. Наиболее известные из них Британский и Американский национальный корпусы английского языка, немецкоязычные корпуса LIMAS, COSMAS. Из наиболее доступных для рядового пользователя-преподавателя иностранных языков являются Gutenberg Texts, British National Corpus Sampler, The Longman Corpus, LIMAS [4, 5, 6, 7, 8], корпусы новостей Рейтер, электронные архивы крупных газет (например, The Times).

Что касается типологии корпусов текстов, то в прикладной лингвистике возможно использование таких типов как:

  • Исследовательские — для изучения различных аспектов функционирования языковой системы;
  • Иллюстративные, в том числе учебные (Learner Corpus) — для подтверждения и обоснования лингвистических фактов;
  • Мониторные — для исследования динамики языкового материала, проведения контент-анализа, например, корпус по публицистике;
  • Статические — для исследования стилей, например, авторские корпусы или корпусы текстов писателей;
  • Мультимедийные — текст + видео + аудио;
  • Корпусы параллельных текстов — для сопоставительного анализа текстов «оригинал-перевод» для обучения методам и приемам перевода. Существует две базовых формы организации таких корпусов: «оригинал-перевод/ы» (Unidirectional), «оригинал — перевод — обратный перевод» (Bidirectional or reciprocal), упорядоченные параллельно.

В данной статье в качестве примера мы рассмотрим практическое использование параллельных корпусов в обучении языку и учебных корпусов в исследованиях, связанных с проблемами освоения иностранного языка.

В методике обучения языку (грамматико-переводной метод) и методике обучения переводу интересным приложением является разработка параллельных электронных корпусов текстов (Parallel Corpora) и использование программ-конкордансов параллельных текстов [11]. Такие разработки в России находятся в стадии развития, хотя параллельные тексты давно используются для сопоставительного перевода и обучения.

В практическом смысле перевод должен ориентироваться на возможности постредактирования, сравнения и оценку различных стратегий и интерпретаций в рамках контекста. Переводчику (особенно начинающему) необходимы ресурсы, которые могли бы выступать эталонами перевода и оценке перевода в тех или иных «стандартных» условиях. По некоторым данным около 50%, а на начальном этапе обучения до 80% времени перевода тратится на обращение к реферативной информации, например, словарям. Электронные параллельные корпусы и лингвистические компьютерные технологии позволяют значительно сократить эти временные затраты и предоставляют образцы профессионального перевода при изучении приемов и способов перевода.

В настоящее время особенно распространены корпусы (или параллельные тексты) художественной литературы [2], хотя для обучения переводу в вузе следует разрабатывать корпусы разных жанров и стилей и в первую очередь ориентироваться на научно-технические, публицистические и деловые тексты.

Под учебным корпусом (Learner Сorpus) понимается электронный корпус текстов группы лиц, изучающих иностранных язык. Основной целью организации учебных корпусов является их анализ на предмет выявления способов и эффективности освоения изучаемого языка (Language Acquisition).

Такого рода корпусы, например, могут быть использованы для лингвистического анализа на предмет выявления лексических или синтаксических ошибок при освоении иностранного языка. Такой подход помогает установить частотность тех или иных типов языковых ошибок, характерные контексты, что необходимо для выработки планов и методических приемов для дальнейшей коррекции в обучении языку.

Учебные корпусы наиболее распространены в Азии и Европе. Наиболее известным является международный англоязычный корпус ICLE (International Corpus of Learner English) эссе студентов продвинутого языкового уровня [10]. Этот корпус в основном используется для дискурсивного анализа и статистического анализа вокабуляра учеников, сопоставительных исследований. Данный корпус является показательным примером эффективности разработок в области корпусной и прикладной лингвистики.

В области прикладного языковедения конкордансы (Concordances) получили особое признание лингвистов благодаря новым возможностям эффективного исследования языка и обработки лексического материала текстов различного рода. В последнее время компьютерные конкордансы стали активно использоваться при автоматизированном обучении иностранным языкам (или CALL — Computer Assisted Language Learning).

Конкорданс-программа — это специальная программа обработки текста, которой ставится некоторая лингвистическая задача по поиску той или иной морфемы, слова или словосочетания в контексте. Например, в случае английского языка — найти в данной группе текстов варианты использования неопределенных артиклей или всех слов, оканчивающихся на «-ing». В результате работы программа-конкорданс выдаст все слова с данным окончанием вместе с контекстом, как правило — это строка текста.

Таким образом, преподаватель получает множество примеров как грамматической, так и лексической формы слова (в нашем примере это отглагольные существительные, герундий, форма глагола — причастие I и т.д.). Студент в свою очередь получает естественные примеры демонстрации тех или иных грамматических или лексических явлений, может самостоятельно проводить лингвистические исследования, заниматься НИР.

В разделе изучения грамматики иностранного языка студенту может предлагаться найти и проанализировать формы выражения и использования сложных врем?н (например, Perfect), модальные глаголы и их роль в предложении, место наречий в предложении, и т.п. В разделе лексики — например, найти и объяснить на примерах такие часто вызывающие трудности при использовании слова как MAKE/DO, RISE/RAISE, TELL/SAY, LIE/LAY и т.п. В разделе синтаксиса — например, исследовать пунктуацию того или иного языка и определить различия по сравнению с родным языком. Источниками для таких работ могут служить не только специальные корпусы электронных текстов, но и различные электронные издания, электронные библиотеки (например, в Internet).

В настоящее время конкордансы являются современным эффективным инструментом анализа текста, которые следует активно применять в практике преподавания языка и в лингвистических задачах.

Анализ корпусов текстов, методы и наработки корпусной лингвистики являются перспективным направлением в области преподавания иностранных языков [12, 13]. Мировая практика развития этой области доказывает эффективность такого рода приложений, хотя в настоящее время возможности методов корпусной лингвистики в России пока не находят должной реализации в прикладной лингвистике, лингвистическом обучении, обучении родному и иностранному языку. На кафедре «Прикладная лингвистика» Ульяновского государственного технического университета проводятся исследования, связанные с разработкой учебного электронного корпуса письменных текстов начального уровня обучения иностранному языку, а также параллельного корпуса (англо-русского) газетных текстов для обучения переводу. Компьютерные конкордансы уже несколько лет используются на кафедре в учебном процессе для подготовки и написания рефератов, курсовых работ по иностранным языкам, а также для НИР студентов-лингвистов.

cosmas/
5) Gutenberg Texts. http://promo.net/pg/
6) British National Corpus. http://www.natcorp.ox.ac.uk/getting/sampler.html
7) The Longman Corpus. http://www.longman.com/dictionaries/corpus/lccont.html
8) LIMAS Corpus. http://www.ikp.uni-bonn.de/Limas
9) American National Corpus. http://americannationalcorpus.org/
10) International Corpus of Learner English// http://juppiter.fltr.ucl.ac.be/FLTR/GERM/ETAN/CECL/cecl.html
11) Michael Barlow ParaConc: A Parallel Concordancer http://juppiter.fltr.ucl.ac.be/FLTR/GERM/ETAN/CECL/Events/icamepr.htm#para
12) Tim Johns Data-driven Learning Page. http://web.bham.ac.uk/johnstf
13) Michael Barlow’s Corpus Linguistics Page. http://www.ruf.rice.edu/

© «Ling.ulstu.ru» Защищено авторским правом. Копирование информации без разрешения автора — запрещено.

Ульяновский государственный технический университет

432027, г.Ульяновск, Северный Венец, 32 (Схема проезда)

источник

КОРПУСНЫЙ ПОДХОД В ИССЛЕДОВАНИИ СЕМАНТИКИ СЛОВА

Балтийский Федеральный Университет им. И. Канта

В статье дан обзор актуальных понятий и методов корпусной лингвистики, применяемых в исследовании семантики слова.

The article provides an overview of new terms and methods of the corpus linguistics, widely used in word semantics studies.

Ключевые слова: корпусная лингвистика, семантические характеристики, конструкционносочетаемостный профиль.

Key-words: corpus linguistics, ID-tags, behavioral profile.

Different kinds of perceiving create different types of understanding [. ]

Words can have colors and emotions, numbers,

Когнитивный подход к изучению семантики слова подобен синестезии. Синестетическое восприятие выражается в том, что перечисленные группы явлений непроизвольным образом приобретают в субъективном мире человека как бы параллельное качество в виде дополнительных, более простых ощущений или стойких «элементарных» впечатлений — например, цвета, запаха, звуков, вкусов, качеств фактурной поверхности, прозрачности, объемности и формы, расположения в пространстве и других качеств, не получаемых при помощи органов чувств, а существующих только в виде реакций [2]. В рамках когнитивной лингвистики каждый метод — прототипический подход, анализ семантики с помощью qualia-структур, построение концептуальных лексических сетей, фреймовый анализ и другие — открывает новое качество слова, дополнительную информацию о семантике слова и языке в целом. Если посмотреть на слово с точки зрения корпусной лингвистики, то можно выявить новые знания о семантике слова посредством чисел.

В настоящее время корпусная лингвистика играет важную роль в развитии методов когнитивного анализа семантики слова. Корпусная лингвистика призвана объединить исследования, основанные на субъективном, интуитивном впечатлении, и современные тенденции, требующие объективного подхода и основательную доказательную базу, таким образом, продвигая когнитивные исследования на новый уровень.

Тексты любого корпуса предлагают обширный и достоверный материал для исследования семантики слова. Любой корпус имеет некоторую разметку, которая указывает на лексико-семантические, грамматические, морфологические особенности слова. Анализ примеров, основанный на разметке корпуса, помогает разграничить кластеры значений, особенно многозначного слова. Чем более полная разметка корпуса, тем больше можно получить информации о слове, его новых употреблениях. С другой стороны большое разнообразие в разметке корпуса может привести к множественности интерпретаций, классификаций и, таким образом, завести исследователя в тупик. Для того, чтобы упорядочить результаты исследований языка и слова методами корпусной лингвистики, современные исследования семантики слова опираются на следующие понятия.

Идентификационные маркеры/теги, семантические характеристики — «ID tags, i. e. syntactic or lexical markers in the citations which point to a particular dictionary sense of the word» (Atkins, 1987; цит. по [6, c. 62]). Идентификационные маркеры могут быть выделены в зависимости от того (1) свидетельствует ли новое употребление слова, и соответственно, дополнительный оттенок значения слова, непосредственно о его новом значении; (2) выявлены ли новые характеристики, оттенки слова напрямую или косвенно, например, через значения других слов.

Читайте также:  Какие анализы сдать при кровотечение

Так, например, для глагола выделяют следующие идентификационные маркеры [6, c. 73-75]:

· морфологические особенности: время, залог, категория.

· синтаксические характеристики: переходный / непереходный глагол, утвердительное предложение / вопросительное / повелительное, главное предложение / придаточное

· семантические характеристики слов, с которыми употребляется глагол: субъект, объект и другие характеристики, которые могут быть выражены как человек/инструмент, одушевленный/неодушевленный, исчисляемое/неисчисляемое, конкретное / абстрактное /собирательное, организация, место, количество, процесс и др., а также посредством семантических падежей ;

· употребление устойчивых выражений;

· употребление синонимов, их значений, возможность перифраза.

Данный список идентификационных маркеров для глагола не является исчерпывающим.

Наряду с понятием «идентификационные маркеры», в своих работах исследователи используют такое понятие как «поведенческий портрет слова»

— «word’s behavioral profile» (Hanks, 1996; цит. по [6, c. 62]), или конструкционносочетаемостный профиль [1]. Выявление такого профиля слова ориентировано на работу с большими группами слов — синонимами и антонимами, многозначными словами. Данный подход позволяет работать с большим количеством словоформ и их употреблениями, а также объединят различные виды статистического анализа, такие, как количественный подсчет, кластерный анализ и построение иерархии.

Метод определения конструкционносочетаемостного профиля сводится к четырем этапам [8].

1. Поиск в корпусе исследуемых слов и их сегментов, подготовка списка результатов.

2. Анализ и аннотирование характеристик каждого примера в списке. Такое описание семантических характеристик было упомянуто выше как идентификационные маркеры — морфологические, семантические, синтаксические характеристики слова.

3. Оформление полученных результатов с включением статистических данных о частотности употребления каждого маркера, каждой семантической характеристики.

4. Оценка полученных данных — сравнительный анализ частотности употребления исследуемых единиц, построение иерархии и кластерный анализ, а также использование других методов статистического анализа.

В свете данного подхода, представляют интерес работы таких авторов как [7], [5], [8], [9] и др.

Так, в своем исследовании на примере многозначного глагола to run [6] наглядно иллюстрирует преимущества использования как идентификационных маркеров, так и конструкционносочетаемостного профиля слова. Данная работа представляет собой многостороннее исследование, подтвержденное статистически и контекстуально.

анализирует примеры с глаголом to run, полученные в результате поиска в корпусах the International Corpus of English (the British component) и the Brown Corpus of American English. В процессе анализа был выявлен прототип значения (учитывая частотность его употребления, этимологические данные, множественность его употребления в структурном разнообразии при неизменяемости формальных и атрибутивных характеристиках значения) и далее опираясь на прототип анализирует употребление глагола to run, его многозначность. На начальном этапе автор анализирует переходные и непереходные употребления глагола to run, а также его идиоматические значения. В результате проведенного анализа были выделены значения не только, указанные в словарях (Collins Cobuild), но и новые значения глагола to run, которые, как выявил опрос респондентов, для которых английский язык родной, были им неизвестны. Дело в том, что применяя данный метод многие глаголы постоянно обнаруживают асимметрию в употреблении структур и значений, что может содействовать выявлению новых значений. Этот факт доказывает еще раз то, что невозможно, опираясь на субъективный опыт, описать все случаи многозначности слова, а также важную роль корпуса в лингвистических исследованиях.

Далее рассуждает о том, по каким параметрам следует выделять новое значение, или, наоборот, как определить, что употребление слова является, например, генерализацией основного значения. Автор снова обращается к разметке корпуса, которая позволит выявить, к какому кластеру принадлежит новое значение. В связи с этим прибегает к кластерному анализу, в результате которого была выстроена иерархия, где отражаются значения глагола to run и их связь. В основу иерархии легли данные с идентификационными маркерами — грамматическими, синтаксическими, семантическими, морфологическим характеристиками данного глагола.

Следует сказать о преимуществе лексико-грамматической разметки и идентификационных маркеров многозначных слов. Такая разметка слов, выявление их конструкционносочетаемостного профиля способствует точности описания слова и его значений, помогает решить проблему лексической многозначности (word sense disambiguation), а также вносит вклад в когнитивный анализ семантики слова.

И в заключение, необходимо отметить, что исследователи находятся в постоянном поиске новых стратегий анализа семантики слова, ищут пути взаимодействия и точки соприкосновения когнитивной лингвистики и корпусной лингвистики. Так, метод выявления конструкционносочетаемостного профиля имеет сходство с новым, разрабатываемым методом коллострукционного анализа (collostruction, collostruction analysis) [3, 4]. Данный метод имеет целью определить степень сочетаемости и несочетаемости слов в конструкциях, где принимается во внимание не только сочетаемость слов друг с другом, но и сочетаемость слова в отношении синтаксической структуры в целом. Чтобы получить убедительные результаты, разработчики метода использует не только количественный подсчет употреблений слов в конструкции, но и дополнительные сложные статистические тесты (Fisher-Yates exact test — алгоритм Фишера-Йетса). В настоящий момент данный метод пока не получил широкого распространения среди исследователей, и, вероятно, проходит апробацию в работах авторов этого метода.

Следует отметить, что использование методов корпусной лингвистики и в частности количественного метода не может заменить другие подходы к исследованию значения слова. Количественный метод может только дополнять их.

Таким образом, междисциплинарный подход к исследованию семантики слова наблюдается не только в рамках когнитивной лингвистики в целом, но и в пределах одной из областей исследования семантики слова — корпусной лингвистики. Такая мультиаспектность позволяет открывать новые знания о семантике слова, когнитивных основаниях его функционирования.

1. Образовательный портал национального корпуса русского языка. URL: http:///index. php? option=com_tag&Item >

2. Сайт российского синестетического общества. URL: http://www. /whatis. html#1. Дата обращения: 09.10.2011.

3. Collostructional analysis. URL: http://en. wikipedia. org/wiki/Collostructional_

analysis. Дата обращения: 13.10.2011.

4. Collostructional analysis. URL: http://www-user. uni-bremen. de/

anatol/caw/index. html. Дата обращения: 13.10.2011.

5. Divjak Dagmar. Ways of intending: Delineating and structuring near-synonyms // Corpora in cognitive linguistics : corpus-based approaches to syntax and lexis. Trends in linguistics. Studies and monographs / Stefan Th. Gries, Anatol Stefanowitsch. Vol. 172. Mouton de Gruyter. Berlin, 2006. P. 19-56.

6. Gries Stefan Th. Corpus-based methods and cognitive semantics: the many senses of to run // Corpora in cognitive linguistics : corpus-based approaches to syntax and lexis. Trends in linguistics. Studies and monographs / Stefan Th. Gries, Anatol Stefanowitsch. Vol. 172. Mouton de Gruyter. Berlin, 2006. P. 57-100.

7. Gries, Stefan Th. & Dagmar S. Divjak. Quantitative approaches in usage-based cognitive semantics: myths, erroneous, assumptions, and a proposal //Quantitative methods in cognitive semantics: corpus-driven approaches / Dylan Glynn & Kerstin Fischer. Mouton de Gruyter. Berlin & New York, 2010. P. 333-354.

8. Gries Stefan Th. Behavioral profiles: a fine-grained and quantitative approach in corpus based lexical semantics // Methodological and analytic frontiers in lexical research. Part I / Gonia Jarema, Gary Libben, & Chris Westbury. Vol. 5, №3. John Benjamins. Amsterdam & Philadelphia. 2010. URL: http://www. linguistics. ucsb. edu/faculty/stgries/

research/2010_STG_BehavProf_TheMentalLexicon. pdf. Дата обращения 10.10.2011.

9. Schönefeld Doris. From conceptualization to linguistic expression: Where languages diversify // Corpora in cognitive linguistics : corpus-based approaches to syntax and lexis. Trends in linguistics. Studies and monographs / Stefan Th. Gries, Anatol Stefanowitsch. Vol. 172. Mouton de Gruyter. Berlin, 2006. P. 297-344.

источник

Статья № 2 цикла продолжит рассказ о пользе корпусной лингвистики в контексте преподавания иностранного языка. Цикл статей составлен на основе материала из лекций курса «Введение в корпусную лингвистику», который читает Левинзон Анна Иосифовна, ст. преподаватель Школы лингвистики гуманитарного факультета НИУ ВШЭ. Этот курс каждый может пройти совершенно бесплатно онлайн на сайте «Открытое образование»

Корпусная лингвистика часто решает не только теоретические задачи, но и задачи сугубо практические, связанные с бизнесом, например, или криминалистикой.

Пример практической задачи на немецком языке, которая была поставлена перед исследователем:

Компания, размещая наружную рекламу своего продукта, хотела сделать рекламную бегущую строку, количество окошек для букв в которой зависит от количества букв в среднем немецком слове. Такую информацию можно получить достоверно только на основе корпусного запроса, а не на основе среднего арифметического. Самое длинное немецкое слово состояло из 32 букв, самое короткое – из одной. Согласно данным корпуса, среднее немецкое слово состоит из 5, 7 букв.

Многие исследования в корпусе требуют применения статистических методов, владение которыми становится для исследователя необходимым. Помимо чисто практических задач, популярны исследования сравнительные на лексическом материале разных эпох и разных авторов текстов. Есть даже такой индекс лексического разнообразия автора, получить который можно только с помощью корпуса.

Нередко лингвистов интересует частотность ключевых слов определенных авторов или в определенных текстах и т.д. Популярным является такое направление корпусных исследований, как выявление неслучайных сочетаний слов – коллокаций. Во многом изучение коллокаций вызвано необходимостью преподавать язык. Уже в начале тридцатых годов ХХ века была признана важность включения коллокаций в учебники и тесты английского языка как иностранного. Тогда же появились частотные словари. Один из современных популярных частотных словарей – словарь издательства Macmillan состоит из коллокаций английского языка на современном этапе развития.

Девизом его является цитата «Вы узнаете слово по его компании» Дж.Фёрс.

Инструмент исследования на базе корпусов, который был создан в начале двухтысячных годов и основан на корпусах. Здесь имеются базы многих корпусов на многих языках.

Sketch Engine for Language Learning: sketchengine.co.uk/skell

Инструмент применяется для составления конкорданса – сопоставительного материала по слову в его контекстах, когда слово графически удобно располагается посередине, а контексты слева и справа.

Ресурс дает возможность самому быстро составлять тезаурусы – отнесение слова к определенной категории в соответствии с его значением, например, синонимов.

С помощью этого инструмента можно исследовать свой собственный подкорпус языка, на основе которого можно составлять переводческие соответствия терминов.

И, наконец, функция, которая и дала название самого инструмента, с помощью которого исследователь может получить «Скетч слова». Скетч слова – это коротко изложенное на одной странице описание грамматических конструкций, в которых данное слово встречается, и лексических сочетаний, в которых появляется это слово. С помощью этого инструмента исследователь значительно экономит свое время и силы на просматривание многих страниц выдачи корпусных данных.

Примером получения такой быстрой информации могут служить скетчи слов intelligent и clever. На одной странице такого скетча можно сразу увидеть, что слово intelligent употребляется для характеристики робота, а clever – человека, который придумал что-то хитрое trick J.

Беслатный, очень полезный и простой инструмент для изучающих английский язык, который функционирует в рамках sketchengine является SKELL.

Безусловно, описанный инструмент, так же, как и сам огромный корпус языка, является только инструментом для опровержения или подтверждения тех умозаключений, которые имеет исследователь изначально, либо имеющихся у него вопросов.

На таком подходе к корпусу основано направление корпусной лингвистики, которое называется corpus-based research. При этом исследователь имеет предварительно до работы с корпусом собственную гипотезу, которую данные корпуса подтверждают или нет.

Примером такого исследования может служит контент-анализ слова «Европа», где корпус является источником примеров

Иного принципа придерживаются исследователи направления corpus-driven research, которые не имеют заранее определенной установки, а наоборот, полностью полагаются на данные корпуса, из которого затем уже выводятся теории, нормы и правила.

Конечно, приверженцы обоих методов критикуют друг друга.

Главное достижение обоих методов состоит в том, что идея «описать язык в целом» признана невозможной, да и ненужной, а все исследования проводятся только в рамках определенных регистров, поскольку определенные правила действуют исключительно в одних регистрах и исчезают в других. Таким образом, защищается установка, когда в языке нет неправильного и нормы, а есть только разнообразие регистров, то есть форм существования языка.

В последнее время оба подхода сближаются и дают новые возможности для исследования, примером сближения рекомендуется ознакомиться с исследованием Piperski, A. Kukhto. Intra-speaker stress variation in Russian: A corpus-driven study of Russian poetry .

источник