<<
>>

ГлаваХ1 ЛИНГВИСТИЧЕСКИЙ КОРПУСВ ОБУЧЕНИИ ИНОСТРАННОМУ ЯЗЫКУ

  Определение понятий.

Лингвистический корпус — это массив текстов, собранных в единую систему по определенным признакам (языку, жанру, времени создания текста, автору и т.п.) и снабженных поисковой системой.

Лингвистический корпус может включать как письменные тексты (тексты газет, журналов, литературных произведений), так и транскрипты радио- и телепередач. Организация корпуса может быть самой разнообразной. В зависимости от целей его создания в корпус могут входить тексты на конкретном языке, одного или нескольких авторов и литературных жанров, написанные в определенный исторический период и т.п. Весь массив текстов в корпусе систематизирован. Это значит, что в корпусе зафиксировано расположение каждого слова в предложении по отношению к другим словам, а также учитывается частота его использования в данном корпусе.

Национальный лингвистический корпус представляет огромную коллекцию устных и письменных текстов различных жанров, стилей, региональных и социальных вариантов, представленных в языке и представляющих интерес для изучения языка. Национальный лингвистический корпус служит для изучения лексики и грамматики языка, а также для отслеживания малейших изменений в языке. На основе именно национального корпуса создаются грамматические справочники и академические словари.

Конкорданс - это программа, позволяющая анализировать большие массивы текста на предмет обнаружения закономерностей использования в языке слов или выражений. Конкорданс осуществляет поиск запрашиваемого слова в корпусе и выдает в новом окне несколько фрагментов предложений из разных текстов, в которых используется данное слово или выражение. На основании полученных результатов конкорданса можно и понять значение данного слова из контекста, и провести анализ его

употребления в языке. В таблице 11.1 представлен пример результатов поиска слов look и watch в британском национальном корпусе.

Таблица 11.1

Пример результатов поиска слов look

и watch в британском национальном корпусе

Данный пример отчетливо показывает, что конкорданс выдает каждое слово в контексте его реального использования. Результаты поиска можно использовать для уточнения словоупотребления и выведения правил использования определенных слов и выражений в языке, а также для изучения грамматического строя языка.

В сети Интернет существует множество корпусов, которые можно использовать для анализа словоупотребления или грамматического строя языка. При этом пользователю (ученику, студенту, учителю) важно осуществить верный выбор конкретного лингвистического корпуса для решения конкретных учеб- ных/научных задач. Например, если пользователю необходимо выявить различия в использовании глаголов «stare» и «gaze» в современном английском языке, то наиболее подходящим для решения этой учебной задачи будет британский национальный корпус. Если же пользователь ставит своей задачей выяснить частотность использования слова «thy» в произведениях В. Шекспира, то более подходящим для решения этой учебной задачи будет корпус произведений В. Шекспира (Shakespeare Corpus) (http://www.opensourceshakespeare.org/concordance/find-

form.php), так как другие корпусы могут не включать в себя произведения этого английского автора в количестве, необходимом для лингвистического анализа и выявления закономерностей.

Корпусная лингвистика - это раздел языкознания, занимающийся выявлением закономерностей функционирования языка через его анализ и изучение с помощью лингвистического корпуса.

История зарождения корпусной лингвистики.

Свой отсчет корпусная лингвистика как раздел языкознания начинает с 60-х гг. XX в., когда в Брауновском университете (США) учеными Н. Френсисом (Nelson Francis) и Г. Кучера (Henry Kucera) был создан первый большой корпус текстов на машинном носителе. Корпус содержал около пятисот тысячесловных печатных текстов американского варианта английского языка, принадлежащих 15 наиболее массовым жанрам американской прозы (газетные статьи, рецензии, художественные тексты, научные тексты, тексты религиозного содержания, фантастика, биографии и т.п.), общим объемом около миллиона слов.

По мнению создателей, Брауновский корпус был достаточно представительным для американского варианта английского языка и предназначался для отражения лингвистических особенностей американской печатной прозы.

В основе отбора текстов для данного корпуса лежали следующие четыре критерия: происхождение автора и состав текста (автор должен был быть урожденным носителем американского варианта английского языка, диалог не должен был занимать больше половины текста); синхронизация (в корпус вошли тексты, впервые опубликованные в 1961 г.); численное соотношение текстов разных жанров; доступность для компьютерной обработки данных (с помощью тэгов - закладок и пометок - в тексте для классификации и быстрого поиска).

Появление Брауновского корпуса мгновенно оживило научную общественность и стимулировало научную дискуссию, в центре внимания которой были основные критерии отбора текстов и потенциальные возможности корпуса для научного анализа. Перечисленные четыре критерия и пятнадцатижанровая представительность американской печатной прозы определили надежность Брау- новского корпуса, который стал активно использоваться в лингвистических исследованиях. Постепенно в процессе использования Брауновского лингвистического корпуса ученые пришли к пониманию того, что провести некоторые сравнения и выявить определенные закономерности можно только путем анализа крупных текстовых массивов, организованных по определенным правилам, что позволял исключительно созданный корпус. Так начали проводиться новые исследования языка на уже более высоком и надежном уровне в рамках нового направления в языкознании, которым стала корпусная лингвистика.

Брауновский корпус и критерии отбора текстов послужили основой для создания британского корпуса (LOB - Lancaster- Oslo/Bergen), названного по месту его создания. Новый британский корпус позволил проводить исследования контрасто- сопоставительного характера, выделяя сходства и различия между американским и британским вариантами английского языка.

Постепенно лингвисты других стран также начали заниматься разработкой лингвистических корпусов своих языков, что привело к созданию в 1992 г. «Европейской корпусной инициативы» (European Corpus Initiative (ECI) - международной организации, в настоящее время занимающейся созданием огромного многоязычного корпуса для научных целей. В настоящее время многоязычный корпус ECI включает более 50 корпусов разных языков.

Практическое применение результатов корпусной лингвистики можно наблюдать, прежде всего, в области лексикографии. На основе компьютерной обработки массивов текстов создаются новые словари типа COBUILD (Collins Birmingham University International Language Database) (corpus-build - созданный на основе анализа лингвистического корпуса), фиксирующие самые современные тенденции в использовании языка и частотность использования слов.

Современные лингвистические корпусы.

На настоящее время практически все современные языки имеют лингвистические корпусы. В таблице 11.2 приводятся примеры наиболее распространенных лингвистических корпусов, которые доступны в сети Интернет и могут быть использованы в обучении иностранному языку.

Лингвистические корпусы

Таблица 11.2

Название корпуса и адрес в сети Интернет

Краткое описание

Английский язык

1.

Британский национальный корпус

(British National Corpus)

http://www.natcorp.ox.ac.uk/

Объем корпуса - свыше 100 млн словоупотреблений

2.

Лингвистический корпус английского языка (The Bank of English)

http://www.collins.co.uk/Corpus/

CorpusSearch.aspx

В состав корпуса входят различные типы письменных текстов и устной речи. В общедоступной версии корпуса существует возможность выбора подкорпуса: британские книги, газеты, журналы, радиопередачи и др.

(36 млн словоупотреблений); американские книги, радиопередачи и др. (10 млн словоупотреблений); британская устная речь (10 млн словоупотреблений). Объем корпуса - 524 млн словоупотреблений, объем общедоступной части корпуса - 56 млн словоупотреблений

3.

Американский национальный корпус

American National Corpus (ANC)

http ://americannationalcorpus.org/

Планируется создание представительного корпуса объемом 100 млн словоупотреблений. Объем готового фрагмента корпуса-10 млн словоупотреблений

4.

Мичиганский корпус академического английского языка Michigan Corpus of Academic Spoken English: MiCASE

http://quod.lib.umich.edU/m/micase/

Объем интернет-версии корпуса - 152 источника (1848364 слов)

Название корпуса и адрес в сети Интернет

Краткое описание

Немецкий язык

5.

Корпус Берлинской Бранденбургской Академии Наук DWDS-Corpus

http://www.dwds.de/pages/pages_te xtba/dwds textba.htm

Корпус Берлинской Бранденбургской Академии Наук, на основе которой производился Цифровой словарь немецкого языка XX в. (DWDS)

6.

Немецкая лексика онлайн Projekt Deutscher Wortschatz

http://wortschatz.uni-leipzig.de/

Содержит 35 млн предложений с 500 млн слов

7.

Корпусы института Немецкого языка

LIMAS-Korpus

http://www.korpora.org/Limas/

Самая большая в мире коллекции немецкоязычных текстовых корпусов

8.

Корпус немецкого языка IDS-Korpora

http://www.ids-

mannheim.de/kt/corpora.html

Представительный корпус современного немецкого языка (литературный язык). Был разработан в 1970 г. Включает выборку в 500 текстов. Корпус можно найти в полном объеме в Интернете

Французский язык

9.

Корпус французского языка Corpus de R^rence du Franfais parte

http://sites.univ-

provence.fr/delic/corpus/index.html

440.000 слов, 134 фото, более 36 часов устной речи

10.

Корпус разговорного французского языка

Un corpus d’entretiens spontan?s

http://www.llas.ac.uk/resources/mb/80

Корпус содержит 95 бесед

Большинство корпусов снабжены пометками, которые указывают на часть речи, род, число, падеж запрашиваемых слов.

<< | >>
Источник: Сысоев Павел Викторович. Информационные и коммуникационные технологии в лингвистическом образовании: Учебное пособие.. 2013

Еще по теме ГлаваХ1 ЛИНГВИСТИЧЕСКИЙ КОРПУСВ ОБУЧЕНИИ ИНОСТРАННОМУ ЯЗЫКУ:

  1. Раздел VI ГРАЖДАНСКИЕ ПРОЦЕССУАЛЬНЫЕ ПРАВА ИНОСТРАННЫХ ГРАЖДАН И ЛИЦ БЕЗ ГРАЖДАНСТВА. ИСКИ К ИНОСТРАННЫМ ГОСУДАРСТВАМ, СУДЕБНЫЕ ПОРУЧЕНИЯ И РЕШЕНИЯ ИНОСТРАННЫХ СУДОВ. МЕЖДУНАРОДНЫЕ ДОГОВОРЫ
  2. Сысоев Павел Викторович. Информационные и коммуникационные технологии в лингвистическом образовании: Учебное пособие., 2013
  3. Приближение разговорной речи консультанта к языку клиента
  4. 5. Лингвистические источники
  5. Вопрос 82. Признание и исполнение решений иностранных судов и иностранных третейских судов (арбитражей)
  6. Глава1.ЛИНГВИСТИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ИСТОКИ
  7. Глава V. Рекламный заголовок в лингвистическом зеркале
  8. Глава 45. ПРИЗНАНИЕ И ИСПОЛНЕНИЕ РЕШЕНИЙ ИНОСТРАННЫХ СУДОВ И ИНОСТРАННЫХ ТРЕТЕЙСКИХ СУДОВ (АРБИТРАЖЕЙ)
  9. Статья 403. Исключительная подсудность дел с участием иностранных лиц Статья 404. Договорная подсудность дел с участием иностранных лиц Статья 405. Неизменность места рассмотрения дела Статья 406. Процессуальные последствия рассмотрения дел иностранным судом
  10. Соотношение обучения и воспитания. Проблемы дифференциации и индивидуализации обучения
  11. § 2. Вклады населения в иностранной валюте. Особенности оформления операций по вкладам в иностранной валюте
  12. 3.4. Методическая система обучения военнослужащих (методы, формы обучения и виды учебных занятий)
  13. Статья 415. Признание решений иностранных судов, не требующих дальнейшего производства Статья 416. Признание и исполнение решений иностранных третейских судов (арбитражей) Статья 417. Отказ в признании и исполнении решений иностранных третейских судов (арбитражей)
  14. Основные понятия психологии обучения. Учебная деятельность Задача психологии обучения
  15. Трудовая деятельность иностранного лица
  16. §3. Правовое регулирование иностранных инвестиций
  17. 5.4. Учет операций по покупке иностранной валюты
  18. §3. Признание и исполнение решений иностранных судов