ЗНАЧЕНИЕ ТЕКСТОВЫХ БАЗ ИНТЕРНЕТА В ЭФФЕКТИВНОМ РАЗВИТИИ ЯЗЫКОВОГО КОРПУСА
Ключевые слова:
Ключевые слова: корпус, internet, вебкорпус, webCorp, NLP, BNC.Аннотация
Для создания корпуса удобно использовать Интернет. Потому что если письменные тексты определенного языка находятся в электронном варианте или в виде книги в корпусе, они сканируются и переводятся в словесную (словарную) форму, и в тексте встречается множество ошибок, которые необходимо исправлять. Аудио тексты должны быть расшифрованы. В этом процессе предпочтительно формировать языковой корпус из готовых электронных версий письменных текстов. Интернет может поставить неожиданные вопросы о природе языка. Он также предоставляет удобный инструмент для работы и проверки текста.
Библиографические ссылки
Список использованной литературы:
Килгаррифф А., Грефенстетт Г. Введение в специальный выпуск Интернета как корпуса. Компьютерная лингвистика, 29 (3), 2003. стр. 333-347.
Терра Э., Кларк К. Оценки частоты статистических показателей сходства слов. В материалах конференции Human Language Technology и Североамериканского отделения Ассоциации компьютерной лингвистики, 2003 г., 244–251.
Стюарт К. Новые взгляды на корпусную лингвистику.:
file:///D:/about%20corpora/Dialnet-NewPerspectivesOnCorpusLinguistics-1426958.pdf
МакЭнери Т., Уилсон А. Корпусная лингвистика. Издательство Эдинбургского университета, Эдинбург, 1996.
МакЭнери Т., Харди А. Корпусная лингвистика: Метод, теория и практика. Кембридж: Издательство Кембриджского университета, 2012.
Радев Д., МакКаун К. Создание источника знаний поколений с использованием новостной ленты, доступной в Интернете. В материалах Пятой конференции по прикладной обработке естественного языка. Вашингтон, округ Колумбия, апрель 1997 г., стр. 221-228
Грефенштетт Г., Ниоч Дж. Оценка использования английского и неанглоязычных языков в WWW. В материалах RIAO (Recherche d'Informations Assistee par Ordinateur), Париж, 2000 г.
Джонс Р. и Гани Р. Автоматическое создание корпуса языков меньшинств из Интернета. 38-е заседание ACL, Материалы студенческого исследовательского семинара. Гонконг. Октябрь 2000, стр. 29-36
Резник П. Поиск в сети двуязычного текста. Материалы 37-го заседания ACL. Мэриленд, США, июнь 1999 г., стр. 527-534.
Фуджи А., Исикава Т. Использование всемирной паутины в качестве энциклопедии: извлечение описаний терминов из полуструктурированного текста. В протоколах 38-го заседания ACL, Гонконг, октябрь 2000 г., стр. 488-495
Грефенштетт Г. WWW как ресурс для задач MT на основе примеров. Приглашенный доклад, конференция ASLIB «Перевод и компьютер», Лондон. Октябрь 1999 года.
Волк М. Использование Интернета как корпуса для лингвистических исследований.
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.104.6964&rep=rep1&type=pdf
Хундт М., Нессельхауф Н. К. Бивер. Корпусная лингвистика и Интернет. Амстердам-Нью-Йорк, 2007.