Сайт про гаджеты, ПК, ОС. Понятные инструкции для всех
  • Главная
  • Планшеты
  • Компьютерная лингвистика: методы, ресурсы, приложения. Компьютерная лингвистика в «Вышке»: Анастасия Бонч-Осмоловская о новой магистерской программе

Компьютерная лингвистика: методы, ресурсы, приложения. Компьютерная лингвистика в «Вышке»: Анастасия Бонч-Осмоловская о новой магистерской программе

Компью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика , англ. computational linguistics ) - научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта , которое ставит своей целью использование математических моделей для описания естественных языков .

Компьютерная лингвистика частично пересекается с обработкой естественных языков . Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.

Полем деятельности компьютерных лингвистов является разработка алгоритмов и прикладных программ для обработки языковой информации.

Истоки

Математическая лингвистика является ветвью науки искусственного интеллекта . Её история началась в Соединённых Штатах Америки в 1950-х годах. С изобретением транзистора и появлением нового поколения компьютеров, а также первых языков программирования, начались эксперименты с машинным переводом , особенно русских научных журналов. В 1960-х годах подобные исследования проводились и в СССР (например, статья о переводе с русского на армянский в сб. «Проблемы кибернетики» за 1964 год). Однако качество машинного перевода до сих пор сильно уступает качеству перевода, произведённого человеком.

С 15 по 21 мая 1958 года в I МГПИИЯ состоялась первая Всесоюзная конференция по машинному переводу. Оргкомитет возглавляли В. Ю. Розенцвейг и ответственный секретарь Оргкомитета Г. В. Чернов . Полностью программа конференции опубликована в сборнике «Машинный перевод и прикладная лингвистика», вып. 1, 1959 г. (он же «Бюллетень Объединения по машинному переводу № 8»). Как вспоминает В. Ю. Розенцвейг , опубликованный сборник тезисов конференции попал в США и произвел там большое впечатление.

В апреле 1959 года в Ленинграде состоялось I Всесоюзное совещание по математической лингвистике, созванное Ленинградским университетом и комитетом прикладной лингвистики. Главным организатором Совещания был Н. Д. Андреев . В Совещании приняли участие ряд видных математиков, в частности, С. Л. Соболев , Л. В. Канторович (впоследствии - Нобелевский лауреат) и А. А. Марков (последние двое выступали в прениях). В. Ю. Розенцвейг выступил в день открытия Совещания с программным докладом «Общая лингвистическая теория перевода и математическая лингвистика».

Направления компьютерной лингвистики

  • Обработка естественного языка (англ. natural language processing ; синтаксический, морфологический, семантический анализы текста). Сюда включают также:
  1. Корпусная лингвистика , создание и использование электронных корпусов текстов
  2. Создание электронных словарей , тезаурусов , онтологий . Например, Lingvo . Словари используют, например, для автоматического перевода, проверки орфографии.
  3. Автоматический перевод текстов. Среди русских переводчиков популярным является Промт . Среди бесплатных известен переводчик Google Translate
  4. Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact extraction, text mining )
  5. Автореферирование (англ. automatic text summarization ). Эта функция включена, например, в Microsoft Word .
  6. Построение систем управления знаниями . См. Экспертные системы
  7. Создание вопросно-ответных систем (англ. question answering systems ).
  • Оптическое распознавание символов (англ. OCR ). Например, программа FineReader
  • Автоматическое распознавание речи (англ. ASR ). Есть платное и бесплатное ПО
  • Автоматический синтез речи

Крупные ассоциации и конференции

Учебные программы в России

См. также

Напишите отзыв о статье "Компьютерная лингвистика"

Примечания

Ссылки

  • (реферат)
  • - база знаний по лингвистическим ресурсам для русского языка
  • - открытые исходники некоторых утилит компьютерной лингвистики
  • - онлайн доступ к программам компьютерной лингвистики

Отрывок, характеризующий Компьютерная лингвистика

– Возьми, возьми ребенка, – проговорил Пьер, подавая девочку и повелительно и поспешно обращаясь к бабе. – Ты отдай им, отдай! – закричал он почти на бабу, сажая закричавшую девочку на землю, и опять оглянулся на французов и на армянское семейство. Старик уже сидел босой. Маленький француз снял с него последний сапог и похлопывал сапогами один о другой. Старик, всхлипывая, говорил что то, но Пьер только мельком видел это; все внимание его было обращено на француза в капоте, который в это время, медлительно раскачиваясь, подвинулся к молодой женщине и, вынув руки из карманов, взялся за ее шею.
Красавица армянка продолжала сидеть в том же неподвижном положении, с опущенными длинными ресницами, и как будто не видала и не чувствовала того, что делал с нею солдат.
Пока Пьер пробежал те несколько шагов, которые отделяли его от французов, длинный мародер в капоте уж рвал с шеи армянки ожерелье, которое было на ней, и молодая женщина, хватаясь руками за шею, кричала пронзительным голосом.
– Laissez cette femme! [Оставьте эту женщину!] – бешеным голосом прохрипел Пьер, схватывая длинного, сутоловатого солдата за плечи и отбрасывая его. Солдат упал, приподнялся и побежал прочь. Но товарищ его, бросив сапоги, вынул тесак и грозно надвинулся на Пьера.
– Voyons, pas de betises! [Ну, ну! Не дури!] – крикнул он.
Пьер был в том восторге бешенства, в котором он ничего не помнил и в котором силы его удесятерялись. Он бросился на босого француза и, прежде чем тот успел вынуть свой тесак, уже сбил его с ног и молотил по нем кулаками. Послышался одобрительный крик окружавшей толпы, в то же время из за угла показался конный разъезд французских уланов. Уланы рысью подъехали к Пьеру и французу и окружили их. Пьер ничего не помнил из того, что было дальше. Он помнил, что он бил кого то, его били и что под конец он почувствовал, что руки его связаны, что толпа французских солдат стоит вокруг него и обыскивает его платье.
– Il a un poignard, lieutenant, [Поручик, у него кинжал,] – были первые слова, которые понял Пьер.
– Ah, une arme! [А, оружие!] – сказал офицер и обратился к босому солдату, который был взят с Пьером.
– C"est bon, vous direz tout cela au conseil de guerre, [Хорошо, хорошо, на суде все расскажешь,] – сказал офицер. И вслед за тем повернулся к Пьеру: – Parlez vous francais vous? [Говоришь ли по французски?]
Пьер оглядывался вокруг себя налившимися кровью глазами и не отвечал. Вероятно, лицо его показалось очень страшно, потому что офицер что то шепотом сказал, и еще четыре улана отделились от команды и стали по обеим сторонам Пьера.
– Parlez vous francais? – повторил ему вопрос офицер, держась вдали от него. – Faites venir l"interprete. [Позовите переводчика.] – Из за рядов выехал маленький человечек в штатском русском платье. Пьер по одеянию и говору его тотчас же узнал в нем француза одного из московских магазинов.
– Il n"a pas l"air d"un homme du peuple, [Он не похож на простолюдина,] – сказал переводчик, оглядев Пьера.
– Oh, oh! ca m"a bien l"air d"un des incendiaires, – смазал офицер. – Demandez lui ce qu"il est? [О, о! он очень похож на поджигателя. Спросите его, кто он?] – прибавил он.
– Ти кто? – спросил переводчик. – Ти должно отвечать начальство, – сказал он.
– Je ne vous dirai pas qui je suis. Je suis votre prisonnier. Emmenez moi, [Я не скажу вам, кто я. Я ваш пленный. Уводите меня,] – вдруг по французски сказал Пьер.
– Ah, Ah! – проговорил офицер, нахмурившись. – Marchons!
Около улан собралась толпа. Ближе всех к Пьеру стояла рябая баба с девочкою; когда объезд тронулся, она подвинулась вперед.
– Куда же это ведут тебя, голубчик ты мой? – сказала она. – Девочку то, девочку то куда я дену, коли она не ихняя! – говорила баба.
– Qu"est ce qu"elle veut cette femme? [Чего ей нужно?] – спросил офицер.
Пьер был как пьяный. Восторженное состояние его еще усилилось при виде девочки, которую он спас.
– Ce qu"elle dit? – проговорил он. – Elle m"apporte ma fille que je viens de sauver des flammes, – проговорил он. – Adieu! [Чего ей нужно? Она несет дочь мою, которую я спас из огня. Прощай!] – и он, сам не зная, как вырвалась у него эта бесцельная ложь, решительным, торжественным шагом пошел между французами.
Разъезд французов был один из тех, которые были посланы по распоряжению Дюронеля по разным улицам Москвы для пресечения мародерства и в особенности для поимки поджигателей, которые, по общему, в тот день проявившемуся, мнению у французов высших чинов, были причиною пожаров. Объехав несколько улиц, разъезд забрал еще человек пять подозрительных русских, одного лавочника, двух семинаристов, мужика и дворового человека и нескольких мародеров. Но из всех подозрительных людей подозрительнее всех казался Пьер. Когда их всех привели на ночлег в большой дом на Зубовском валу, в котором была учреждена гауптвахта, то Пьера под строгим караулом поместили отдельно.

В Петербурге в это время в высших кругах, с большим жаром чем когда нибудь, шла сложная борьба партий Румянцева, французов, Марии Феодоровны, цесаревича и других, заглушаемая, как всегда, трубением придворных трутней. Но спокойная, роскошная, озабоченная только призраками, отражениями жизни, петербургская жизнь шла по старому; и из за хода этой жизни надо было делать большие усилия, чтобы сознавать опасность и то трудное положение, в котором находился русский народ. Те же были выходы, балы, тот же французский театр, те же интересы дворов, те же интересы службы и интриги. Только в самых высших кругах делались усилия для того, чтобы напоминать трудность настоящего положения. Рассказывалось шепотом о том, как противоположно одна другой поступили, в столь трудных обстоятельствах, обе императрицы. Императрица Мария Феодоровна, озабоченная благосостоянием подведомственных ей богоугодных и воспитательных учреждений, сделала распоряжение об отправке всех институтов в Казань, и вещи этих заведений уже были уложены. Императрица же Елизавета Алексеевна на вопрос о том, какие ей угодно сделать распоряжения, с свойственным ей русским патриотизмом изволила ответить, что о государственных учреждениях она не может делать распоряжений, так как это касается государя; о том же, что лично зависит от нее, она изволила сказать, что она последняя выедет из Петербурга.

Современная компьютерная лингвистика очень во многом ориентирована на использование математических моделей. Есть даже расхожее мнение, что лингвисты не особенно нужны для автоматического моделирования естественного языка. Известно крылатое выражение Фредерика Елинека , руководителя центра распознавания речи университета Джона Хопкинса: "Anytime a linguist leaves the group, the recognition rate goes up" - каждый раз, когда лингвист покидает рабочую группу, качество распознавания повышается.

Однако, чем более сложные и многоуровневые задачи лингвистического моделирования ставятся перед разработчиками автоматических систем, тем очевидней становится, что их решение невозможно без учета лингвистической теории, понимания того, как функционирует язык, лингвистической экспертной компетенции. В то же время, стало очевидно, что автоматические методы анализа и моделирования языковых данных могут существенно обогатить теоретические лингвистические исследования, являясь и средством для сбора языковых данных и инструментом проверки состоятельности той или иной лингвистической гипотезы.

Форум по оценке систем автоматической обработки текста

С.Ю.Толдова, О.Н. Ляшевская, А.А. Бонч-Осмоловская

Как формализовать лексическое значение, сделать его "машиночитаемым"? Ответ на это дают дистрибуционные модели языка, в которых значение слова есть сумма его контекстов в достаточно большом корпусе. Искусственные нейронные сети позволяют быстро и качественно обучать такие модели.

Денис Кирьянов, Таня Панова (научный руководитель Б.В. Орехов)

У этой программы есть две функции: а) нормализация текста на идише, б) транслитерация из квадратного письма в латиницу. Эти проблемы очень актуальны: до настоящего момента не существовало ни одного нормализатора, если не считать таковыми спелл-чекеры. Меж тем, практически каждое издательство, выпускавшее книги на идише, следовало своей орфографической практике. Нормализатор необходим для работы над корпусом языка идиш: для сведения всех текстов к единой орфографии, распознаваемой парсером. Транслитерация позволит работать с материалом идиша и типологам.

ВИДЕО сотрудников Школы лингвистики:

По выбору; 3-й курс, 2, 3 модуль

Обязательный; 1-й курс, 2 модуль

По выбору; 3-й курс, 3 модуль

Обязательный; 4-й курс, 1-3 модуль

Обязательный; 4-й курс, 2 модуль

Обязательный; 2-й курс, 1, 2, 4 модуль

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА (калька с английского computational linguistics), одно из направлений прикладной лингвистики, в котором для исследования языка и моделирования функционирования языка в тех или иных условиях, ситуациях и проблемных сферах разрабатываются и используются компьютерные программы, компьютерные технологии организации и обработки данных. С другой стороны, это область применения компьютерных моделей языка в лингвистике и смежных с ней дисциплинах. Как особое научное направление компьютерная лингвистика оформилась в европейских исследованиях в 1960-х годах. Поскольку английское прилагательное computational может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативная лингвистика».

Часто к компьютерной лингвистике относят термин «квантитативная лингвистика», который характеризует междисциплинарное направление в прикладных исследованиях, где в качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа. Иногда квантитативная (или количественная) лингвистика противопоставляется комбинаторной лингвистике. В последней доминирующую роль занимает «неколичественный» математический аппарат - теория множеств, математическая логика, теория алгоритмов и т. д. С теоретической точки зрения использование статистических методов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, т. е. создать теоретическую структурно-вероятностную модель, обладающую значительным объяснительным потенциалом. В прикладной области квантитативная лингвистика представлена, прежде всего, использованием фрагментов этой модели, используемых для лингвистического мониторинга функционирования языка, дешифровки кодированного текста, авторизации/атрибуции текста и т. п.

Термин «компьютерная лингвистика» и проблематика этого направления часто связываются с моделированием общения, и прежде всего - с обеспечением взаимодействия человека с ЭВМ на естественном или ограниченном естественном языке (для этого создаются специальные системы обработки естественного языка), а также с теорией и практикой информационно-поисковых систем (ИПС). Обеспечение общения человека с ЭВМ на естественном языке иногда обозначается термином «обработка естественного языка» (перевод с английского языка термина Natural Language Processing). Это направление компьютерной лингвистики возникло в конце 1960-х годов за рубежом и развивалось в рамках научно-технологической дисциплины, именуемой искусственным интеллектом (работы Р. Шенка, М. Лебовица, Т. Винограда и др.). По своему смыслу словосочетание «обработка естественного языка» должно охватывать все области, в которых компьютеры используются для обработки языковых данных. На практике, однако, закрепилось более узкое понимание термина - разработка методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.

К компьютерной лингвистике в определённой степени могут быть отнесены работы в области создания гипертекстовых систем, рассматриваемых как особый способ организации текста и даже как принципиально новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской традиции книгопечатания (смотри Гутенберг).

К компетенции компьютерной лингвистики относится и автоматический перевод.

В рамках компьютерной лингвистики возникло и сравнительно новое, активно развивающееся с 1980-90-х годов направление - корпусная лингвистика, где разрабатываются общие принципы построения лингвистических корпусов данных (в частности, корпусов текстов) с использованием современных компьютерных технологий. Корпуса текстов - это коллекции специально подобранных текстов книг, журналов, газет и т.д., перенесённые на машинные носители и предназначенные для автоматической обработки. Один из первых корпусов текстов был создан для американского варианта английского языка в Брауновском университете (так называемый Брауновский корпус) в 1962-63 под руководством У. Френсиса. В России с начала 2000-х годов в Институте русского языка имени В. В. Виноградова РАН разрабатывается Национальный корпус русского языка, состоящий из представительной выборки русскоязычных текстов объёмом порядка 100 миллионов словоупотреблений. Кроме собственно конструирования корпусов данных, корпусная лингвистика занимается созданием компьютерных инструментов (компьютерных программ), предназначенных для извлечения разнообразной информации из текстовых корпусов. С точки зрения пользователя, к корпусам текстов предъявляются требования представительности (репрезентативности), полноты и экономичности.

Компьютерная лингвистика активно развивается и в России, и за рубежом. Поток публикаций в этой области очень велик. Кроме тематических сборников, в США с 1984 ежеквартально выходит журнал «Computational Linguistics» («Компьютерная лингвистика»). Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике (The Association for Computational Linguistics), которая имеет региональные структуры по всему миру (в частности, европейское отделение). Каждые два года проходят международные конференции КОЛИНТ (в 2008 конференция проходила в Манчестере). Основные направления компьютерной лингвистики обсуждаются также на ежегодной международной конференции «Диалог», организуемой Российским НИИ искусственного интеллекта, филологическим факультетом МГУ, Яндексом и рядом других организаций. Соответствующая проблематика широко представлена также на международных конференциях по искусственному интеллекту разных уровней.

Лит.: Звегинцев В. А. Теоретическая и прикладная лингвистика. М., 1968; Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М., 1977; Городецкий Б. Ю. Актуальные проблемы прикладной лингвистики // Новое в зарубежной лингвистике. М., 1983. Вып. 12; Кибрик А. Е. Прикладная лингвистика // Кибрик А. Е. Очерки по общим и прикладным вопросам языкознания. М., 1992; Kennedy G. An introduction to corpus linguistics. L., 1998; Bolshakov I.А., Gelbukh А. Computational linguistics: models, resources, applications. Мех., 2004; Национальный корпус русского языка: 2003-2005. М., 2005; Баранов А. Н. Введение в прикладную лингвистику. 3-е изд. М., 2007; Компьютерная лингвистика и интеллектуальные технологии. М., 2008. Вып. 7.

План:

1. Что такое компьютерная лингвистика?

2. Объект и предмет компьютерной лингвистики

4. Задачи компьютерной лингвистики

5. Методы исследования компьютерной лингвистики

6. История и причины возникновения компьютерной лингвистики

7. Основные термины компьютерной лингвистики

8. Ученые занимавшиеся проблемой компьютерной лингвистики

9. Ассоциации и конференции по компьютерной лингвистике

10. Использованная литература.


Компьютерная лингвистика – самостоятельное направление в прикладной лингвистике, ориентированное на использование компьютеров для решения задач, связанных с использованием естественного языка. (Щилихина К.М.)


Компьютерная лингвистика – будучи одним из направлений прикладной лингвистики, изучает лингвистические основы информатики и все аспекты связи языка и мышления, моделирование языка и мышления в компьютерной среде с помощью компьютерных программ, а ее интересы лежат в области: 1) оптимизации коммуникации на основе лингвистических знаний 2)создание естественно-языкового интерфейса и типологий понимания языка для общения человека с машиной 3) создание и моделирование информационных компьютерных систем (Соснина Е.П.)


Объект компьютерной лингвистики – анализ языка в его естественном состоянии в процессе использования людьми в различных ситуациях общения, а , как особенности языка могут быть сформулированы.


Задачи компьютерной лингвистики:


Методы исследования компьютерной лингвистики:

1. метод моделирования- специальный объект изучения, который недоступен в прямом наблюдении. По определению математика К. Шеннона модель является представлением объекта в некоторой форме, отличной от формы их реального существования.

2. метод теории представления знаний подразумевает способы представления знаний, ориентированные на автоматическую обработку современными компьютерами.

3. метод теории языка программирования (programming language theory) – это область информатики, связанная с проектированием, анализом, определением характеристик и классификацией языков программирования и изучением их индивидуальных особенностей.


Причины возникновения компьютерной лингвистики

1. Появление ЭВМ

2. Проблема общения с компьютерами неподготовленных пользователей


1.Система поиска по словарю, разработанная в колледже Беркбек в Лондоне в 1948г.

2. Меморандум Уоррена Уивера

3.Начало внедрения первых вычислительных машин в сфере машинного перевода

4. Джорджтаунский проект в 1954


1. ALPAC(Automatic Language Processing Advisory Committee) / Консультативный Комитет по автоматической обработке языка 2. новый этап в развитии компьютерных технологий и их активное использование в лингвистических задачах 3. создание нового поколения компьютеров и языков программирования 4. возрастание интереса к машинному переводу 60

-70ые годы ХХ века


Конец 80х – начало 90х годов ХХ века

    Появление и активное развитие сети Интернет

  • Бурный рост объемов текстовой информации в электронном виде

  • Необходимость автоматической обработки текстов на естественном языке


1. Продукты компании PROMT и ABBY (Lingvo) 2. Технологии машинного перевода 3. Технологии Translation Memory

Современные коммерческие системы

  • Оживление текстов

  • Модели коммуникации

  • Компьютерная лексикография

  • Машинный перевод

  • Корпус текстов


Анализ текстов на естественном языке

3 уровня структуры текста:
  • Поверхностная синтаксическая структура

  • Глубинная синтаксическая структура

  • Семантический уровень


Задача синтеза обратная по отношению в анализу

Оживление текста

1. Обмен текстами посредством зрительных образов на экране дисплея

2. 2 модальности мышления человека: символьная и зрительная.


1.Имитация процесса общения 2. Создание эффективной модели диалога Модели коммуникации


Гипертекст -особый способ организации и представления текста, при котором несколько текстов или фрагментов текста могут быть связаны между собой по различным типам связей.


Отличия гипертекста от традиционного текста

Гипертекст

    1. обработка устной речи

  • 2. обработка письменного текста


Обработка устной речи

1. автоматический синтез речи

А) развитие синтезаторов типа «текст-речь». Включает 2 блока: блок лингвистической обработки текста и блок акустического синтеза.

2. автоматическое распознавание речи


1) распознавание текста

2) анализ текста

3) синтез текста


ИПС (информационно-поисковая система) – это программные системы для хранения, поиска и выдачи интересующей информации.

Захаров В.П. считает что, ИПС – это упорядоченная совокупность документов и информационных технологий , предназначенных для хранения и поиска информации – текстов или данных.


3 вида ИПС

3 вида ИПС

    Ручные – это поиск в библиотеке.

  • Механизированные ИПС представляют собой технические средства, которые обеспечивают отбор нужных документов

  • Автоматические - поиск информации с помощью компьютеров


Компьютерная лексикография

Компьютерная лексикография – одно из важных направлений прикладной лингвистики, занимается теорией и практикой составления словарей.

В лексикографии выделяют 2 направления:
  • Традиционная лексикография занимается составлением традиционных словарей

  • Машинная лексикография занимается автоматизацией подготовки словарей и решает задачи разработки электронных словарей


Задачи компьютерной лексикографии

  • Автоматическое получение из текста различных словарей

  • Создание словарей, которые являются электронными версиями традиционных словарей или комплексных электронных лингвистических словарей для традиционных словарных работ, например LINGVO

  • Разработка теоретических и практических аспектов составления специальных компьютерных словарей, например для информационного поиска, машинного перевода


Машинный перевод

Машинный перевод – преобразование текста на одном естественном языке на другой естественный язык при помощи компьютера.

Виды машинного перевода
  • FAMT (Fully Automated Machine Translation) – полностью автоматический перевод

  • HAMT (Human Aided machine Translation) – машинный перевод с участием человека

  • MAHT (Machine Aided Human Translation) – перевод, осуществляемый человеком с привлечением вспомогательных программных и лингвистических средств.


  • 2) профессиональный МП – более качественный перевод с последующим редактированием человеком

  • 3) интерактивный МП – считается переводом в специальных системах поддержки , проходит в режиме диалога с компьютерной системой. Качество МП зависит от возможностей настройки, ресурсов, типа текстов.

Корпус текстов

Корпус текстов - это некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты.

Языковой корпус- большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.


Репрезентативность – важнейшее свойство корпуса


Назначение языкового корпуса – показать функционирование лингвистических единиц в их естественной контекстной среде



На основе корпуса можно получить данные:

1. о частоте грамматических категорий

2. об изменениях частот

3. об изменениях контекстов в различные периоды времени

5. о совместной встречаемости лексических единиц

6. об особенностях их сочетаемости


Брауновский корпус


Корпус текстов - это некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты. Воплощение этой логической идеи: правила организации текстов в корпус алгоритмы и программы анализа корпуса текстов сопряжённая с этим идеология и методология. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Основные термины компьютерной лингвистики

    Языки программирования (ЯП) – это класс искусственных языков, предназначенных для обработки информации с помощью компьютера. Любой язык программирования – это строгая (формальная) знаковая система, при помощи которой записываются компьютерные программы. По разным оценкам, в настоящее время существует от тысячи до десяти тысяч различных языков программирования.

  • Информатика (Computer Science) - наука о закономерностях записи, хранения, переработки, передачи и использования информации с помощью технических средств.



Поиск информации (Information Retrieval ) – это процесс отыскания в некоторой системе хранения информации таких документов (текстов, записей и

т. д.), которые соответствуют поступившему запросу.

«Информационно-поисковая система (ИПС) – это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации – текстов (документов) или данных (фактов).

Машинная лексикография (Сomputational Lexicography) занимается автоматизацией подготовки словарей и решает задачи разработки электронных

словарей.

Машинный перевод – это преобразование компьютером текста на одном

естественном языке в эквивалентный по содержанию текст на другом

естественном языке.

Гипертекст – это технология организации информации и особым образом структурированный текст, разбитый на отдельные блоки, имеющий нелинейное представление, для эффективной презентации информации в компьютерных средах.


    Фрейм - это структура для представления декларативного знания о типизированной тематически единой ситуации, т.е. структура данных о стереотипной ситуации.

  • Сценарий – это последовательность нескольких эпизодов во времени, это тоже представление стереотипной ситуации или стереотипном поведении, только элементами сценария являются шаги алгоритма или инструкции.
  • План – представление знаний о возможных действиях, которые необходимы для достижения определенной цели.



Ученые в области компьютерной лингвистики:

  • Советские и российские ученые : Алексей Ляпунов, Игорь Мельчук, Ольга Кулагина, Ю.Д. Апресян, Н.Н. Леонтьева, Ю.С. Мартемьянов, З.М. Шаляпина, Игорь Богуславский, А.С. Нариньяни, А.Е. Кибрик, Баранов А.Н.

  • Западные ученые : Йорик Вилкс, Грегори Грефенштетт, Грэвил Корбетт, Джон Кэролл, Диана Маккарти, Луис Маркес, Дан Молдован, Йоаким Нивре, Виктор Раскин, Эдуард Хови.


Ассоциации и конференции по компьютерной лингвистике :
  • «Диало́г» - главная российская конференция по компьютерной лингвистике с международным участием.

Приоритетом Диалога является компьютерное моделирование русского языка. Рабочие языки конференции русский и английский. Для привлечения зарубежных рецензентов основная часть прикладных работ подается на английском языке.

Основные направления конференции :
  • Лингвистическая семантика и семантический анализ

  • Формальные модели языка и их применение

  • Теоретическая и компьютерная лексикография

  • Методы оценки (evaluation) систем анализа текстов и машинного перевода

  • Корпусная лингвистика . Создание, применение, оценка корпусов

  • Интернет как лингвистический ресурс. Лингвистические технологии в Интернете

  • Онтологии . Извлечение знаний из текстов

  • Компьютерный анализ документов: реферирование, классификация , поиск

  • Автоматический анализ тональности текстов

  • Машинный перевод

  • Модели общения. Коммуникация, диалог и речевой акт

  • Анализ и синтез речи



2. Ассоциация по Компьютерной лингвистике (ACL) является международным научным и профессиональным обществом людей, работающих над проблемами, включающими естественный язык и вычисление. Годовое собрание проводится каждое лето в местоположениях, где значительное исследование компьютерной лингвистики выполнено. Основана в 1962, первоначально назвали Ассоциацией для Машинного перевода и Компьютерной лингвистики (AMTCL) . В 1968 это стало ACL.
  • УACL есть европейская (EACL) и североамериканская (NAACL) ветви.

  • Журнал ACL, Компьютерная лингвистика , является основным форумом для исследования в области компьютерной лингвистики и обработки естественного языка. С 1988 журнал был издан для ACL MIT Press .
  • Книжная серия ACL, Исследования в Обработке естественного языка , издана издательством Кембриджского университета .

  • Каждый год ACL и его главы организуют международные конференции в разных странах.

ACL 2014 проводился в Балтиморе, США.

  • Использованная литература :

  • 1. Марчук Ю.Н. Компьютерная лингвистика: учебное пособие/Ю.Н. Марчук.- М.:АСТ: Восток –Запад, 2007ю- 317 с.

  • 2. Шилихина К.М. Основы прикладной лингвистики: учебное пособие по специальности 021800 (031301) – Теоретическая и прикладная лингвистика, Воронеж, 2006.

  • 3. Боярский К.К. Введение в компьютерную лингвистику. Учебное пособие.- СПб: НИУ ИТМО, 2013.- 72 с.

  • 4. Щипицина Л.Ю. Информационные технологии в лингвистике: учебное пособие/ Л.Ю. Щипицина.- М.: ФЛИНТА: наука, 2013.- 128 с.

  • 5. Соснина Е.П. Введение в прикладную лингвистику: учебное пособие/ Е.П.Соснина.- 2-е изд., испр. и доп. – Ульяновск: УлГТУ, 2012. -110 с.

  • 6. Баранов А.Н. Введение в прикладную лингвистику: Учебное пособие.- М.: Эдиториал УРСС, 2001.- 360 с.

  • 7. Прикладное языкознание: Учебник/ Л.В. Бондарко, Л.А. Вербицкая, Г.Я. Мартыненко и др.; Отв. Редактор А.С. Герд. СПб.: изд-во С.-Петербург. Ун-та, 1996.- 528 с.

  • 8. Шемякин Ю.И. Начала компьютерной лингвистики: Учебное пособие. М.: Изд-во МГОУ, А/О «Росвузнаука», 1992.

  • КУРСОВАЯ РАБОТА

    по дисциплине «Информатика»

    по теме: «Компьютерная лингвистика»


    ВВЕДЕНИЕ

    2. Современные интерфейсы компьютерной лингвистики

    ЗАКЛЮЧЕНИЕ

    ЛИТЕРАТУРА


    Введение

    В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.

    Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми – средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. Эта наука возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов прошлого столетия. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Данная работа посвящена построению оптимального компьютерного интерфейса средствами компьютерной лингвистики при проведении лингвистических исследований.


    1. Место и роль компьютерной лингвистики в лингвистических исследованиях

    В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика.

    Компьютерная лингвистика – это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных.

    Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части – средства манипулирования единицами языка и речи, текстами и грамматическими таблицами. Компьютерный интерфейс относится к процедурной части компьютерной лингвистики.

    Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.).

    Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран(Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.

    Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых компьютерных интерфейсах? Большинство ученых считают что, второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом меньше встретится тупиков и трудно преодолимых препятствий и здесь можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок.

    Необходимость мобилизации усилий, прежде всего, на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств.

    В свете вышеизложенного, представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, изучение их семантико-синтаксической структуры и на создание базовых процедур морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач.

    Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:

    1. Автоматизация составления и лингвистической обработки машинных словарей;

    2. Автоматизация процессов обнаружения и исправления ошибок при вводе текстов в ЭВМ;

    3. Автоматическое индексирование документов и информационных запросов;

    4. Автоматическая классификация и реферирование документов;

    5. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных;

    6. Машинный перевод текстов с одних естественных языков на другие;

    7. Построение лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами (в частности, с экспертными системами) на естественном языке, или на языке, близком к естественному;

    8. Извлечение фактографической информации из неформализованных текстов.

    Подробно остановимся на проблемах, наиболее относящихся к теме исследования.

    В практической деятельности информационных центров есть необходимость решения задачи автоматизированного обнаружения и исправления ошибок в текстах при их вводе в ЭВМ. Эта комплексная задача может быть условно расчленена на три задачи – задачи орфографического, синтаксического и семантического контроля текстов. Первая из них может быть решена с помощью процедуры морфологического анализа, использующей достаточно мощный эталонный машинный словарь основ слов. В процессе орфографического контроля слова текста подвергаются морфологическому анализу, и если их основы отождествляются с основами эталонного словаря, то они считаются правильными; если не отождествляются, то они в сопровождении микроконтекста выдаются на просмотр человеку. Человек обнаруживает и исправляет искаженные слова, а соответствующая программная система вносит эти исправления в корректируемый текст.

    Задача синтаксического контроля текстов с целью обнаружения в них ошибок существенно сложнее задачи их орфографического контроля. Во-первых, потому, что она включает в свой состав и задачу орфографического контроля как свою обязательную компоненту, а, во-вторых, потому, что проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена. Тем не менее, частичный синтаксический контроль текстов вполне возможен. Здесь можно идти двумя путями: либо составлять достаточно представительные машинные словари эталонных синтаксических структур и сравнивать с ними синтаксические структуры анализируемого текста; либо разрабатывать сложную систему правил проверки грамматической согласованности элементов текста. Первый путь нам представляется более перспективным, хотя он, конечно, не исключает и возможности применения элементов второго пути. Синтаксическая структура текстов должна описываться в терминах грамматических классов слов (точнее – в виде последовательностей наборов грамматической информации к словам).

    Задачу семантического контроля текстов с целью обнаружения в них смысловых ошибок следует отнести к классу задач искусственного интеллекта. В полном объеме она может быть решена только на основе моделирования процессов человеческого мышления. При этом, по-видимому, придется создавать мощные энциклопедические базы знаний и программные средства манипулирования знаниями. Тем не менее, для ограниченных предметных областей и для формализованной информации эта задача вполне разрешима. Она должна ставиться и решаться как задача семантико-синтаксического контроля текстов.

    Проблема автоматизации индексирования документов и запросов является традиционной для систем автоматизированного поиска текстовой информации. Поначалу под индексированием понимали процесс присвоения документам и запросам классификационных индексов, отражающих их тематическое содержание. В дальнейшем это понятие трансформировалось и термином «индексирование» стали называть процесс перевода описаний документов и запросов с естественного языка на формализованный, в частности, на язык «поисковых образов». Поисковые образы документов стали, как правило, оформляться в виде перечней ключевых слов и словосочетаний, отражающих их тематическое содержание, а поисковые образы запросов – в виде логических конструкций, в которых ключевые слова и словосочетания соединялись друг с другом логическими и синтаксическими операторами.

    Автоматическое индексирование документов удобно проводить по текстам их рефератов (если они имеются), поскольку в рефератах основное содержание документов отражается в концентрированном виде. Индексирование может проводиться с контролем по тезаурусу или без контроля. В первом случае в тексте заголовка документа и его реферата ищутся ключевые слова и словосочетания эталонного машинного словаря и в ПОД включаются только те из них, которые нашлись в словаре. Во втором случае ключевые слова и словосочетания выделяются из текста и включаются в ПОД независимо от их принадлежности к какому-либо эталонному словарю. Был реализован еще и третий вариант, где наряду с терминами из машинного тезауруса в ПОД включались еще и термины, выделенные из заголовка и первого предложения реферата документа. Эксперименты показали, что ПОДы, составленные в автоматическом режиме по заголовкам и рефератам документов, обеспечивают большую полноту поиска, чем ПОДы, составленные вручную. Объясняется это тем, что система автоматического индексирования более полно отражает различные аспекты содержания документов, чем система ручного индексирования.

    При автоматическом индексировании запросов возникают примерно те же проблемы, что и при автоматическом индексировании документов. Здесь также приходится выделять ключевые слова и словосочетания из текста и нормализовать слова, входящие в текст запроса. Логические связки между ключевыми словами и словосочетаниями и контекстуальные операторы могут проставляться вручную или с помощью автоматизированной процедуры. Важным элементом процесса автоматического индексирования запроса является дополнение входящих в его состав ключевых слов и словосочетаний их синонимами и гипонимами (иногда также гиперонимами и другими терминами, ассоциированными с исходными терминами запроса). Это может быть сделано в автоматическом или в интерактивном режиме с помощью машинного тезауруса.

    Проблему автоматизации поиска документальной информации мы уже частично рассматривали в связи с задачей автоматического индексирования. Наиболее перспективным здесь является поиск документов по их полным текстам, так как использование для этой цели всякого рода заменителей (библиографических описаний, поисковых образов документов и текстов их рефератов) приводит к потерям информации при поиске. Наибольшие потери имеют место тогда, когда в качестве заменителей первичных документов используются их библиографические описания, наименьшие – при использовании рефератов.

    Важными характеристиками качества поиска информации являются его полнота и точность. Полнота поиска может быть обеспечена путем максимального учета парадигматических связей между единицами языка и речи (словами и словосочетаниями), а точность – путем учета их синтагматических связей. Существует мнение, что полнота и точность поиска находятся в обратной зависимости: меры по улучшению одной из этих характеристик приводят к ухудшению другой. Но это справедливо только для фиксированной логики поиска. Если эту логику совершенствовать, то обе характеристики могут улучшаться одновременно.

    Процесс поиска информации в полнотекстовых базах данных целесообразно строить как процесс диалогового общения пользователя с информационно-поисковой системой (ИПС), при котором он последовательно просматривает фрагменты текстов (абзацы, параграфы), удовлетворяющие логическим условиям запроса, и отбирает те из них, которые для него представляют интерес. В качестве окончательных результатов поиска могут выдаваться как полные тексты документов, так и любые их фрагменты.

    Как видно из предыдущих рассуждений, при автоматическом поиске информации приходится преодолевать языковый барьер, возникающий между пользователем и ИПС в связи с имеющим место в текстах разнообразием форм представления одного и того же смысла. Этот барьер становится еще более значительным, если поиск приходится вести в разноязычных базах данных. Кардинальным решением проблемы здесь может быть машинный перевод текстов документов с одних языков на другие. Это можно делать либо заранее, перед загрузкой документов в поисковую систему, либо в процессе поиска информации. В последнем случае запрос пользователя должен переводиться на язык массива документов, в котором ведется поиск, а результаты поиска – на язык запроса. Такого рода поисковые системы уже работают в системе Internet. В ВИНИТИ РАН была также построена система Cyrillic Browser, которая позволяет производить поиск информации в русскоязычных текстах по запросам на английском языке с выдачей результатов поиска также на языке пользователя.

    Важной и перспективной задачей компьютерной лингвистики является построение лингвистических процессоров, обеспечивающих общение пользователей с интеллектуальными автоматизированными информационными системами (в частности с экспертными системами) на естественном языке или на языке, близком к естественному. Поскольку в современных интеллектуальных системах информация хранится в формализованном виде, то лингвистические процессоры, выполняя роль посредников между человеком и ЭВМ, должны решать следующие основные задачи: 1) задачу перехода от текстов входных информационных запросов и сообщений на естественном языке к представлению их смысла на формализованном языке (при вводе информации в ЭВМ); 2) задачу перехода от формализованного представления смысла выходных сообщений к его представлению на естественном языке (при выдаче информации человеку). Первая задача должна решаться путем морфологического, синтаксического и концептуального анализа входных запросов и сообщений, вторая – путем концептуального, синтаксического и морфологического синтеза выходных сообщений.

    Концептуальный анализ информационных запросов и сообщений состоит в выявлении их понятийной структуры (границ наименований понятий и отношений между понятиями в тексте) и переводе этой структуры на формализованный язык. Он проводится после морфологического и синтаксического анализа запросов и сообщений. Концептуальный синтез сообщений состоит в переходе от представления элементов их структуры на формализованном языке к вербальному (словесному) представлению. После этого сообщениям дается необходимое синтаксическое и морфологическое оформление.

    Для машинного перевода текстов с одних естественных языков на другие необходимо располагать словарями переводных соответствий между наименованиями понятий. Знания о таких переводных соответствиях накапливались многими поколениями людей и оформлялись в виде специальных изданий – двуязычных или многоязычных словарей. Для специалистов, владеющих в той или иной мере иностранными языками, эти словари служили ценными пособиями при переводе текстов.

    В традиционных двуязычных и многоязычных словарях общего назначения переводные эквиваленты указывались преимущественно для отдельных слов, для словосочетаний – значительно реже. Указание переводных эквивалентов для словосочетаний было более характерно для специальных терминологических словарей. Поэтому при переводе отрезков текстов, содержащих многозначные слова, у обучаемых часто возникали затруднения.

    Ниже приведены переводные соответствия между несколькими парами английских и русских фраз по «школьной» тематике.

    1) The bat looks like a mouse with wings – Летучая мышь похожа на мышь с крыльями.

    2) Children like to play in the sand on the beach – Дети любят играть в песке на берегу моря.

    3) A drop of rain fell on my hand – Капля дождя упала мне на руку.

    4) Dry wood burns easily – сухие дрова хорошо горят.

    5) He pretended not to hear me – Он делал вид, что не слышит меня.

    Здесь английские фразы не являются идиоматическими выражениями. Тем не менее, их перевод на русский язык лишь с некоторой натяжкой можно рассматривать как простой пословный перевод, так как почти все входящие в них слова многозначные. Поэтому здесь обучаемым способны помочь только достижения компьютерной лингвистики.

Лучшие статьи по теме