История

Краткая информация
о деятельности совместной научно-исследовательской лаборатории "Проблемы искусственного интеллекта" Академии наук Республики Татарстан и Казанского Государственного Университета (СНИЛ ПИИ АНТ и КГУ) в рамках реализации "Государственной программы по сохранению, изучению и развитию языков народов РТ" (1994-2001 гг)

Фото лаборатории ИИ

СНИЛ ПИИ АНТ и КГУ (научный руководитель доктор физико-математических наук, доктор технических наук профессор Бухараев Р.Г., зав. лаб. доктор технических наук доцент Сулейманов Д.Ш.) создана 1 июля 1993 г. для проведения фундаментальных научно-исследовательских и прикладных работ в области компьютерной лингвистики, для решения задач в рамках Научно-прикладной программы АНТ до 2005 года "Компьютерное обеспечение функционирования татарского языка как государственного. Концептуально-алгоритмическая модель" и для создания средств компьютерного обеспечения татарского языка как государственного в рамках Государственной программы РТ по сохранению, изучению и развитию языков народов Республики Татарстан.

СНИЛ АНТ и КГУ является экспертной организацией по внедрению татарского языка в компьютерные технологии (Постановление КМ РТ N 1062 от 9 декабря 1996 г.) в республике и базовой лабораторией по реализации раздела VI "Внедрение информационных технологий в системе мер по обеспечению функционирования татарского языка" Государственной программы по сохранению, изучению и развитию языков народов РТ.


Направление деятельности

Научная проблематика лаборатории — исследование проблем искусственного интеллекта, разработка принципов и методологий синтеза интеллектуального человеко-машинного интерфейса. Основное внимание уделяется задачам общения с компьютером на естественном языке. Начало этим исследованиям положили работы по семантическому анализу и логико-математическому моделированию алгоритмов человеко-машинного диалога на проблемных диалектах естественного языка. (См. монографию Бухараев Р.Г., Сулейманов Д.Ш. "Семантический анализ в вопросно-ответных системах", Казань, КГУ, 1990г.)

В основе этой методологии лежат принципы "управления контекстом", "ожидаемого смысла"и "открытости множества классов контекстов". Эффективность их использования была подтверждена созданием экспериментальных лингвистических процессоров и их использованием в проверке знаний учащихся компьютером в вопросно-ответном режиме. Работа в направлении изучения и моделирования процессов кодирования и распознавания смысла в условиях действия вышеупомянутых трех принципов продолжается.

Второе направление исследований в области искусственного интеллекта относится к изучению когнитивных механизмов порождения грамматики и генерирования речи. Если первое направление имеет дело с состоявшимся (но живым) языком и исследует закономерности генерирования и распознавания смысла конкретных текстов, то второе направление изучает процессы становления языка, как познавательного средства, эффективно отражающего мир вещей во всех его проявлениях. (См. Невзорова О.А. "Формальная модель реконструкции морфологических категорий естественного языка на основе текстов" — кандидатская диссертация).

К основным направлениям исследований лаборатории в области искусственного интеллекта тесно примыкают ее прикладные разработки по компьютерной лингвистике и ее приложениям, по внедрению татарского языка в компьютерные технологии, по созданию национального машинного фонда.

Практические разработки лаборатории по созданию средств компьютерного обеспечения татарского языка как государственного проводятся в рамках Государственной программы Республики Татарстан по сохранению, изучению и развитию народов Республики Татарстан. По постановлению кабинета Министров РТ.


Достижения

  1. Академией наук Татарстана при поддержке Кабинета Министров РТ создана лаборатория, имеющая высокий научный и научно-прикладной рейтинг в России за счет фундаментальных научных и научно-прикладных результатов в области искусственного интеллекта, объединяющая специалистов, решающих задачи компьютерной лингвистики и татарской локализации компьютерных технологий в рамках Государственной программы по сохранению, изучению и развитию языков народов РТ на уровне мировых стандартов.
  2. Разработана и реализована Концепция технологий и систем обработки ЕЯ-текстов на основе прагматически-ориентированных лингвистических моделей. Концепция явилась основой разработок СНИЛ АНТ и КГУ в области компьютерной лингвистики и защищена в качестве докторской диссертации.
  3. Разработаны экранные и клавиатурные драйверы, драйверы печати и шрифтовое обеспечение для татарского языка на кириллической основе и от имени АНТ предложены в качестве стандарта для применения в информационных технологиях в Республике Татарстан. На основе соответствующих предложений принято Постановление КМ РТ "О стандартах кодировки символов татарского алфавита для компьютерных применений" N 1026 от 9 декабря 1996 года.
  4. На основе принятых стандартов по соглашению с фирмой Microsoft разработаны и внедрены в операционную среду Windows NT 5.0 и Office-2000. Соответствующая информация помещена в Web-сайт фирмы Майкрософт: http://www.microsoft.com/rus/developer/newlang_tat.htm. Таким образом, татарский язык стал вторым тюркским языком (после турецкого языка), подготовленным для реализации специалистами самой республики (а не разработчиками фирмы), и доступным в среде Windows уже при ее инсталляции. Осуществлено Бета-тестирование программных средств Windows-2002 и Office-2002 в режимах с татарской локализацией. Поддерживается постоянный контакт с Московским бюро фирмы Microsoft в целях татарской локализации новых продуктов фирмы.
  5. Разработана опытно-эксплуатационная версия пакета драйверов и шрифтового обеспечения для татарского языка на основе латиницы. От имени АНТ подготовлены соответствующие материалы и принято Постановление КМ РТ "О стандартах кодировки символов татарского алфавита на основе латинской графики и базовых программах для компьютерных применений" N 625 от 27 сентября 2000 года. В целях открытого распространения и поддержки процесса внедрения татарского языка на основе латиницы соответствующие материалы помещены на специальный сайт АНТ РТ в Интернете.
  6. Разработан корректор татарских текстов на основе генеративной морфологии, работающий в среде MS-DOS, и в среде Windows' 95, 98, 2000.
  7. Разработаны электронный русско-татарский словарь, словарь политических терминов, английско-татарско-русский и русско-татарский словники компьютерных терминов, русско-английско-татарский электронный словарь (совместно с МедиаЛингва).
  8. Разработана версия синтезатора татарской речи на основе словаря дифонов. Работа продолжается.
  9. Разработан татарский двухуровневый морфологический анализатор, способный производить морфологический разбор и генерацию татарских словоформ. На основе морфологического анализатора разрабатывается татарско-турецкий автоматизированный переводчик (совместно с Белкентским университетом, Анкара, Турция).
  10. Разработан Интегрированный программно-информационный комплекс "Татарская морфема", что практически является базой исследований и основой для различных лингвопроцессоров, а также учебной базой по татарскому языкознанию.
  11. Разработана версия семантико-синтаксического анализатора текстов как основа системы машинного русско-татарского перевода. Разработаны концепция, архитектура, язык спецификаций и базовые алгоритмы русско-татарского машинного переводчика учетно-регистрационных форм.
  12. Разработана концепция и архитектура машинного фонда татарского языка. Засканировано, распознано и подготовлено для включения в МФТЯ следующая продукция:
    1. книга "Татарская грамматика" (Татарская грамматика. Том II. Морфология. - Казань: Татарское кн. Изд-во, 1993. - 397 с.). Создана информационно-справочная система объемом 729 Кб
    2. книга "Татар халык иќаты Кыска кырлар. Дартюллыклар." - Казан: Татарстан китап нашерияты, 1976. 392 с., содержащая 5630 коротких песен (четверостиший)
    3. книга "Татар халык иќаты." - 340 страниц (573 Kb в текстовом формате)
  13. Разработана обновленная сетевая версия мультимедийной обучающей программы "Мой первый татарский словарь".
  14. Разработана новая версия развитого программного комплекса АРМ Лингвиста.
  15. Разработана версия распознавателя текстов FineReader Tatar для татарского языка на основе кириллического алфавита (совместно с фирмой ABBYY).
  16. Осуществлена татарская локализация системы ЗАГС, включая экранные формы и файлы помощи, а также программной системы для автоматизации работы паспортно-визовой службы для выдачи паспортов на двух государственных языках.

Результаты работ СНИЛ АНТ и КГУ прошли апробацию на многих международных и республиканских конференциях и семинарах, в том числе, на Международных конференциях LP'96, 2000 по типологии языков (Чехия, г. Прага, 1996, 2000), на 9-ой Европейской конференции ML'9 по Обучению Машин (Чехия, г. Прага, 1997), на 6-ой Международной конференции UM'97 "Моделирование пользователя" (Италия, Киа Лагуна, 1997), на Международном семинаре "Формальная элегантность и естественная сложность морфологии" (Франция, г. Екс-ен-Провенс, 1997), на научном семинаре по ЕЯ-процессорам в Белкентском университете (Турция, г. Анкара, 1997), на Первом международном семинаре "Компьютеризация естественных языков" (Болгария, г. Варна, 1999), на международной конференции по машинному переводу (Турция, Анкара, 2000); на международных конференциях и семинарах, проводившихся в России и странах СНГ: на национальной конференции "Искусственный интеллект в XXI веке" (г. Калининград, 1995), на Международной конференции "Компьютерный фонд тюркских терминов" (г. Шымкент, 1995), на Всесоюзных конференциях по искусственному интеллекту с Международным участием (г. Казань, 1996, г.Пущино, 1998, г.Переславль-Залесский, 2000), на Международных рабочих семинарах в рамках КИИ-96 "Модели национальных языков" и "Искусственный интеллект в образовании" (г. Казань, 1996), на Международной конференции "Новые технологии-96" (Казань, 1996), на международных семинарах ДИАЛОГ: компьютерная лингвистика и ее приложения (Казань, 1995, Пущино, 1996, Ясная Поляна, 1997, Таруса, 1998, 1999, Протвино, 2000), на Международной конференции "Языковая семантика" (г. Казань, 1997); на Международной конференции KDS-98 "Знание. Диалог. Системы" (Украина, Кацевели, 1998) на телеконференции "Информационные технологии в гуманитарных науках" (КГУ, 1998), а также в школе-семинаре "Компьютерная и когнитивная лингвистика" (Казань, 1996, 2000, 2001), на различных республиканских, городских научных семинарах и ежегодных итоговых научных конференциях КГУ (1993-2001) и ИЯЛИ.

На базе СНИЛ АНТ проведены 3 школы-семинара по компьютерной лингвистике с участием ведущих специалистов из г. Москвы, г. С.-Петербурга и г. Казани, США, Австрии (октябрь 1999, 2000, 2001).

Пакеты прикладных программ и средства татарской локализации компьютерных технологий регулярно демонстрируются на выставках в республиканском выставочном павильоне ВИКО (1995, 1996, 1997, 1998), на выставках во время годичных собраний АНТ (ежегодно), на выставке в рамках республиканской конференции по итогам реализации Закона о языках (Казань, 1998), на выставках Международных конференций (Казань, Пущино, 1996, 1998), на республиканской конференции по проблемам информатизации в системе образования (2000) и республиканских олимпиад школьников и республиканском конкурсе юных программистов (1997-2001).

Результаты исследований в области формального описания татарского языка и синтеза речи регулярно обсуждаются на научных семинарах "Татарский язык и новые информационные технологии" и "Проблемы искусственного интеллекта" с участием филологов, математиков и программистов.

Разработанные методы, алгоритмы и пакеты программ активно используются в учебном процессе в Казанском государственном университете при преподавании татарского языка в иноязычной аудитории, в учебных курсах: "Компьютерная лингвистика", "Человеко-машинный интерфейс", а также при научных исследованиях в татарском языкознании учеными ИЯЛИ и КГУ, а также в редакциях татарских журналов и газет.

Татарский морфологический корректор включен в состав распознавателя текстов Fine Reader TATAR (фирма ABBYY, г. Москва), электронного русско-татарско-английского словаря на компакт диске (фирма МедиаЛингва, г. Москва), текстового редактора ТАТЕДКОР (СНИЛ АНТ и КГУ, г. Казань), программы проверки орфографии татарских текстов в среде Windows (СНИЛ АНТ и КГУ, г. Казань), широко используемых на практике.

Лабораторией за 1994-2001 годы издано 6 сборников трудов по компьютерной лингвистике, англо-татарско-русский словник терминов по компьютерным технологиям, русско-татарский словник терминов по информатике (составители Сулейманов Д.Ш., Галимянов А.Ф., Казань, 2000, 2001 г.г.), 2 издания учебного пособия "Основы информатики и издательское дело" (Сулейманов Д.Ш., Хадиев Р.М., Якушев Р.С.; Казань, 1998, 2000 г.г.)., учебное пособие для филологов "Компьютерные информационные технологии", Казань, 2001, -140 с.

С 1994 года сотрудниками лаборатории опубликовано более 100 научных и научно-популярных статей и тезисов по тематике лаборатории.

Лаборатория работает в тесном контакте с филологами (ИЯЛИ, татфак, филфак КГУ), с фирмами-разработчиками лингвистической продукции (ABBY — распознаватель татарских текстов; МедиаЛингва — русско-татарский электронный словарь; Арсенал — татарско-русский автоматизированный переводчик: проект), с группами и лабораториями вузов и центров: МГУ — синтез речи, исследование мишарского диалекта татарского языка; Белкентский университет (Турция, Анкара) — разработка татарского двухуровневого морфологического анализатора; разработка автоматизированного татарско-турецкого переводчика; Microsoft — базовая татарская локализация систем Windows'2000, 2002; MS Office и разработка встроенного корректора татарских текстов в составе MS Word. СНИЛ ПИИ АНТ и КГУ является официальным Бета-тестером продукций фирмы Microsoft.