Лаборатория компьютерной филологии БашГУ: Проекты


Научные направления и разработки Лаборатории

  • Башкирский поэтический корпус XX века.

    Корпус — это мощная филологически ориентированная электронная поисковая система, которая позволяет быстро обрабатывать большие массивы языкового материала. Такая система создана для башкирского языка в Лаборатории компьютерной филологии Башкирского государственного университета и открыта для свободного использования. В поисковую систему помещены тексты башкирской поэзии XX и XXI веков, что позволяет углублённо изучать свойства башкирской стихотворной речи.
    Башкирский поэтический корпус — второй в мире поэтический корпус (до сих пор существовал только поэтический подкорпус в составе Национального корпуса русского языка).
    Создание корпуса — это само по себе большой прорыв в башкирской филологии, её главное достижение за последние десятилетия. При этом корпус — это ещё и мощный исследовательский инструмент, с помощью которого наука о башкирском языке и башкирской поэзии может сделать значительный скачок вперёд.
    Помимо прочего, корпус даёт филологии возможность пользоваться методами точных наук, повышает научную ценность результатов. Корпус способен предоставить справочную информацию как профессиональным лингвистам, так и всем тем, кто проявляет интерес к башкирскому языку и созданной на башкирском языке поэзии.
    Кроме того, корпус можно использовать как современную обучающую систему. Слова в текстах, показываемых пользователю, имеют перевод на русский язык, что позволяет работать с этой системой не только носителям башкирского языка, но и филологам широкого профиля, стиховедам, лингвистам-типологам.
    Объём корпуса на момент запуска проекта составляет более 1,7 млн. словоупотреблений, то есть около 450 тыс. стихотворных строк, более 17 тыс. стихотворений 101 башкирских поэтов.

    Башкирский поэтический корпус

     

  • Электронное научное издание (архивы фольклорных экспедиций Башгосуниверситета)

    Материалы научных экспедиций оседают в архивах и не всегда доступны для научного изучения. В связи с чем возникает необходимость вовлечения их в научно-исследовательский оборот путем оцифровки, предварительной обработки, классификации и предоставления общего доступа в сети Интернет. Пользователями данного ресурса выступают филологи.
    Проект предназначен для публикации архивных материалов фольклорных экспедиций БашГУ. Предполагается произвести оцифровку по возможности всех архивов для выкладывания в общий доступ, а также обеспечить необходимыми метаданными, облегчающими работу с научным электронным изданием. Общий план работы включает
    1. предварительную подготовку архивных материалов,
    2. оцифровку,
    3. классификацию по различным критериям,
    4. обработку,
    5. предоставление общего доступа к фольклорным материалам для использования в научных исследованиях.
  • Прикладные продукты для облегчения сетевой коммуникации на башкирском языке

    На базе изучаемых лингвистических данных в Лаборатории создаются электронные продукты, облегчающие сетевую коммуникацию на башкирском языке. Так, в сотрудничестве с независимыми разработчиками нами создана башкирская клавиатура для мобильных устройств на ОС Android, а также разработана технология, позволяющая приводить к правильной орфографии текст, написанный в бытовой системе письма. Эта технология стала основой веб-сервиса.

    «Рубашка»: веб-сервис для пишущих по-башкирски без башкирской клавиатуры

     

  • Системы порождения текстов на башкирском языке

    В Лаборатории разрабатываются алгоритмы машинного порождения грамматически правильных текстов на башкирском языке. С рабочим экземпляром можно ознакомиться на примере программы, генерирующей текст в жанре хокку. В словаре программы примерно 11500 слов, алгоритм предусматривает построение предложений с учётом различных вариантов временных и падежных форм, а также соблюдено правило классической формы хокку: три строки по 5, 7 и 5 слогов соответственно. Слова и конструкции подбираются с помощью генератора случайных чисел, но с неравномерным распределением (единственное число будет использоватья чаще множественного, настоящее время чаще прошедшего).

    Хокку на башкирском языке

     

  • Разработка системы автоматического извлечения мотивов из фольклорных текстов; апробация её на электронных изданиях архивов факультета и на текстах из многотомного академического издания башкирского фольклора

    Это одно из современных направлений филологического исследования фольклорных текстов, которое еще не получило пока что сколько-нибудь однозначного решения. Работы в данном направлении ведутся в ряде научно-исследовательских коллективов как в России, так и за рубежом. В настоящее время идет сбор материала и создание соответствующего программного обеспечения для проведения исследований по выявлению мотивов.

     

  • Мониторинг башкирского сегмента Интернета

    Подобного рода исследований применительно к башкирскому сегменту в настоящее время вообще не ведется, и наша Лаборатория фактически будет первой в изучении лингвистических и целого ряда иных явлений в этой области. Для решения задач мониторинга создан специальный робот (crawler), специально рассчитанный на обход башкироязычных интернет-страниц. В исследовательской работе предполагается широкое привлечение студентов для предварительного анализа материала. Мониторинг будет осуществляться с лингвистических и семиотических позиций.

    Страница мониторинга Башнета