Лаборатория компьютерной филологии БашГУ: Башкирская Википедия через призму компьютерно-лингвистического анализа

Башкирская Википедия через призму компьютерно-лингвистического анализа

Интернет-энциклопедия Википедия представляет собой ценнейший источник сведений; прежде всего, сведений об окружающем мире. Особенный интерес этого ресурса в том, что он создаётся энтузиастами и потому открытый и бесплатный. Википедия создаётся одновременно на многих языках, и для башкирского языка соответствующий раздел энциклопедии имеет особенный статус как один из основных сайтов на башкирском, а, следовательно, как одна из крупнейших оцифрованных текстовых коллекций на этом языке. В наших отчётах о мониторинге Башнета мы уже говорили о том, какое место Башкирская Википедия занимает в башкирском сегменте Интернета.

«По состоянию на 22 августа 2013 года башкирский раздел Википедии содержит 30 694 статей. Зарегистрировано 8673 участников, из них 39 совершили какое-либо действие за последние 30 дней, 8 участников имеют статус администратора. Общее число правок составляет 410 845.

Занимает 77 место по количеству статей среди всех разделов. По количеству статей, которые должны быть в каждом разделе Википедии, Башкирский раздел занимает 102 место».

Код Язык Статей Глубина Страниц Правок Участн. Акт.
77  ba Башкирский 30694 7,9  64873 410845 8672 39

Данные взяты из Википедии.

Сегодня мы представляем результаты детального лингвистического (если быть точным: компьютерно-лингвистического) анализа этого источника по состоянию на 22 августа 2013 года. Предполагаем, что эти результаты могут быть и полезны для прикладных разработок, и просто занимательны.

Взятая в совокупности Башкирская Википедия содержит 13 889 117 символов с пробелами или 12 023 002 символов без пробелов. В этом массиве точка встречается 181 418 раз, а запятая 124 100 раз. Собственно слов на башкирском языке (то есть за вычетом цифр, пунктуации и некириллической графики) насчитывается 1 734 031. Таким образом, средняя длина башкирского слова в символах составляет 6.38.

Средняя длина слова в слогах составляет 2.68. При этом слов чётной длины 939901, то есть 54.20 %, слов нечётной длины, соответственно, 749734, 43.24 %. Более детально: 2-сложное: 594278 (34.27 %), 4-сложное: 313168 (18.06 %), 6-сложное: 31844 (1.84 %), 8-сложное: 611 (0.04 %); 1-сложное: 187661 (10.82 %), 3-сложное: 496657 (28.64 %), 5-сложное: 62654 (3.61 %), 7-сложное: 2626 (0.15 %), 9-сложное: 136 (0.01 %). Наиболее длинные слова (длиннее 8 слогов): гидроэлектростанциялар, телерадиокомпание, идентификацияланғандар, электростанцияһындағы, регенерацияланғандарға, көнсығышфилософияһының, гидромеханизациялау, стилдәгеархитектуравәкиле, санэпидемстанцияһында, реорганизацияланған, цивилизацияларының, специализациялары, реабилитацияланғандан, механизациялаштырыу, концентрационлагерҙарға, палеонтологическими, интернационализация, кодификациялаштырылған, специализацияларҙы, лабораторияларында, базельуниверситетына, реабилитациялана, региондаметталлургия, реабилитацияланған, квалификацияларына, характеристикаларының, гидроэлектростанцияларҙа, телерадиокомпаниеһында, электроэнергетикала, демилитаризацияланған, юриспруденцияһындағы, ассимиляциялаштырылған, классификациялағанда, лесоперерабатывающее, самофинансирование, идентификацияланған, агломерацияларының, антидемократическая, кодификациялаштырылмаған, деревообрабатывающая, механизациялаштыра, мобилизацияланыуын, геннотерапевтического, исемдәгепровинцияһының, модификацияланғанға, характеристикаларына, реорганизациялауҙан, ассоциациялаштырыла, модификацияланмаған, николаевкайылғаһының, демобилизацияланып, көтмәгәндәсәләмәтлеге, специализацияһының, автобиографияһында, классификациялаштырыусы, нацияинациональная, деидеологизации, диалектологияһының, задокументированную, автобиографияһынан, революционерҙарына, классификациялағандағы, микобактерияларына, детерминацияланмаған, высокотехнологичные, рекомбинацияләнгәндә, телерадиокомпаниеһы, радиокомпаниеһында, гидроэлектростанцияларҙың.

Какая часть слов подчиняется закону гармонии гласных? В Википедии насчитывается 934870 (53.91 %) слов твёрдого варианта, 494902 (28.54 %) мягкого и 304259 (17.55 %) слов смешанного варианта.

Слова состоят из 11 057 755 букв.

Частотный список букв выглядит следующим образом:

Буква Количество
1а1253934
2ы1007270
3л739682
4н701853
5ә603839
6е570352
7р498337
8с477542
9й471303
10т420796
11к400596
12ғ382681
13у380874
14о378274
15м319008
16б307608
17и258089
18һ253648
19д209634
20ҡ184225
21ш165459
22г128140
23ө104721
24ү100250
25в90965
26я84517
27ҙ82061
28п68613
29ң66219
30х65771
31ь65486
32ч49075
33ҫ34559
34ж29890
35з26916
36э21245
37ю20908
38ц14926
39ф14851
40ъ2580
41щ1058

Частотный список двухбуквенных сочетаний представлен на этой странице.

Анализ лексики продемонстрировал, что Википедия — это специфический тип текстов, на который, по всей видимости, ощутимо влияют жанровые особенности. Так, если в прошлый раз мы уже сталкивались с аномальной частотностью некоторых лексем, списывая это на повторяющиеся элементы в оформлении интернет-страниц, то при текущем анализе в рассмотрение брался только основной текст без «обвязки». Тем не менее, вершину частотного списка словоформ заняли значимые слова йылға, бассейны, һыу в то время как ожидавшиеся на этих позициях служебные слова не поднялись выше 7-го и 8-го места (тиклем, буйынса). По всей видимости, нужно учитывать, что из более чем 30 000 статей далеко не все представляют собой законченные тексты на естественном языке. Часть из них стали результатом так называемой «ботозаливки», то есть автоматизированного создания страниц и загрузки или изменения информации на страницах. «Ботостатьи, в основном, имеют в себе минимальное количество информации по рассматриваемой теме и играют роль, скорее, заготовок, то есть статей, которые планируется расширить и улучшить в будущем, за счет редактирования уже участниками Википедии, хотя многие подобные статьи могут оставаться нетронутыми годами с момента их создания». Этим и объясняются аномалии верхней части частотного списка. Если с точки зрения частотности тексты Википедии стали так слабо походить на естественный язык, то администраторам, по всей видимости, стоит снизить темп автоматического создания новых статей и задуматься над традиционным ручным наполнением энциклопедии.

Top-20 самых частотных в Википедии словоформ:

Словоформа Количество
1йылға122849
2бассейны85709
3һыу64261
4км38644
5рәсәй33245
6йылғаһы30299
7тиклем28871
8буйынса25968
9урынлашҡан23200
10дәүләт20786
11хужалығы20257
12бәләкәй20231
13оҙонлоғо20152
14ҡушыла20068
15аға20064
16округында20035
17мәғлүмәте20029
18биләмәләрендә20029
19реестры20025
20өлкәһе20018

Полный перечень словоформ (86296 единиц) можно посмотреть здесь.

Мы также обработали тексты Башкирской Википедии с помощью нашего морфологического анализатора, склеив леммы и составив статистику для уверенно распознанных форм. К сожалению, данные весьма приблизительны из-за неразрешённой в ряде случаев омонимии.

Top-20 самых частотных в Википедии лексем:

Лексема Количество
1йылға S183338
2йыл S134404
3бассейн S88594
4һыу S64529
5рәсәй S44293
6км S38645
7ҡу V36577
8ҡуш V36311
9тиклем POST28871
10буйынса POST25968
11мәғлүмәт S22628
12дәүләт S20975
13хужа S20406
14бәләкәй ADJ20302
15биләмә S20199
16округ S20194
17оҙон S20194
18ағ V20168
19ҡуш ADJ20159
20участка S20043

Полный перечень лемм (8892 единиц) можно посмотреть здесь.

Статистика по частям речи: существительное: 1200388, глагол: 293293, адъектив: 156162, послелог: 67428, союз: 22293, местоимение: 16623, числительное: 14242, частица: 9952, междометие: 1534.

Статистика глагольных времён: настоящее время: 120795, прошедшее неопределённое время: 42779, прошедшее определённое время: 10249, будущее неопределённое время: 2004, будущее определённое время: 139.

Статистика падежей существительных: основной: 491052, дательный: 193911, местно-временной: 67492, родительный: 42569, исходный: 23264, винительный: 21847, абессив: 486.