Башкирская Википедия через призму
компьютерно-лингвистического анализа
Борис Орехов
Лексемы
Мы также обработали тексты башкирской Википедии с помощью нашего морфологического анализатора, склеив леммы
Лемма — доказанное утверждение, полезное не само по себе, а для доказательства других утверждений.
и составив статистику для уверенно распознанных форм. К сожалению, данные весьма приблизительны из-за неразрешённой в ряде случаев омонимии.
Top-20 самых частотных в Википедии лексем:
| Лексема | Количество | Лексема | Количество | Лексема | Количество | Лексема | Количество |
|---|---|---|---|---|---|---|---|
| йылға S | 183338 | йыл S | 134404 | бассейн S | 88594 | hыу S | 64529 |
| рәсәй S | 44293 | км S | 38645 | ҡу V | 36577 | ҡуш V | 36311 |
| тиклем POST | 28871 | буйынса POST | 25968 | мәғлүмәт S | 22628 | дәүләт S | 20975 |
| хужа S | 20406 | бәләкәй ADJ | 20302 | биләмә S | 20199 | округ S | 20194 |
| оҙон S | 20194 | ағ V | 20168 | ҡуш ADJ | 20159 | участка S | 20043 |
Расширенный перечень лексем см. здесь.
Статистика по частям речи:
| Часть речи | Количество | Часть речи | Количество |
|---|---|---|---|
| Существительное
Имя существительное — самостоятельная часть речи, принадлежащая к категории имени и классу полнозначных лексем, может выступать в предложении в функциях подлежащего, дополнения и именной части сказуемого. ![]() |
1200388 | Союз
Союз — служебная часть речи, с помощью которой связывают между собой простые предложения в составе сложного или однородные члены предложения. ![]() |
22293 |
| Глагол
Глагол — самостоятельная часть речи, которая обозначает состояние или действие предмета и отвечает на вопросы что делать? что сделать? ![]() |
293293 | Местоимение
Местоимение — самостоятельная часть речи, объединяющая слова, которые не содержат конкретного лексического значения, не называют предметы, признаки или количество, а лишь указывают на них: ты, он, они, наш, каждый, некоторый, ничей, сколько и т.д. ![]() |
16623 |
| Адъектив
Имя прилагательное — самостоятельная часть речи, обозначающая непроцессуальный признак предмета и отвечающая на вопросы какой? какая? какое? какие? чей? и т.д. ![]() |
156162 | Числительное
Имя числительное — самостоятельная часть речи, которая обозначает число, количество и порядок предметов. ![]() |
14242 |
| Послелог
Послелог — служебная часть речи, выражающая синтаксические отношения между именем существительным, местоимением, числительным и словами других частей речи, а также между существительными. ![]() |
67428 | Частица
Частица — служебная часть речи, которая вносит различные оттенки значения, эмоциональные оттенки в предложении или служит для образования форм слова. ![]() |
9952 |
Междометие
— лексико-грамматический класс неизменяемых слов, не входящих ни в знаменательные, ни в служебные части речи и нерасчленённо выражающих эмоциональные и эмоционально-волевые реакции на окружающую действительность.![]() |
1534 |
Статистика глагольных времён:
| Настоящее время
Настоящее время — граммема грамматической категории времени, которая означает, что развёртывание описываемой в высказывании ситуации включает момент речи. ![]() |
Прошедшее неопределенное время
Прошедшее неопределенное время обозначает действия, имевшие место в прошлом и время совершения которых истекло. ![]() |
Прошедшее определенное время
Прошедшее определенное время обозначает действия, имевшие место в прошлом и время совершения которых не истекло. ![]() |
Будущее неопределенное время
Будущее неопределенное время указывает на действие, которое будет совершенно в будущем с неопределённым результатом. ![]() |
Будущее определенное время
Будущее определенное время указывает на действие, которое будет совершенно в будущем. ![]() |
|---|---|---|---|---|
| 120795 | 42779 | 10249 | 2004 | 139 |
Статистика падежей
Падеж — словоизменительная грамматическая категория именных и местоименных частей речи и близких к ним гибридных частей речи, выражающая их синтаксическую и/или семантическую роль в предложении.
существительных:
| Основной
Основной падеж — один из базовых падежей в языках номинативного строя; обычно этот падеж кодирует агенс, в синтаксических терминах часто являющийся подлежащим. ![]() |
Дательный
Дательный падеж — один из косвенных падежей, используется с глаголами, выражающими действие, направленное к этому предмету и производные от него. ![]() |
Местно-временной | Родительный
Родительный падеж — один из косвенных падежей, в языках мира обычно выражающий притяжательные отношения, а также имеющий целый ряд других функций. ![]() |
Исходный
Исходный падеж — косвенный падеж, указывающий на исходный пункт траектории движения одного из участников ситуации. ![]() |
Винительный
Винительный падеж — падеж, которым в языках номинативно-аккузативного строя обозначается объект действия. ![]() |
Абессив
Абессив — падеж, указывающий на лишение, отсутствие чего-либо, на нахождение вне чего-либо. ![]() |
|---|---|---|---|---|---|---|
| 491052 | 193911 | 67492 | 42569 | 23264 | 21847 | 486 |
Результаты
Мы представили результаты детального компьютерно-лингвистического анализа башкирской Википедии по состоянию на 22 августа 2013. Предполагаем, что эти результаты могут быть и полезны для прикладных разработок, и просто занимательны.






