Башкирская Википедия через призму
компьютерно-лингвистического анализа

Борис Орехов

Страницы   1   2   3

Лексемы

Мы также обработали тексты башкирской Википедии с помощью нашего морфологического анализатора, склеив леммы
Лемма — доказанное утверждение, полезное не само по себе, а для доказательства других утверждений.
 
 
 
 
и составив статистику для уверенно распознанных форм. К сожалению, данные весьма приблизительны из-за неразрешённой в ряде случаев омонимии.
Top-20 самых частотных в Википедии лексем:

Лексема Количество Лексема Количество Лексема Количество Лексема Количество
йылға S 183338 йыл S 134404 бассейн S 88594 hыу S 64529
рәсәй S 44293 км S 38645 ҡу V 36577 ҡуш V 36311
тиклем POST 28871 буйынса POST 25968 мәғлүмәт S 22628 дәүләт S 20975
хужа S 20406 бәләкәй ADJ 20302 биләмә S 20199 округ S 20194
оҙон S 20194 ағ V 20168 ҡуш ADJ 20159 участка S 20043

Расширенный перечень лексем см. здесь.
Статистика по частям речи:

Часть речи Количество Часть речи Количество
Существительное
Имя существительное — самостоятельная часть речи, принадлежащая к категории имени и классу полнозначных лексем, может выступать в предложении в функциях подлежащего, дополнения и именной части сказуемого.
1200388 Союз
Союз — служебная часть речи, с помощью которой связывают между собой простые предложения в составе сложного или однородные члены предложения.
22293
Глагол
Глагол — самостоятельная часть речи, которая обозначает состояние или действие предмета и отвечает на вопросы что делать? что сделать?
293293 Местоимение
Местоимение — самостоятельная часть речи, объединяющая слова, которые не содержат конкретного лексического значения, не называют предметы, признаки или количество, а лишь указывают на них: ты, он, они, наш, каждый, некоторый, ничей, сколько и т.д.
16623
Адъектив
Имя прилагательное — самостоятельная часть речи, обозначающая непроцессуальный признак предмета и отвечающая на вопросы какой? какая? какое? какие? чей? и т.д.
156162 Числительное
Имя числительное — самостоятельная часть речи, которая обозначает число, количество и порядок предметов.
14242
Послелог
Послелог — служебная часть речи, выражающая синтаксические отношения между именем существительным, местоимением, числительным и словами других частей речи, а также между существительными.
67428 Частица
Частица — служебная часть речи, которая вносит различные оттенки значения, эмоциональные оттенки в предложении или служит для образования форм слова.
9952
Междометие
— лексико-грамматический класс неизменяемых слов, не входящих ни в знаменательные, ни в служебные части речи и нерасчленённо выражающих эмоциональные и эмоционально-волевые реакции на окружающую действительность.
1534

Статистика глагольных времён:

Настоящее время
Настоящее время — граммема грамматической категории времени, которая означает, что развёртывание описываемой в высказывании ситуации включает момент речи.
Прошедшее неопределенное время
Прошедшее неопределенное время обозначает действия, имевшие место в прошлом и время совершения которых истекло.
Прошедшее определенное время
Прошедшее определенное время обозначает действия, имевшие место в прошлом и время совершения которых не истекло.
Будущее неопределенное время
Будущее неопределенное время указывает на действие, которое будет совершенно в будущем с неопределённым результатом.
Будущее определенное время
Будущее определенное время указывает на действие, которое будет совершенно в будущем.
120795 42779 10249 2004 139

Статистика падежей
Падеж — словоизменительная грамматическая категория именных и местоименных частей речи и близких к ним гибридных частей речи, выражающая их синтаксическую и/или семантическую роль в предложении.

 
 
 
существительных:

Основной
Основной падеж — один из базовых падежей в языках номинативного строя; обычно этот падеж кодирует агенс, в синтаксических терминах часто являющийся подлежащим.
Дательный
Дательный падеж — один из косвенных падежей, используется с глаголами, выражающими действие, направленное к этому предмету и производные от него.
Местно-временной Родительный
Родительный падеж — один из косвенных падежей, в языках мира обычно выражающий притяжательные отношения, а также имеющий целый ряд других функций.
Исходный
Исходный падеж — косвенный падеж, указывающий на исходный пункт траектории движения одного из участников ситуации.
Винительный
Винительный падеж — падеж, которым в языках номинативно-аккузативного строя обозначается объект действия.
Абессив
Абессив — падеж, указывающий на лишение, отсутствие чего-либо, на нахождение вне чего-либо.
491052 193911 67492 42569 23264 21847 486

Результаты

Мы представили результаты детального компьютерно-лингвистического анализа башкирской Википедии по состоянию на 22 августа 2013. Предполагаем, что эти результаты могут быть и полезны для прикладных разработок, и просто занимательны.

Текст публикуется по nevmenandr.net
Страницы   1   2   3

Короче, Википедия

Окончание Назад






Публикуется по VK

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *