Башкирская Википедия через призму
компьютерно-лингвистического анализа

Борис Орехов

Страницы   1   2   3

Какая часть слов подчиняется закону гармонии гласных? В Википедии насчитывается:

Слов твердого варианта Слов мягкого варианта Слов смешанного варианта
934870 494902 304259
53,91% 28,54% 17,55%

Здесь представлен частотный список 2-буквенных сочетаний.
Анализ лексики
Лексика — словарный состав языка, совокупность слов того или иного языка, части языка.
 
 
 
 
продемонстрировал, что Википедия — это специфический тип текстов, на который, по всей видимости, ощутимо влияют жанровые особенности. Так, если в прошлый раз мы уже сталкивались с аномальной частотностью
Частотность — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве.
 
 
 
 
некоторых лексем,
Лексемв в лингвистике — единица языка, являющаяся единицей словарного состава языка, представляющая собой совокупность всех парадигматических форм одного слова и их лексических значений.
 
 
 
 
списывая это на повторяющиеся элементы в оформлении интернет-страниц, то при текущем анализе в рассмотрение брался только основной текст без обвязки. Тем не менее, вершину частотного списка словоформы
Словоформа — слово в узком смысле, то есть обладающая признаками слова цепочка фонем, формально отличающаяся от другой.
 
 
 
 
заняли значимые слова йылға, бассейны и hыу, в то время как ожидавшиеся на этих позициях служебные слова (тиклем, буйынса. — Б.О.) не поднялись выше VII и VIII места. По всей видимости, нужно учитывать, что из более чем 30000 статей далеко не все представляют собой законченные тексты на естественном языке. Часть из них стали результатом так называемой ботозаливки, т.е. автоматизированного создания страниц и загрузки или изменения информации на страницах. В правилах русской Википедии отмечается, что ботостатьи — это


 
массовое создание однотипных статей, не требующих творческого вклада автора, с помощью специальных программ или вручную. Однотипными являются статьи на одну и ту же тему (например, населённые пункты Бендураса, насекомые отряда Insectida. — wiki.), содержащие минимум авторского вклада, которые создаются по заранее написанному шаблону с подстановкой в него данных, доступных по совместимой с Википедией лицензией. Массовыми являются заливки однотипных статей в количестве более 30 штук в быстром темпе — начиная от 15 — 20 статей в сутки. Однако даже если создание статей идёт в меньшем темпе, но имеются обоснованные претензии к их (наличию источников, проверяемости фактов, значимости темы статей и т.п. — wiki.) содержанию, необходимо приостановить массовое создание статей и приступить к поиску консенсуса. Также заливкой следует считать массовый перенос в Википедию статей из энциклопедий и справочников, перешедших в общественное достояние или распространяемых на условиях свободных лицензий, совместимых с CC-BY-SA.
Заливки статей допустимы только после предварительного обсуждения и одобрения сообществом.

Этим и объясняются аномалии верхней части частотного списка. Если с точки зрения частотности тексты Википедии стали так слабо походить на естественный язык, то администраторам, по всей видимости, стоит снизить темп автоматического создания новых статей и задуматься над традиционным ручным наполнением энциклопедии.
Слова состоят из 11057755 букв. Частотный список букв выглядит следующим образом:

Буква Количество Буква Количество Буква Количество Буква Количество Буква Количество
а 1253934 ы 1007270 л 739682 н 701853 щ 1058
ә 603839 е 570352 р 498337 с 477542
й 471303 т 1007270 к 400596 ғ 382681
у 380874 о 378274 м 319008 б 307608
и 258089 h 253648 д 209634 ҡ 184225
ш 165459 г 128140 ө 104721 ү 100250
в 90965 я 84517 ҙ 82061 п 68613
ң 66219 х 65771 ь 65486 ч 49075
ҫ 34559 ж 29890 з 26916 э 21245
ю 20908 ц 14926 ф 14851 ъ 2580

Словоформы

Top-20 самых частотных в Википедии словоформ:

Словоформа Количество Словоформа Количество Словоформа Количество Словоформа Количество
йылға 122849 бассейны 85709 hыу 64261 rv 38644
рәсәй 33245 йылғаhы 30299 тиклем 28871 буйынса 25968
урынлашҡан 23200 дәүләт 20786 хужалығы 20257 бәләкәй 20231
оҙонлоғо 20152 ҡушыла 20068 аға 20064 округында 20035
мәғлүмәте 20029 биләмәләрендә 20029 реестры 20025 өлкәһе 20018

Расширенный перечень словоформ (первые 2000 единиц. — Б.О.) см. здесь.

Страницы   1   2   3

Илон Маск: историю пишут победители, а Википедию исправляют проигравшие

Историю пишут победители, а переписывают проигравшие — в Википедии, считает предприниматель Илон Маск. Об этом он заявил в беседе с израильским премьер-министром Биньямином Нетаньяху.
Современные электронные энциклопедии корректируются таким образом, что не всегда показывают сбалансированный и непредвзятый взгляд на события, считает Нетаньяху.

 
— Историю, как гласит древняя поговорка, действительно пишут победители,— сказал Илон Маск. Но только не в том случае, если твои враги ещё живы и у них есть много свободного времени, чтобы исправлять статьи в Википедии, — говорит предприниматель.
— Историю пишут люди, которые могут наплодить больше редакторов, — согласился Нетаньяху.
Просто потому, что больше им уже нечем заняться, объяснил Маск.
Ранее Маск подтвердил, что ограничил работу Starlink и тем самым сорвал диверсию ВСУ. Причиной стало опасение Маска, что украинцы устроят маленький Перл-Харбор, а Россия ответит ядерным оружием.
Сам Илон Маск в соцсетях подтвердил, что не позволил ВСУ атаковать Черноморский флот в Севастополе. Он объяснил, что если бы он активировал систему, то вовлёк бы свою компанию в крупный конфликт.
Позже он добавил, что в то время, когда пришёл запрос от украинских властей на включение Starlink, эти спутники в районе Крыма были отключены. А отключены они были,

 
— Но только не в том случае, если твои враги ещё живы и у них есть много свободного времени, чтобы исправлять статьи в Википедии, — говорит предприниматель.
так как США ввели санкции в отношении России,— сказал Маск, пояснив, что под действие санкций подпадает Крым.
Текст публикуется по Деловой Петербург

Короче, Википедия

Короче, Википедия — это как Википедия, только короче, понятней и с юмором. И главное ничего лишнего.





   Картинка: right