Башкирская Википедия через призму
компьютерно-лингвистического анализа
Борис Орехов
Какая часть слов подчиняется закону гармонии гласных? В Википедии насчитывается:
| Слов твердого варианта | Слов мягкого варианта | Слов смешанного варианта |
|---|---|---|
| 934870 | 494902 | 304259 |
| 53,91% | 28,54% | 17,55% |
Здесь представлен частотный список 2-буквенных сочетаний.
Анализ лексики
Лексика — словарный состав языка, совокупность слов того или иного языка, части языка.
продемонстрировал, что Википедия — это специфический тип текстов, на который, по всей видимости, ощутимо влияют жанровые особенности. Так, если в прошлый раз мы уже сталкивались с аномальной частотностью
Частотность — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве.
некоторых лексем,
Лексемв в лингвистике — единица языка, являющаяся единицей словарного состава языка, представляющая собой совокупность всех парадигматических форм одного слова и их лексических значений.
списывая это на повторяющиеся элементы в оформлении интернет-страниц, то при текущем анализе в рассмотрение брался только основной текст без обвязки. Тем не менее, вершину частотного списка словоформы
Словоформа — слово в узком смысле, то есть обладающая признаками слова цепочка фонем, формально отличающаяся от другой.
заняли значимые слова йылға, бассейны и hыу, в то время как ожидавшиеся на этих позициях служебные слова (тиклем, буйынса. — Б.О.) не поднялись выше VII и VIII места. По всей видимости, нужно учитывать, что из более чем 30000 статей далеко не все представляют собой законченные тексты на естественном языке. Часть из них стали результатом так называемой ботозаливки, т.е. автоматизированного создания страниц и загрузки или изменения информации на страницах. В правилах русской Википедии отмечается, что ботостатьи — это
массовое создание однотипных статей, не требующих творческого вклада автора, с помощью специальных программ или вручную. Однотипными являются статьи на одну и ту же тему (например, населённые пункты Бендураса, насекомые отряда Insectida. — wiki.), содержащие минимум авторского вклада, которые создаются по заранее написанному шаблону с подстановкой в него данных, доступных по совместимой с Википедией лицензией. Массовыми являются заливки однотипных статей в количестве более 30 штук в быстром темпе — начиная от 15 — 20 статей в сутки. Однако даже если создание статей идёт в меньшем темпе, но имеются обоснованные претензии к их (наличию источников, проверяемости фактов, значимости темы статей и т.п. — wiki.) содержанию, необходимо приостановить массовое создание статей и приступить к поиску консенсуса. Также заливкой следует считать массовый перенос в Википедию статей из энциклопедий и справочников, перешедших в общественное достояние или распространяемых на условиях свободных лицензий, совместимых с CC-BY-SA.
Заливки статей допустимы только после предварительного обсуждения и одобрения сообществом.
Этим и объясняются аномалии верхней части частотного списка. Если с точки зрения частотности тексты Википедии стали так слабо походить на естественный язык, то администраторам, по всей видимости, стоит снизить темп автоматического создания новых статей и задуматься над традиционным ручным наполнением энциклопедии.
Слова состоят из 11057755 букв. Частотный список букв выглядит следующим образом:
| Буква | Количество | Буква | Количество | Буква | Количество | Буква | Количество | Буква | Количество |
|---|---|---|---|---|---|---|---|---|---|
| а | 1253934 | ы | 1007270 | л | 739682 | н | 701853 | щ | 1058 |
| ә | 603839 | е | 570352 | р | 498337 | с | 477542 | ||
| й | 471303 | т | 1007270 | к | 400596 | ғ | 382681 | ||
| у | 380874 | о | 378274 | м | 319008 | б | 307608 | ||
| и | 258089 | h | 253648 | д | 209634 | ҡ | 184225 | ||
| ш | 165459 | г | 128140 | ө | 104721 | ү | 100250 | ||
| в | 90965 | я | 84517 | ҙ | 82061 | п | 68613 | ||
| ң | 66219 | х | 65771 | ь | 65486 | ч | 49075 | ||
| ҫ | 34559 | ж | 29890 | з | 26916 | э | 21245 | ||
| ю | 20908 | ц | 14926 | ф | 14851 | ъ | 2580 |
Словоформы
Top-20 самых частотных в Википедии словоформ:
| Словоформа | Количество | Словоформа | Количество | Словоформа | Количество | Словоформа | Количество |
|---|---|---|---|---|---|---|---|
| йылға | 122849 | бассейны | 85709 | hыу | 64261 | rv | 38644 |
| рәсәй | 33245 | йылғаhы | 30299 | тиклем | 28871 | буйынса | 25968 |
| урынлашҡан | 23200 | дәүләт | 20786 | хужалығы | 20257 | бәләкәй | 20231 |
| оҙонлоғо | 20152 | ҡушыла | 20068 | аға | 20064 | округында | 20035 |
| мәғлүмәте | 20029 | биләмәләрендә | 20029 | реестры | 20025 | өлкәһе | 20018 |
Расширенный перечень словоформ (первые 2000 единиц. — Б.О.) см. здесь.
Илон Маск: историю пишут победители, а Википедию исправляют проигравшие
Современные электронные энциклопедии корректируются таким образом, что не всегда показывают сбалансированный и непредвзятый взгляд на события, считает Нетаньяху.
— Историю, как гласит древняя поговорка, действительно пишут победители,— сказал Илон Маск. Но только не в том случае, если твои враги ещё живы и у них есть много свободного времени, чтобы исправлять статьи в Википедии, — говорит предприниматель.
— Историю пишут люди, которые могут наплодить больше редакторов, — согласился Нетаньяху.
Ранее Маск подтвердил, что ограничил работу Starlink и тем самым сорвал диверсию ВСУ. Причиной стало опасение Маска, что украинцы устроят маленький Перл-Харбор, а Россия ответит ядерным оружием.
Сам Илон Маск в соцсетях подтвердил, что не позволил ВСУ атаковать Черноморский флот в Севастополе. Он объяснил, что если бы он активировал систему, то вовлёк бы свою компанию в крупный конфликт.
Позже он добавил, что в то время, когда пришёл запрос от украинских властей на включение Starlink, эти спутники в районе Крыма были отключены. А отключены они были,
— Но только не в том случае, если твои враги ещё живы и у них есть много свободного времени, чтобы исправлять статьи в Википедии, — говорит предприниматель.
так как США ввели санкции в отношении России,— сказал Маск, пояснив, что под действие санкций подпадает Крым.
Короче, Википедия




