Башкирская Википедия через призму
компьютерно-лингвистического анализа

Борис Орехов

Boris Orekhov. Bashkir Wikipedia Through the Prism Computational Linguistic Analysis
Wikipedia is created simultaneously in many languages, and for the Bashkir language the corresponding section of the encyclopedia has a special status as one of the main sites in Bashkir, and, therefore, as one of the largest digitized text collections in this language.

Страницы   1   2   3

УДК 800.81`42
Интернет-энциклопедия Википедия представляет собой ценнейший источник сведений; прежде всего, сведений об окружающем мире. Особенный интерес этого ресурса в том, что он создаётся энтузиастами и потому открытый и бесплатный. Википедия создаётся одновременно на многих языках, и для башкирского языка соответствующий раздел энциклопедии имеет особенный статус как один из основных сайтов на башкирском, а, следовательно, как одна из крупнейших оцифрованных текстовых коллекций на этом языке. В наших отчётах о мониторинге башнета мы уже говорили о том, какое место башкирская Википедия занимает в башкирском сегменте Интернета.

Количественное описание

По состоянию на 22 августа 2013 башкирский раздел Википедии содержит 30694 статьи. Зарегистрировано 8673 участника, из них 39 совершили какое-либо действие за последние 30 дней, 8 участников имеют статус администратора. Общее число правок составляет 410845.
Занимает 77 место по количеству статей среди всех разделов. По количеству статей, которые должны быть в каждом разделе Википедии, башкирский раздел занимает 102 место.

Данные о Википедии

# Код Язык Статей Глубина Страниц Правок Участников/
Активных
77 ba Башкирский 30694 7,9 64873 410845 8572/39

Взятая в совокупности башкирская Википедия содержит 13889117 символов с пробелами или 12023002 символа без пробелов. В этом массиве точка встречается 181418 раз, а запятая 124100 раз. Собственно слов на башкирском языке насчитывается 1734031. Таким образом, средняя длина башкирского слова в символах составляет 6,38.
Средняя длина слова в слогах составляет 2,68. При этом слов чётной длины 939901, т.е. 54,20%, слов нечётной длины, соответственно, 749734 и 43,24%.
Более детально:

1-сложное 2-сложное 3-сложное 4-сложное 5-сложное 6-сложное 7-сложное 8-сложное 9-сложное
187661 594278 496657 313168 62654 31844 2626 611 136
11,11% 33,17% 29,37% 18,53% 3,71% 1,88% 0,16% 0,04% 0,01%

Наиболее длинные слова:

  • автобиографияһынан,
  • автобиографияһында,
  • агломерацияларының,
  • антидемократическая,
  • ассимиляциялаштырылған,
  • ассоциациялаштырыла,
  • базельуниверситетына,
  • высокотехнологичные,
  • геннотерапевтического,
  • гидромеханизациялау,
  • гидроэлектростанциялар,
  • гидроэлектростанцияларҙа,
  • гидроэлектростанцияларҙың,
  • деидеологизации,
  • демилитаризацияланған,
  • демобилизацияланып,
  • деревообрабатывающая,
  • детерминацияланмаған,
  • диалектологияһының,
  • задокументированную,
  • идентификацияланған,
  • идентификацияланғандар,
  • интернационализация,
  • исемдәгепровинцияһының,
  • квалификацияларына,
  • классификациялағанда,
  • классификациялағандағы,
  • классификациялаштырыусы,
  • кодификациялаштырылған,
  • кодификациялаштырылмаған,
  • концентрационлагерҙарға,
  • көнсығышфилософияһының,
  • көтмәгәндәсәләмәтлеге,
  • лабораторияларында,
  • лесоперерабатывающее,
  • механизациялаштыра,
  • механизациялаштырыу,
  • микобактерияларына,
  • мобилизацияланыуын,
  • модификацияланғанға,
  • модификацияланмаған,
  • нацияинациональная,
  • николаевкайылғаһының,
  • палеонтологическими,
  • радиокомпаниеһында,
  • реабилитациялана,
  • реабилитацияланған,
  • реабилитацияланғандан,
  • революционерҙарына,
  • регенерацияланғандарға,
  • региондаметталлургия,
  • рекомбинацияләнгәндә,
  • реорганизацияланған,
  • реорганизациялауҙан,
  • самофинансирование,
  • санэпидемстанцияһында,
  • специализацияларҙы,
  • специализациялары,
  • специализацияһының,
  • стилдәгеархитектуравәкиле,
  • телерадиокомпание,
  • телерадиокомпаниеһы,
  • телерадиокомпаниеһында,
  • характеристикаларына,
  • характеристикаларының,
  • цивилизацияларының,
  • электростанцияһындағы,
  • электроэнергетикала,
  • юриспруденцияһындағы.

Страницы   1   2   3

 

WIKIPEDIA: Создаем свою страницу

Окончание Назад

Проблему конфликта интересов нельзя решить, просто передав работу подрядчику

У него все равно будет своя заинтересованность в необъективной подаче материала, то есть тот самый конфликт.
Владелец Википедии Джимми Уэйлс советует придерживаться четкой последовательности действий:
✓ создать учетную запись;
✓ честно показать свою связь с предметом статьи;
✓ отправить запрос на создание статьи.
Следуйте по этому пути, и редакторы Вики будут воспринимать вас всерьез.
Еще один совет — узнать, как работают страницы для обсуждений, поскольку именно там вам придется общаться с редакторами, которые будут решать судьбу вашего черновика.

Если вы все сделали, как следует, можно отправить запрос на создание статьи

В своем запросе опишите в нескольких предложениях основную информацию про свою компанию и отметьте все конфликты интересов. Добавьте независимые надежные источники (как указано выше). Также на своей странице пользователя вы уже можете опубликовать черновик статьи.

Напишите черновик

Прежде чем писать, ознакомьтесь с длинным и требовательным мануалом по стилю Википедии, который определяет, как вы должны изложить содержание статьи. Пользуйтесь советами по написанию первой Вики-статьи.
Структурируйте черновик следующим образом:
✓ вступление с общим обзором компании;
✓ описание истории компании;
✓ описание продукта или услуг с небольшим количеством деталей (если их будет слишком много, редакторы сочтут это рекламой).
Важно писать беспристрастно, избегая маркетинговых клише, например, не называть себя ведущим поставщиком решений. Придерживайтесь фактов и конкретики.
Вы также должны правильно использовать ссылки и подробно описать их в разделе ссылок в конце статьи. Эти ссылки — то, что редакторы Википедии используют при оценке соответствия статьи критериям значимости. Помните, вы можете использовать только информацию из сторонних источников, которую Википедия считает надежной.
Создание такой статьи может занять много времени. Но при написании не стоит ориентироваться на похожие страницы ваших конкурентов: только потому, что они опубликованы, не значит, что они хорошие. В Википедии знают, что на ресурсе много плохих статей, и больше им не надо.
Вместо этого загляните в одну из хороших статей о компаниях. Например, статья про Chuck E. Cheese хорошо изучена, хорошо цитируется и достаточно полная. Как противоположный пример, статья Mellow Mushroom — гораздо хуже организована, не предоставляет необходимых источников и менее информативна.
Если говорить об украинских компаниях, то хорошим примером может стать статья об энергетической компании DTEK, а вот странице крупнейшего маркетплейса Украины Rozetka информативности не хватает.

Отправьте черновик на рассмотрение

Последний шаг — это перенести черновик в статьи для публикации и добавить ее в очередь. После того как вы сделаете это, редактору понадобится несколько недель, чтобы изучить ее. Иногда редакторы возвращаются с критикой и рекомендуют, что еще нужно добавить или что следует удалить. Их отзывы лучше учесть и изменить статью. Иногда то, что вам кажется обоснованным, может противоречить политике Википедии, тогда тоже придется корректировать текст.
Бесспорно, это довольно запутанный процесс, и редакторы Википедии это знают. К сожалению, лучшего способа просто нет: создать энциклопедию трудно, а контролировать влияние посторонних людей — еще сложнее. Но если вы сможете разобраться в требованиях Википедии, учесть ее стиль, правильно все оформить и написать, вы поможете улучшить Википедию и одновременно расскажете историю своего бренда.
Если вы пока не готовы ко всем этим приключениям с Вики, попробуйте покорить контентом другие площадки, например, соцсети. Для них не нужно создавать энциклопедические статьи. Напротив, идеальным контентом будет микроконтент с интересной визуальной подачей, который с радостью поможет вам сделать команда Top Lead.
Текст публикуется по TOPLead