Как подсчитать количество слов лингвистически
Перейти к содержимому

Как подсчитать количество слов лингвистически

  • автор:

Как подсчитать количество слов лингвистически

Лингвистический анализатор, описываемый в данной статье, разрабатывался в течение 2007-2008 годов в рамках сайта «Лаборатории Фантастики». Изначально ставилась цель проанализировать тексты русскоязычных писателей-фантастов и выявить значимые их характеристики, описывающие в совокупности авторский стиль, или так называемый «авторский лингвопрофиль».

Для достижения поставленной цели был написан програмный код, получающий на входе текст, скажем, романа, и выдающий на выходе более тысячи различных его статистических характеристик, среди которых:

Пару слов скажу о словарном запасе. Словарный запас — это, грубо говоря, количество уникальных слов, которые знает автор. Но знает ещё не значит, что он их употребляет в своих текстах. Поэтому гораздо более актуальной характеристикой является «активный словарный запас», что для случая конкретной книги означает количество использованных в ней уникальных слов. Но, учитывая тот факт, что книги различаются по объёму, логичным будет считать т.н. «удельный активный словарный запас», то есть количество уникальных слов на сколько-то слов текста. Если мы вычленим из текста 10000 идущих подряд слов, удалим из них повторяющиеся и посчитаем сколько осталось, то мы получим ни что иное как «удельный АСЗ на 10000 слов текста». И ещё один нюанс: несловарные слова (названия, имена, выдуманные автором слова) в подсчёте АСЗ и УАСЗ не участвуют. Количество этих слов считается как отдельная характеристика — «активный несловарный запас».

Для определения значимых в формировании авторского лингвопрофиля характеристик были построены их функции распределения плотности вероятности. Выяснилось, что подавляющее большинство характеристик имеет нормальное Гауссово распределение.

Возьмём для примера одну из характеристик (например, среднюю длину слова), обозначим её W и рассмотрим трёх произвольно взятых авторов. Назовём их «автор 1», «автор 2» и «автор 3». Считаем, что у каждого автора для каждого из N произведений (b1,b2,b3. bN) посчитано значение W. Тогда среднее значение W для автора считаем как средневзвешенное:

Ma(W) = (Mb1(W)*WCount(b1)+Mb2(W)*WCount(b2)+ . +MbN(W)*WCount(bN)) / (WCount(b1)+WCount(b2)+ . +WCount(bN))

, где MbX(W) — среднее значение параметра W для произведения X, WCount(bX) — вес = количество слов в произведении X.

Таким же способом, используя количество слов в произведении как вес слагаемого, посчитаем среднеквадратическое отклонение характеристики W от среднего Ma(W):

Sa(W) = Sqrt(((Mb1(W)-Ma(W))^2*WCount(b1)+(Mb2(W)-Ma(W)^2*WCou nt(b2)+ . +(MbN(W)-Ma(W)^2*WCount(bN)) / (WCount(b1)+WCount(b2)+ . +WCount(bN)))

Формула выглядит нечитаемо, за что прошу прощения. Рисовать в графике лень. Просто скажу, что это та же средняя сумма квадратов разностей, только в весовых долях, как и в формуле среднего.

Среднее значение и среднеквадратичное отклонение каждой характеристики являются минимально необходимыми и достаточными критериями для формализации функции распределения. Теперь мы можем графически отобразить распределение значений W для трёх наших авторов:

Теперь представим, что нам в руки попался неизвестный текст, и нам нужно узнать кто его автор. Вот мы определили значение характеристики W для этого текста и, допустим, оказалось, что оно чуть меньше, чем M1. Глядя на график, не сложно сделать вывод, что такое значение W характерно скорее для автора 1, чем для автора 2 либо автора 3. Но если мы получили значение, лежащее в диапазоне [M2..M3], то это означает, что текст может принадлежать либо автору 2, либо автору 3 (вероятность того, что текст принадлежит автору 1 существует, но крайне мала). Это значение попадает в область неопределённости, где пересечение плотностей вероятностей разных авторов очень велико. Эти области на рисунке закрашены серым. Исходя из этого, полагаем, что чем больше пересечение интегралов плотностей вероятностей, тем менее W характеризует авторский стиль (существует много авторов с близкой по значению характеристикой W, и сложно по значению W анализируемого текста определить автора). Если же графики плотностей вероятностей разных авторов удалены друг от друга и их пересечение крайне мало, то считаем, что W можно считать весомой характеристикой авторского стиля. Но что тогда считать её весом.

Вычислять пересечение интегралов — задача не из лёгких и достаточно ресурсоёмка. Автором предложено простое, но эффективное альтернативное решение. За вес принимается отношение среднеквадратичного отклонения средних значений M1, M2, M3 . к усреднённому по всем авторам среднеквадратичному отклонению величины. Таким образом, вес характеристики тем выше, чем больше разброс авторских средних и чем у’же область распределения значения характеристики для каждого автора. Практика показала, что характеристики с весами выше 0.7 являются оптимальным (с точки зрения распознавания автора) множеством, характеризующим авторский стиль.

Для вычисления вероятности того, что текст принадлежит тому или иному автору, имея под рукой таблицу весов всех характеристик, достаточно лишь посчитать средневзвешенное значение авторской функции распределения по всех характеристикам текста.

Алгоритм, приведённый выше, позволяет распознавать автора романа с вероятностью 98.79%, рассказа — 84.32%. В статье лишь вкрадце обрисован алгоритм работы анализатора. Особенности его работы, корректирующие коэффициенты и некоторые выявленные в ходе исследования закономерности, позволившие повысить точность распознавания, пока остаются авторским «ноу хау».

Особую благодарность автор выражает Алексею Сокирко и всей команде aot.ru за морфологический анализатор, идеально подошедший для наших целей.

Рейтинговые таблицы и корреляция характеристик

В разделе «Рейтинги» есть подраздел «Лингвистический рейтинг и корреляция характеристик», где можно не только отсортировать весь список проанализированных произведений по выбранному параметру (например, по словарному запасу), но и задать второй параметр из того же списка для подсчёта коэффициента линейной корреляции и просмотра корреляционного поля с линией регрессии. Тем самым посетителям Лаборатории Фантастики предоставляется право самим выступить в роли исследователя, найти лингвистические закономерности и трактовать их по собственному разумению. Например, как вы объясните, что процент глаголов в тексте положительно коррелирован с рейтингом произведения, а процент прилагательных — отрицательно? «Читатели любят действие, а не красивые описания».

«Компромат на авторов» или «читатель должен знать правду!»

Подобные цели Лаборатория Фантастики перед собой не ставит. Даже если результаты анализа говорят о том, что текст автору не принадлежит, мы не смеем брать это за утверждение. Пусть посетитель Лаборатории Фантастики сам, на основе результатов проделанной нами работы, посеет зерно подозрения в своём пытливом уме, и, если ему это нужно, пусть сам проведёт расследование. Мы же не хотим ни в кого тыкать пальцем.

Все способы подсчета слов в документе

Наше бюро считало слова, когда это еще не было мейнстримом (по крайней мере в России). В далеком 2009 году, когда мы открылись, большинство других бюро рассчитывали стоимость перевода по количеству знаков с пробелами, ссылаясь на ГОСТ. Более того, не по исходному документу, а по переводу, но это уже, вероятно, был не гост, а чисто бизнес =). Ладно, это другая история, мы сразу решили считать по словам в исходном документе, чтобы фиксировать стоимость до начала работ, а потом и другие бюро подтянулись.

Итак, за годы работы мы считали слова, наверно, во всех возможных форматах файлов. Делимся советами.

Посмотреть статистику документа

Первый способ — проверить, нет ли в программе, которая по умолчанию работает с форматом вашего файла, статистики. Если речь идет про текстовые редакторы, то статистика есть во всех основных сервисах и программах.

Статистику обычно можно найти в пунктах меню «Вид», «Информация» или других вспомогательных, не относящихся к непосредственно редактированию текста.

Google docs

количество слов в гугл документах

Microsoft Word

количество слов в microsoft word

Apple Pages

Вид → Скрыть/Показать количество слов

количество слов в apple pages

Libre Office

Сервис → Количество слов

количество слов в libre office

Все примерно то же самое и в других форматах файлов, которые обычно входят в «офисный пакет»: презентации и таблицы.

Скопировать и вставить в текстовый редактор

Это так называемый «костыль» для диковинных форматов файлов или, например, страниц сайта. Подойдет для любого текста, по которому нет статистики, но который можно скопировать. Просто копируете и вставляете в текстовый редактор, который показывает статистику.

А что делать со сканами и фотографиями?

А вот с отсканированными или сфотографированными документами все гораздо интереснее. Тут уже ничего не посчитаешь средствами программ, которые открывают изображения или pdf-файлы, поэтому приходится прибегать к альтернативным способам подсчета.

Распознать документ в OCR-программе

OCR-программа, более известная в народе как «файнридер» поможет извлечь текст с помощью оптического распознавания символов (OCR — Optical Character Recognition).

Не стали писать «распознайте файнридером», чтобы не сложилось впечатление, что такую работу может выполнить только ABBYY FineReader, признанный лидер в этом сегменте. На рынке все же есть другие разработчики, в том числе бесплатные, в том числе онлайн. Пожалуй, наиболее известный проект с открытым исходным кодом (бесплатный) — это Tesseract (по ссылке вы найдете в том числе список программ, например, для ОС Linux), который придумала компания HP, но забросила, чтобы потом ее выкупил Google.

Итак, скан или фото можно распознать, а потом скопировать текст в текстовый редактор, чтобы посмотреть статистику. Существенные недостатки этого подхода: долго, дорого (легкие в освоении программы платные), может не справиться, если качество исходника не очень.

распознавание документа в ABBYY FineReader

Посчитать по строкам (настоящий лайфхак!)

Если нет времени, а под рукой нет программы для распознавания текста, выполните грубый подсчет по строкам. Это быстрый способ, но с высокой погрешностью. Подойдет для очень грубых подсчетов. Например, мы его используем, когда нужно оценить примерную стоимость, чтобы клиент мог принять быстрое решение: переводить вообще или нет.

Если кратко, то берете 3-5 самых длинных строк и считаете, сколько они содержат слов. Потом считаете среднее арифметическое значение. Потом считаете количество строк и умножаете на среднее значение.

подсчет слов по количеству строк

  1. Кусок текста небольшой, возьмем 4 строки, определим, сколько они содержат слов, и сложим. 15+11+12+12 = 50. Поделим на количество выбранных строк. 50 / 4 = 12.5. Окей, среднее значение есть.
  2. Теперь посчитаем количество строк. А вот тут важно. Какие-то строки длиннее, какие-то короче. Руководствуйтесь здравым смыслом и объединяйте короткие строки в одну . У нас с объединением получилось 26 строк.
  3. Последний шаг. Умножаем среднее значение на количество строк. 26 * 12.5 = 325. Получается, что в этом тексте примерно 325 слов.

Это достаточно быстрый способ подсчета для отсканированных или сфотографированных документов до 10 страниц и для изображений ужасного качества, которые точно не распознаются. Больший объем быстрее распознать или посчитать по страницам (но подсчет по страницам подойдет не для всех документов).

Посчитать по страницам

  • множества однотипных документов, различающихся только несколькими словами (например, 100 однотипных экспортных деклараций);
  • книга в печатном виде (сканировать и распознавать — долго; считать по строкам — тоже долго).

Лингвисты подсчитали количество слов в русском языке

В Оксфордском словаре в четыре раза больше слов, чем в БАСе — Большом академическом словаре русского языка. «Великий и могучий» полон английских заимствований. Школьники перестали понимать Пушкина. Что происходит с русским языком? Рождает ли он новые слова? Почему наши словари такие тонкие? На эти вопросы «РГ» отвечает один из авторов Большого академического словаря русского языка — знаменитого БАСа Людмила Кругликова.

Как считают словарный запас? Почему Оксфордский словарь такой толстый?

Людмила Кругликова: Лингвисты избегают такого рода сравнений между языками и словарями. У каждого своя специфика. Скажем, в Вебстеровский словарь в качестве самостоятельных статей включаются символы, например, химических элементов: B (бор), Ba (барий), Be (бериллий), Br (бром) и так далее, сокращенные наименования мер длины, веса, объема: km (километр), kg (килограмм), bbl (баррель). Мало того, толковые словари английского языка начали включать символы обозначений размеров листов бумаги: А3, А4, А5, а также, например, символ @.

Поэтому вывод о бедности русского языка и богатстве английского на том основании, что Большой академический словарь русского языка (БАС), который начал выходить в 2004 году (опубликовано 22 тома из предполагаемых 33), будет содержать 150 000 слов, а Оксфордский (Тhe Oxford English Dictionary, сокращенно OED) — 600 000, не что иное, как обман. БАС отражает лексику только современного литературного языка, а Оксфордский словарь — слова всех разновидностей и всех вариантов (американского, канадского и т.д.) английского языка начиная с 1150 года, включая мертвые.

А сколько слов в русском языке, если считать по-английски?

Людмила Кругликова: Если мы добавим к 150 000 слов современного русского литературного языка, например, еще и диалектные слова, то получим уже 400 000 слов.

Как объяснить тот факт, что один из самых известных английских словарей Вебстеровский стал резко худеть, и время «похудения» пришлось на Вторую мировую войну и начало «холодной»?

Людмила Кругликова: Не стоит искать в лингвистических процессах какую-то политику. Вебстеровский словарь, появившийся в 1909 году, содержал 400 000 английских слов. В его втором издании (1934 год) содержится 600 000 слов, в третьем (1961 год) — 450 000 слов. На основании этого можно заявить, что с 1934 года началось катастрофическое вырождение английского языка. А причина таких резких скачков всего лишь в том, что у второго и третьего изданий были разные редакторы, а у них разные принципы подхода к отбору слов.

На сайте издательской фирмы Merriam-Webster сказано: «Считается, что словарь английского языка включает примерно миллион слов». Это честная цифра?

Людмила Кругликова: Большинство лингвистов восприняло такую оценку с долей юмора, а некоторые сказали, что они не были бы удивлены, если бы он оценивался в четверть миллиона.

Откуда тогда взялся миллион?

Людмила Кругликова: Начиная с 2006 года некто Дж. Дж. Паяк, специалист по маркетингу и аналитике, основатель компании Global Language Monitor неоднократно заявлял о том, что скоро будет зафиксировано миллионное слово английского языка. Таким словом стало, по версии Паяка, «Web 2.0», которое является техническим термином. Кстати, уже есть и Web 3.0, а в Сети идет речь о скором появлении Web 4.0, Web 5.0. Если включать все подобные образования, то скоро можно будет говорить о миллиардном слове английского языка.

Как англичане и американцы относятся к таким сенсациям?

Людмила Кругликова: Приведу высказывание Нунберга, лингвиста из Школы информации в Калифорнийском университете в Беркли: «Наше восхищение необъятностью английского языка возникает из своего рода лингвистического империализма — ощущения, что «наши словари больше, чем их словари». Но это на самом деле не делает нас сколь-либо богаче лингвистически».

Но и среди исследователей «великого и могучего» есть лингвистические пессимисты, которые считают, что корни русского языка «бесплодны»: не рождают новых слов, а большинство неологизмов имеет иностранное происхождение.

Людмила Кругликова: Лингвист и философ Михаил Эпштейн утверждает, что в XIX веке было 150 слов с корнем «люб», а наши современники знают в три раза меньше. Между тем в «Словообразовательном словаре русского языка» Тихонова, насчитывающем около 145 000 слов современного русского литературного языка, имеется 310 слов с корнем «люб». А если считать начиная с первых памятников письменности, то получится 441 слово. В английском языке, по данным OED, только 108 лексем с аналогичным корнем (love) в начале слова.

Новые слова «про любовь» современные россияне производят?

Людмила Кругликова: В начале ХХ века появилось существительное «книголюб», а затем «природолюб», «однолюбка», «любовь-игра», «любовь-ненависть», «любовь-морковь», «безлюбье». При беглом просмотре я насчитала не менее 40 слов с корнем «люб», которые появились в XX — начале XXI века. В английском языке с корнем (love) только пять единиц вошло в язык в ХХ веке (с 1907 по 1989 год), а после этого времени ни одной.

Насколько активны сейчас наши соотечественники в политическом словотворчестве?

Людмила Кругликова: В этом отношении весьма интересно читать комментарии в Интернете. События на Украине вызвали к жизни такие лексемы, как майдауны, майданутые, онижедети, укры, укропы, псакинг, Фашингтон, Гейропа и другие. Приживутся они или нет, покажет время.

Наши депутаты периодически восстают против заимствований. Где их критический предел в языке? 70% — катастрофично?

Людмила Кругликова: По подсчетам лингвистов, во втором издании Вебстеровского словаря только 35% исконных английских слов, остальные 65% — заимствования. Но пока ничего катастрофического не случилось. Русский язык действительно испытывает большое влияние английского. Но обогащение его англицизмами наблюдается прежде всего в сфере необщенародной лексики, среди которой преобладают термины из области спорта, компьютерного дела, экономики, финансов. Плохо, если они начинают влиять на структуру языка. С русским этого не происходит. Иноязычные слова подстраиваются под систему, заимствованные корни обрастают русскими аффиксами, например: постить, смайлик, океюшки, лайкать и даже облайканный.

За 10 лет работы над БАСом сделано 22 тома — это две трети работы. Вас не упрекают за медлительность?

Людмила Кругликова: Над БАСом работают 5 штатных лингвистов, 3 совместителя и несколько сотрудников издательства. В год выходит в среднем по два тома. Над Оксфордским словарем работают 78 лингвистов, 46 внештатных сотрудников, а также 200 консультантов, штат программистов, маркетологов. Когда в нью-йоркском офисе Оксфордского словаря узнали о наших темпах работы мизерными силами, то план работы их сотрудников увеличили, а главного редактора отправили на пенсию.

СТАТИСТИЧЕСКИЕ МЕТОДЫ В ИССЛЕДОВАНИИ ТЕКСТОВ Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гречачин В.А.

Целью данной статьи является рассмотрение статистических методов в контексте исследования текстов и определение возможностей их применения. Основное внимание уделено квантитативным характеристикам лингвистических единиц. Рассмотрены основные разновидности частоты употребления лингвистических единиц. Выявлены способы подсчета частоты употребления лингвистических единиц; определены возможности приложения рассмотренных статистических методов в сопоставительных исследованиях текстов; рассмотрены возможности использования описательной статистики для проведения лингвистических исследований. На материале небольшого корпуса текстов проведен анализ особенностей употребления тех или иных частей речи в произведениях нескольких авторов, что может быть использовано для исследований авторского стиля и художественной картины мира произведений. Кроме того, рассмотрен исследовательский потенциал различных визуализаций статистических данных, полученных благодаря частотному анализу единиц в текстах. В рамках данной работы получены данные, которые могут быть использованы для дальнейшего исследования потенциала статистических методов в лингвистических исследованиях.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Гречачин В.А.

О РОЛИ СТАТИСТИКИ ПРЕДЛОГОВ В ОПРЕДЕЛЕНИИ СТИЛИСТИЧЕСКОЙ ПРИНАДЛЕЖНОСТИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ
Сетевая модель агглютинативной морфологии
Эволюция маркемной лексики на основе исследования маркем в хронологических срезах
Изучение коллокаций на основе лингвистических корпусов текстов
Квантитативный анализ языка калмыцкого героического эпоса «Джангар»
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STATISTICAL METHODS IN THE STUDY OF TEXTS

The aim of the article is to consider statistical methods in the context of text studies and to determine the possibilities of their application. The main attention was paid to the quantitative characteristics of linguistic units. The difference in the frequency of use of linguistic units was considered. The ways of calculating the frequency of use of linguistic units were described. The possibilities for application of the considered statistical methods in comparative studies of texts were determined. The possibilities of using descriptive statistics for linguistic studies were considered. The work is based on the material of a small corpus of texts; the analysis of the peculiarities of the use of certain parts of speech in the works of several authors was carried out; it can be used to study the author’s style. In addition, authors of the article considered the research potential of various visualizations of statistical data obtained through the analysis of frequency of using units in texts. The data gathered for the analysis can be used in further studies considering the potential of application of statistical methods in linguistics.

Текст научной работы на тему «СТАТИСТИЧЕСКИЕ МЕТОДЫ В ИССЛЕДОВАНИИ ТЕКСТОВ»

раздел ФИЛОЛОГИЯ и ИСКУССТВОВЕДЕНИЕ

СТАТИСТИЧЕСКИЕ МЕТОДЫ В ИССЛЕДОВАНИИ ТЕКСТОВ

Башкирский государственный университет Россия, Республика Башкортостан, 450076 г. Уфа, ул. Заки Валиди, 32.

Тел.: +7 (937) 789 28 97.

Целью данной статьи является рассмотрение статистических методов в контексте исследования текстов и определение возможностей их применения.

Основное внимание уделено квантитативным характеристикам лингвистических единиц. Рассмотрены основные разновидности частоты употребления лингвистических единиц. Выявлены способы подсчета частоты употребления лингвистических единиц; определены возможности приложения рассмотренных статистических методов в сопоставительных исследованиях текстов; рассмотрены возможности использования описательной статистики для проведения лингвистических исследований. На материале небольшого корпуса текстов проведен анализ особенностей употребления тех или иных частей речи в произведениях нескольких авторов, что может быть использовано для исследований авторского стиля и художественной картины мира произведений. Кроме того, рассмотрен исследовательский потенциал различных визуализаций статистических данных, полученных благодаря частотному анализу единиц в текстах.

В рамках данной работы получены данные, которые могут быть использованы для дальнейшего исследования потенциала статистических методов в лингвистических исследованиях.

Ключевые слова: статистика, квантитативная лингвистика, корпусная лингвистика,

частотность лингвистических единиц.

Количественные методы в науке возникли в начале XX в. Тогда к ним прибегали прежде всего в естественно -научных и социологических исследованиях. Позже, в середине XX в., статистика стала преобладать над другими методами количественного подхода к исследовательским данным. С течением времени квантитативные методы смогли занять в инструментарии исследователей свое место и обозначились принципиальные отличия между ними и качественными методами [5].

Главной особенностью любых количественных исследований является тот факт, что сбор данных представляет собой отдельную задачу, стоящую перед исследователем. Прежде всего, тот должен выделить параметры, или переменные, которые подлежат измерению. Но он не может предсказать степень важности той или иной выбранной переменной. Определение важности переменных относится к задаче отбора признаков (feature selection) в статистике и машинном обучении. Кроме того, важность переменных можно определить при помощи агрегирования данных. Количественные характеристики переменных, полученные в ходе сбора данных, оформляются в виде матрицы, которая, в свою очередь, является предметом исследования статистическими методами.

Следующий этап заключается в интерпретации полученных результатов.

Положение о том, что качественные характеристики исследуемого объекта имеют цифровое выражение как в единичном ряду, так и во взаимосвязи, находит свое отражение в работе Дернеи [10], где

автор называет квантитативные методы «meaning in numbers».

Особую роль квантитативные методы играют в современном мире. Благодаря сети Интернет количество данных, подлежащих подсчету, растет невероятными темпами. Размер Интернета можно выразить количеством веб-страниц (например, англоязычный сегмент оценивается в 4.58 млрд отдельных веб-страниц). Основная информация представлена в текстовом виде. Поэтому анализ текстовой информации — одно из важнейших направлений в современной науке.

Если в распоряжении исследователя имеется определенный набор текстов, которые он хочет проанализировать при помощи квантитативных методов, то ему нужно решить, что извлечь из текста в качестве переменных. Кроме того, стоит позаботиться о репрезентативности получаемых данных о количественных характеристиках переменных. Например, делать выводы о количественном распределении переменных в поэтических текстах на основании анализа выборки, состоящей из 5 стихотворений, невозможно. Конечно, такую попытку предпринять можно, но результаты анализа нерепрезентативной выборки не будут соответствовать характеристикам генеральной совокупности, которой являются все поэтические тексты.

В статистике выделяют несколько типов переменных. Прежде всего, это количественные переменные. В текстах ими могут стать различные лингвистические единицы, которые можно посчитать: фонемы, морфемы, слова, словосочетания. Посчи-

тав количество представителен этих языковых единиц в текстах, мы получим для них частотную характеристику, затем сможем описать структуру текстовых данных, имеющихся в нашем распоряжении.

В лингвистическом контексте в статистике применимо также понятие «категориальные переменные» Категориальная переменная — это переменная, принимающая одно из заданных значений. Например, категориальной переменной может выступать часть речи, так как мы заранее задаем значение для всех частей речи.

Основное допущение, на котором основывается наше исследование, заключается в следующем: «Текст есть последовательность независимых реализаций случайной величины X» [1]. Это предположение относится к любым лингвистическим единицам, но для определенности положим, что значениями случайной величины X являются слова (словоформы) х1, х2, х2, . хп. Слова, в свою очередь, составляют словарь — множество V. Чтобы говорить о значимых различиях в частоте употребления той или иной переменной в различных выборках, приведем еще одно предположение, на котором основывается наше исследование: «Каждой языковой единице х может быть сопоставлена вероятность р ее употребления в корпусе текстов X» [1]. Таким образом, р1, р2, р3, . рп — это вероятности, с которыми х принимает значения х1, х2, х3, . хп. Попробуем интуитивно разобраться в описанном выше. Важной для нашего исследования величиной, на основании которой мы можем сделать вывод о существенности или несущественности различия в частоте употреблении того или иного слова в нескольких корпусах текстов, является вероятность р, которая может быть вычислена для любого слова х, входящего в корпус X и которая отражает вероятность употребления этого слова х в корпусе X.

Таким образом, для каждого х в корпусе X мы можем получить различные характеристики, основываясь на описательной статистике. Абсолютная частота п словоформы хп в корпусе X — это целочисленное значение, отражающее общее количест-

во употреблений хп. Приведем таблицу абсолютных частот наиболее употребительных слов в русском и башкирском корпусах поэтических текстов XX в.

Средняя частота характеризует обобщенное значение переменной [Васнев, 2001] и прежде всего используется для сравнения нескольких совокупностей признаков. Пусть корпус X состоит из N текстов И, t2, t3, . /п. Тогда средняя арифметическая частота словоформы хп рассчитывается по формуле:

где Ехп — сумма частот словоформы w в п текстах, N — количество текстов, где наблюдается употребление словоформы.

Кроме средней арифметической величины, которая используется чаще всего, существуют также средняя квадратическая, средняя гармоническая, средняя геометрическая, средняя кубическая [11].

Важной величиной для статистики лингвистических единиц является и относительная частота. В статистике относительные показатели используют для проведения сравнительного анализа, а также обобщения и синтеза. Относительная частота показывает отношение количества словоупотреблений определенной словоформы в наблюдаемом тексте или наблюдаемых текстах к общему количеству словоформ в этом тексте или этих текстах. Относительная частота рассчитывается по формуле:

где пи, — это количество словоупотреблений а N — общее количество слов в тексте или текстах.

Сравним график абсолютных частот частей речи в текстах нескольких русских поэтов XX в. (рис. 1) и график относительных частот частей речи в тестах этих же поэтов (рис. 2). Корпус был пре-добработан для проведения статистических исследований в соответствии с основными методами компьютерной лингвистики [3].

Рис. 1. Абсолютная частота употребления частей речи некоторыми поэтами.

Данные, обследуемые нами, состоят из произведений Б. Л. Пастернака, А. А. Ахматовой, О. Э. Мандельштама, М. И. Цветаевой, количество которых в нашем наборе равно 531, 939, 679, 1468 соответственно.

Для начала опишем фигуры этих графиков. Перед нами 4 гистограммы, показывающие количественное соотношение частей речи в текстах поэтов. Цвет прямоугольников соотносится с частями речи, а их высота показывает количество словоупотреблений определенной части речи в текстах (рис. 1) и величину относительной частоты частей речи (рис. 2).

Данный тип визуализации (рис. 1) позволяет нам сделать выводы о продуктивности того или иного поэта. Таким образом, можно сказать, что М. Цветаева написала больше слов по всем частям речи, нежели Б. Пастернак, А. Ахматова и О. Мандельштам. Сделаем вывод о том, что абсолютная частота лингвистических единиц, в данном случае частота слов по частям речи, показывает продуктивность автора. Также мы можем подсчитать абсолютную частоту употребления лингвистических единиц не только у отдельно взятых авторов, но и, например, в определенные временные промежутки.

Теперь обратимся к следующему графику (рис. 2) и попытаемся эксплицировать относительный показатель в контексте сопоставительного анализа различных текстовых данных. Во-первых, фигуры графиков значительно отличаются между собой. График на рис. 1 не отражает продуктивность какого-либо автора. Как можно видеть, значения усреднились. Размах значений на первом графике равен ~ 57 000, в то время как размах на втором графике значительно меньше ~ 0.35. Вторая визуализация отражает соотношение слов по частям речи у каждого автора. На основании результатов подсчета относительной величины во втором графике мы не можем сказать о том, что в стихах М. Цветаевой больше существительных, чем у остальных.

Максимальное значение для существительных (NOUN) теперь принадлежит Л. Пастернаку. Но и это не говорит нам о том, что у него существительных больше, чем у других. Значение NOUN у этого поэта показывает одновременно, что он употребил больше существительных относительно других частей речи в своих текстах и что он по сравнению с М. Цветаевой, А. Ахматовой и О. Мандельштамом чаще использовал существительные, чем другие части речи. Это может говорить о стилистических особенностях текстов Б. Пастернака. Например, мы можем сделать вывод о большей предметности языковой картины мира в его произведениях, в то время как в текстах А. Ахматовой наблюдается высокий показатель после NOUN относительной величины для полных прилагательных (ADJF) [На-преенко, 2014]. Распределение относительных частот переменной ADJF по данным авторам показывает, что значение ADJF в текстах А. Ахматовой выше, чем у других писателей. Но при этом значение NOUN существенно ниже. На основании этих данных можно сделать вывод об образности авторского языка А. Ахматовой, большей эмоциональной окрашенности лексики, но при этом меньшей предметности относительно некоторых ее современников.

Таким образом, мы можем сделать вывод о том, что относительные показатели играют важную роль в сопоставительном изучении письменного дискурса. В рамках нашего исследования будем исходить из того, что применение статистического подсчета относительных показателей различных лингвистических единиц является отправной точкой в создании естественно-научного фундамента в сопоставительных исследованиях поэтического текстового пространства XX в. в русском и башкирском языках.

Рис. 2. Относительная частота употребления частей речи некоторыми поэтами.

Следует отметить, что при анализе относи- 4.

тельных показателей нужно остерегаться различного рода обобщений. Относительные величины не 5 могут описать объект исследования, они лишь являются инструментом сравнительного анализа нескольких наборов данных.

В рамках данного исследования мы рассмотрели основные статистические методы, которые 6. могут быть приложены в сопоставительных исследованиях текстов. Мы определили перспективы подобных методов, некоторые из них уже нашли применение в работах по стилометрии [6-7]. На 7 примере данного исследования мы продемонстрировали, как инструменты статистики помогают в анализе целых массивов текстов.

Работа выполнена в рамках поддержанного РФФИ проекта №17-04-00193 «Исторический корпус башкир- 8.

1. Арапов М. В. Квантитативная лингвистика. М.: Наука, 10. 1988. 184 с.

2. Баранов А. В. Введение в прикладную лингвистику. М.: 11. Эдиториал УРСС, 2001. [Электронная книга]. Вайсгербер

Й. Л. Родной язык и формирование духа. М., 2004. 232 с. 12.

3. Гречачин, В. А. К вопросу о токенизации текста // Международный научно-исслед. журнал. 2016. №6(48). Ч. 4. 13. С. 25-27. (М: 10.184 547IRJ.2016.48.070.

Гржибовский А. М. Корреляционный анализ // Экология человека. 2008. №9 URL: https://cyberleninka.ru/article/ n/korrelyatsionnyy-analiz

Кащеева А. В. Квантитативные и качественные методы исследования в прикладной лингвистике // Социально-экономические явления и процессы. 2013. .№3(049). URL: https://cyberleninka.ru/article/n/kvantitativnye-i-kachestvennye-metody-issledovaniya-v-prikladnoy-lingvistike (дата обращения: 19.10.2018).

Кочеткова Н. А. Статистические языковые методы. Кол-локации и коллигации // Новые информационные технологии в автоматизированных системах. 2013. №16. URL: https://cyberleninka.ru/article/n/statisticheskie-yazykovye-metody-kollokatsii-i-kolligatsii.

Напреенко Г. В. Идентификация текста по его авторской принадлежности на лексическом уровне (формально-колич. модель) // Вестн. Том. гос. ун-та. 2014. .№379. URL: https://cyberleninka.ru/article/n/identifikatsiya-teksta-po-ego-avtorskoy-prinadlezhnosti-na-leksicheskom-urovne-formalno-kolichestvennaya-model (дата обращения: 19.10.2018). Ибрагимова В. Л., Фаткуллина Ф. Г. Основные принципы исследования словарного состава современного русского языка // Вестник БашГУ. 2010. №2. С. 320-324. Collins M. Three generative, lexicalized models for statistical parsing // In Proceedings of ACL 35. 1997. Dornyei Z. Research Methods in Applied Linguistics. OUP, 2007. [Electronic book].

Diez D. M., Barr C. D., Cetinkaya-Rundel, M. Openlntro statistics. CreateSpace, 2012. Т. 12.

Harris Z. Methods in Structural Linguistics. Chicago: University of Chicago Press, 1951. [Electronic book]. Jurafsky D., Martin J. H. Speech and Language Processing. NJ: Prentice Hall, 2000. [Electronic book].

Поступила в редакцию 05.09.2018 г.

STATISTICAL METHODS IN THE STUDY OF TEXTS © V. A. Grechachin

Bashkir State University 32 Zaki Validi Street, 450076 Ufa, Republic of Bashkortostan, Russia.

Phone: +7 (937) 789 28 97.

Email: vitaley.grechachin@gmail. com

The aim of the article is to consider statistical methods in the context of text studies and to determine the possibilities of their application. The main attention was paid to the quantitative characteristics of linguistic units. The difference in the frequency of use of linguistic units was considered. The ways of calculating the frequency of use of linguistic units were described. The possibilities for application of the considered statistical methods in comparative studies of texts were determined. The possibilities of using descriptive statistics for linguistic studies were considered. The work is based on the material of a small corpus of texts; the analysis of the peculiarities of the use of certain parts of speech in the works of several authors was carried out; it can be used to study the author’s style. In addition, authors of the article considered the research potential of various visualizations of statistical data obtained through the analysis of frequency of using units in texts. The data gathered for the analysis can be used in further studies considering the potential of application of statistical methods in linguistics.

Keywords: statistics, quantitative linguistics, corpus linguistics, frequency of using linguistic units.

Published in Russian. Do not hesitate to contact us at bulletin_bsu@mail.ru if you need translation of the article.

1. Arapov M. V. Kvantitativnaya lingvistika [Quantitative linguistics]. Moscow: Nauka, 1988.

2. Baranov A. V. Vvedenie v prikladnuyu lingvistiku [Introduction to applied linguistics]. Moscow: Editorial URSS, 2001. [Elektronnaya kniga]. Vaisgerber I. L. Rodnoi yazyk i formirovanie dukha. Moscow, 2004.

3. Grechachin, V. A. Mezhdunarodnyi nauchno-issled. zhurnal. 2016. No. 6(48). Pt. 4. Pp. 25-27. doi: 10.18454/IRJ.2016.48.070.

4. Grzhibovskii A. M. Ekologiya cheloveka. 2008. No. 9 URL: https://cyberleninka.ru/article/n/korrelyatsionnyy-analiz

5. Kashcheeva A. V. Sotsial’no-ekonomicheskie yavleniya i protsessy. 2013. No. 3(049). URL: https://cyberleninka.ru/article/n7kva ntitativnye-i-kachestvennye-metody-issledovaniya-v-prikladnoy-lingvistike (data obrashcheniya: 19.10.2018).

6. Kochetkova N. A. Novye informatsionnye tekhnologii v avtomatizirovannykh sistemakh. 2013. No. 16. URL: https://cyberleninka.ru /article/n/statisticheskie-yazykovye-metody-kollokatsii-i-kolligatsii.

7. Napreenko G. V. Vestn. Tom. gos. un-ta. 2014. No. 379. URL: https://cyberleninka.ru/article/n/identifikatsiya-teksta-po-ego-avtorskoy-prinadlezhnosti-na-leksicheskom-urovne-formalno-kolichestvennaya-model (data obrashcheniya: 19.10.2018).

8. Ibragimova V. L., Fatkullina F. G. Vestnik BashGU. 2010. No. 2. Pp. 320-324.

9. Collins M. In Proceedings of ACL 35. 1997.

10. Dornyei Z. Research Methods in Applied Linguistics. OUP, 2007. [Electronic book].

11. Diez D. M., Barr C. D., Cetinkaya-Rundel, M. OpenIntro statistics. CreateSpace, 2012. Vol. 12.

12. Harris Z. Methods in Structural Linguistics. Chicago: University of Chicago Press, 1951. [Electronic book].

13. Jurafsky D., Martin J. H. Speech and Language Processing. NJ: Prentice Hall, 2000. [Electronic book].

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *