Квантитативное исследование англоязычного авторского корпуса Рэгу Н. Митры

Борунов Артем Борисович

doi:10.7256/2409-8698.2017.1.20090


	Меню журнала > Архив номеров > Рубрики > О журнале > Авторы > О журнале > Требования к статьям > Редсовет > Редакция > Порядок рецензирования статей > Политика издания > Ретракция статей > Этические принципы > Политика открытого доступа > Оплата за публикации в открытом доступе > Online First Pre-Publication > Политика авторских прав и лицензий > Политика цифрового хранения публикации > Политика идентификации статей > Политика проверки на плагиат


	Журналы индексируются


	Реквизиты журнала

ГЛАВНАЯ > Вернуться к содержанию

Litera

Правильная ссылка на статью:

Борунов А.Б. Квантитативное исследование англоязычного авторского корпуса Рэгу Н. Митры // Litera. 2017. № 1. С. 76-87. DOI: 10.7256/2409-8698.2017.1.20090 URL: https://nbpublish.com/library_read_article.php?id=20090

Квантитативное исследование англоязычного авторского корпуса Рэгу Н. Митры

Борунов Артем Борисович

ORCID: 0000-0003-2507-7218

кандидат филологических наук

доцент кафедры романо-германских языков Московский государственный гуманитарно-экономический университет

107150, Россия, г. Москва, ул. Лосиноостровская, 49

Borunov Artem Borisovich

PhD in Philology

Associate Professor of the Department of Romano-Germanic Languages Moscow State University of Humanities and Economics

107150, Russia, g. Moscow, ul. Losinoostrovskaya, 49

borunov.artem@yandex.ru

Другие публикации этого автора

DOI:

10.7256/2409-8698.2017.1.20090

Дата направления статьи в редакцию:

14-08-2016

Дата публикации:

17-04-2017

Аннотация: Предметом исследования является частотность употребления лексических единиц в англоязычном авторском корпусе Рэгу Н. Митры, полученная в результате автоматизированной обработки корпуса программой «WordSmith Tools». Объектом исследования является англоязычный авторский корпус Рэгу Н. Митры объёмом 414311 токенов. На основе компьютерной обработки был составлен частотный список 50 единиц, а также проведено сравнение частотности употребления семантического поля «Crime» по данным Корпуса современного американского английского языка и авторского корпуса Р. Н. Митры. Методом исследования явился сравнительно-сопоставительный, статистический и математический. Преобразование текста в авторский корпус и дальнейшая его обработка проводились с помощью компьютерного ПО. Результатом данного исследования является преобразование авторского англоязычного корпуса в частотный список, сопоставление данного списка с частотным списком Корпуса современного американского английского языка, критический анализ данных. Новизна исследования заключается в попытке квантитативного анализа языкового корпуса американского языка начала 21 в. и сопоставительном анализе результатов.

Ключевые слова:

квантитативный анализ, авторский корпус, Рэгу Н. Митра, ПО «WordSmith Tools», англоязычная художественная проза, частотность, Корпус американского английского, частотный список, сопоставительный анализ корпусов, лингвостатистика

Abstract: The subject of this research is the frequency of the lexical unit usage in the English-Language corpus of Raghu N. Mitra that was obtained through automated processing of the corpus with the program "WordSmith Tools". The object of the research is the English-language corpus of Raghu N. Mitra consisting of 414311 words. By the means of computer processing the author made a frequency list consisting of 50 units as well as compared the frequency of the semantic field usage of "Crime" according to the corpus of contemporary American English and author corpus of R. N. Mitra. The research methods used by the author included comparative, statistical and mathematical methods. The conversion of the text into the author corpus and its further processing were carried out using computer software. As a result of the study, the author English-language corpus was converted into the frequency list to compare this one with a frequency list of the corpus of contemporary American English and to carry out a critical analysis of the data. The novelty of this research is caused by the fact that the author attempts to conduct a quantitative analysis of the language corpus of American English of the early 21st century and comparative analysis of the results.

Keywords:

quantitative analysis, author corpus, Raghu N. Mitra, WordSmith Tools, English fiction prose, frequency, Corpus of Contemporary American English, frequency list, comparative analysis of corpuses, linguostatistics

Квантитативная лингвистика, развивавшаяся в Европе и США, переживает расцвет в наши дни в России. Сегодня отечественные лингвисты обратили внимание на методы и подходы этого раздела общей лингвистики, а, с учетом возросшей компьютеризации нашей жизни, удобством использования компьютерного программного обеспечения при проведении анализа корпуса, создании конкордансов и глоссариев, машинном анализе текста, появляется всё больше интересных исследований как в области филологии, отметим, например, исследование параметрических ядер германских языков Воевудской О. М. ^[4], исследование параметрического ядра русской лексики по данным МАС-2 Стародубцевой Ю. А. ^[7], так и техническими специалистами, вносящими вклад в автоматизацию процесса текстового анализа, например, разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев Кулешова С. В. ^[6].

Квантитативный анализ, иными словами количественное исследование языка статистическими методами, позволяет, при помощи компьютерного ПО, автоматизировано получить данные по интересующему исследователя запросу.

Для проведения анализа текста использовалась компьютерная программа «WordSmith Tools» ^[14]. Данная программа обладает большим функционалом для всестороннего исследования текста математическими методами. Учитывая задачи настоящего следования, мы воспользовались функцией общей статистики корпуса и функцией построения частотного списка.

Фактическим материалом исследования послужил созданный нами электронный авторский англоязычный корпус из 4 полных вариантов книг и двух отрывков из книг Рэгу Н. Митры на английском языке:

1) «Очень банальная страсть» “A Very Insipid Passion” ^[11];

2) «Грехопадение» “Impute Fall to Sin” ^[9];

3) «Дождь из теней» “A Rain Full of Ghosts” ^[10];

4) «Если бы не смерть» “If there wasn't death” ^[8],

а также 2 фрагмента других произведений писателя, представленных в свободном доступе в сети Интернет:

5) “As in the falling of an eyelid” ^[12];

6) “At The Davies” ^[13].

Материал исследования. Приведем исходные параметры анализируемого корпуса, используя ПО, которые занесены в таблицу 1. «Статистические данные обработки авторского корпуса». При обработке общего файла корпуса текстов Р. Н. Митры были выделены исходные данные взятых для анализа текстов, которые составляют – 414311 слов или токенов (столбец «tokens used for word list»), либо 2 273 083 знаков с пробелами (столбец «file size»). Подробнее процедура получения электронного авторского корпуса текста и исследование его начальных параметров описано в статье, откуда позаимствован фрагмент табл. 1 ^[1].

file size	tokens (running words) in text	tokens used for word list	sum of entries	types (distinct words)	type/token ratio (TTR)	STTR std.dev.
2273083	414823	414311		19405	4,68	55,80

Табл. 1. Статистические данные обработки авторского корпуса ^[1].

Опираясь на материал данного авторского корпуса из 414311 токенов, построим частотный список. Данный эксперимент был проведен нами с использованием программы «WordSmith Tools», функция автоматизированного построения частотного списка ^[14].

Эксперимент № 1: «Построение частотного списка лексических единиц исследуемого авторского корпуса программой «WordSmith Tools».

Цель эксперимента: построить частотный список и проанализировать его, затем отобрать 50 наиболее частотных единиц из авторского корпуса и провести сравнение с другими англоязычными корпусами.

Исходные данные: авторский корпус объемом 414311 токенов ^[1]. Исходные параметры авторского корпуса занесены в табл. 1.

Дата эксперимента: 22.02.2016.

Ход эксперимента: созданный электронный авторский корпус был загружен в программу для составления частотного словаря. Программа автоматически проанализировала корпус и составила список, ранжированный по частотности словоупотребления. Однако, несмотря на удобство и быстроту обработки информации данным ПО, отметим недостаток, а именно при автоматическом анализе корпуса отсутствует функция объединения различных словоформ в лексему, поэтому, например, слова «dog» и «dogs» считаются различными и частотность употребления подсчитывается для каждого слова, также как и в случае с грамматическими парадигмами времен. Кроме того, программа учитывает как токены служебные слова: артикли, союзы, предлоги. Мы не стали в ручную вносить коррективы в результаты обработки текста, так как не ставили задачи обработать частотность, например, исключительно номинативных единиц.

Результаты эксперимента: в составленном частотном словаре последним словом является “zoomed”, которое в ранжировке занимает место под номером 19404 с индексом частотности употребления 1. Первые места по частотности, как и ожидалось, занимают служебные слова: “the”, “I”, “a”, которые обладают частотностью употребления 19256, 11546, 11268 соответственно (см. Табл. 2). На данные слова приходится от 4,64 до 2,72 % текста.

N	Word	Freq.	%	Texts	%
1	THE	19256	4,64	1	100,00
2	I	11546	2,78	1	100,00
3	A	11268	2,72	1	100,00

……………..

19402	ZOMBIE	1	1	100,00
19403	ZONES	1	1	100,00
19404	ZOOMED	1	1	100,00

Табл. 2. Фрагмент таблицы-отчета частотного употребления ЛЕ.

Приведем список 50 слов с наибольшей частотностью употребления из исследуемого корпуса (Табл. 3): «Freq.» - «частотность употребления», «%» - «% в корпусе», «Texts» - в данном столбце указано, что при расчете брались данные одного корпуса. Данный список состоит из служебных слов: артиклей, предлогов, местоимений, вспомогательных и модальных глаголов, союзов, частиц, прошедшего времени глагола “said”, вводящего косвенную речь и слова “like”, которое может быть как глаголом, так и наречием. На данный список приходится 46,34% всего корпуса.

WordList 22 фев 2016

N	Word	Freq.	%	Texts
1	THE	19256	4,64	1
2	I	11546	2,78	1
3	A	11268	2,72	1
4	TO	10075	2,43	1
5	WAS	8671	2,09	1
6	AND	8630	2,08	1
7	OF	8490	2,05	1
8	HE	6906	1,66	1
9	IN	6645	1,60	1
10	IT	5587	1,35	1
11	YOU	5406	1,30	1
12	SHE	4961	1,20	1
13	THAT	4908	1,18	1
14	SAID	4812	1,16	1
15	NOT	4506	1,09	1
16	HIS	3655	0,88	1
17	HER	3648	0,88	1
18	HAD	3638	0,88	1
19	WITH	3486	0,84	1
20	IS	2944	0,71	1
21	HAVE	2905	0,70	1
22	ON	2850	0,69	1
23	FOR	2756	0,66	1
24	MY	2503	0,60	1
25	ME	2321	0,56	1
26	AT	2312	0,56	1
27	WHAT	2149	0,52	1
28	NO	2012	0,49	1
29	BE	1907	0,46	1
30	DID	1879	0,45	1
31	HALLEY	1830	0,44	1
32	AS	1782	0,43	1
33	HIM	1673	0,40	1
34	OUT	1666	0,40	1
35	WE	1640	0,40	1
36	SANDY	1603	0,39	1
37	WOULD	1571	0,38	1
38	ONE	1568	0,38	1
39	BUT	1529	0,37	1
40	UP	1506	0,36	1
41	ARE	1441	0,35	1
42	WERE	1348	0,32	1
43	THERE	1347	0,32	1
44	AN	1329	0,32	1
45	THIS	1328	0,32	1
46	FROM	1320	0,32	1
47	COULD	1319	0,32	1
48	SO	1303	0,31	1
49	ABOUT	1244	0,30	1
50	LIKE	1225	0,30	1

Табл. 3. Список 50 самых частотных токенов

Высокую частотность употребления таких единиц как “the”, “a”, “had”, “was”, “of”, “are”, “is”, “have” и ряда других можно объяснить грамматической системой английского языка, в котором присутствует категория определенности/неопределенности, передающаяся посредством артикля, аналитический способ образования грамматических времен при помощи вспомогательных глаголов, передача части грамматических отношений через предлоги. Сравним наши данные с данными Корпуса современного американского английского языка ^[5] (англ. Corpus of Contemporary American English), которые представлены в Табл. 4. (Корпус современного американского английского языка).

Rank	Word	Part of speech	Frequency	Dispersion

1	the	a	22038615	0.98
2	be	v	12545825	0.97
3	and	c	10741073	0.99
4	of	i	10343885	0.97
5	a	a	10144200	0.98
6	in	i	6996437	0.98
7	to	t	6332195	0.98
8	have	v	4303955	0.97
9	to	i	3856916	0.99
10	it	p	3872477	0.96
11	I	p	3978265	0.93
12	that	c	3430996	0.97
13	for	i	3281454	0.98
14	you	p	3081151	0.92
15	he	p	2909254	0.94
16	with	i	2683014	0.99
17	on	i	2485306	0.99
18	do	v	2573587	0.95
19	say	v	1915138	0.95
20	this	d	1885366	0.96
21	they	p	1865580	0.96
22	at	i	1767638	0.98
23	but	c	1776767	0.97
24	we	p	1820935	0.94
25	his	a	1801708	0.95
26	from	i	1635914	0.99
27	that	d	1712406	0.94
28	not	x	1638830	0.98
29	n't	x	1619007	0.97
30	by	i	1490548	0.96
31	she	p	1484869	0.91
32	or	c	1379320	0.97
33	as	c	1296879	0.98
34	what	d	1181023	0.94
35	go	v	1151045	0.93
36	their	a	1083029	0.97
37	can	v	1022775	0.98
38	who	p	1018283	0.97
39	get	v	992596	0.94
40	if	c	933542	0.97
41	would	v	925515	0.97
42	her	a	969591	0.91
43	all	d	892102	0.98
44	my	a	919821	0.93
45	make	v	857168	0.98
46	about	i	874406	0.96
47	know	v	892535
Другие сайты издательства: Официальный сайт издательства NotaBene / Aurora Group s.r.o.	Перепечатка материалов допускается только в некоммерческих целях со ссылкой на оригинал публикации. Охраняется законами Российской Федерации. Любые нарушения закона преследуются в судебном порядке. © ООО "НБ-Медиа"