Ученый нашел главные слова хеви-метала

09/04/2019

Специалист по обработке данных, автор блога Degenerate State, опубликовал список слов, наиболее характерных для музыкальных произведений в стиле heavy metal. 

Ученый проанализировал свыше 200 тысяч текстов песен и выяснил, что самыми «металичными» можно назвать слова burn («сжигать», «ожог»), cries («крики», «вопить»), veins («вены»), eternity («вечность») и breathe («дышать»). Кроме того, автор указал на возможность сгруппировать группы по близости текстов.

На первом этапе автор блога выяснил частоту, с которой встречаются различные слова в выборке из 222 623 песен 7634 исполнителей. Как отмечает исследователь, исключив стоп-слова (артикли, предлоги, вспомогательные глаголы), среди часто встречающихся слов оказались time («время»), life («жизнь»). Близкими по частоте оказались и более выразительные для heavy metal слова blood («кровь»), pain («боль») и night («ночь»). 

Исследователь попытался выделить наиболее «металичные» слова — характерные для heavy metal и менее характерные для повседневного использования. Для этого необходимо было ввести коэффициент «металичности». Автор сравнил частотное распределение слов в песнях и в Brown Corpus, собрании из 500 текстов (около миллиона слов), датированных 1960 годом. Для каждого слова вычислялась величина того, во сколько раз чаще (реже) оно встречается в лирике heavy metal, а сам коэффициент представлял собой логарифм этой величины.

Наименее «металичными» оказались слова particularly («особенно»), indicated («указали»), secretary («секретарь»), committee («комитет»), university («университет») и relatively («относительно»). Кроме того автор отметил, что больше всего сквернословия в песнях Five Finger Death Punch, а самые сложные для прочтения тексты у Pig Destroyer.

Следующим шагом в исследовании был анализ слов, типичных для конкретных heavy metal групп. Блогер выбрал в качестве примера произведения групп Motorhead, Machinehead и Diamondhead. Типичность слова для группы определялась следующим образом. Исследователь определял частоту использования данного слова в текстах всех трех групп и в текстах каждой из групп по отдельности. Затем к логарифму отношения этих величин добавлялась еще одна переменная, характерная для данной группы (основанная на частоте использования других слов, кроме выбранного). Так автор определил, что в произведениях Motorhead часто встречаются слова ain't, gonna и know, Machinehead — pain, inside и strength, Diamondhead — oh, yeah, baby.

С помощью новой метрики исследователь построил иерархическую кластеризацию групп. Для этого сначала автор предположил, что все группы независимы между собой. Затем, на основе частоты использования различных слов, ученый вычислил «расстояния» между группами. На следующем этапе группы, «расстояния» между которыми невелики, объединялись в кластер. Потом те же расчеты повторялись для кластеров — возник иерархический граф по типу филогенетического дерева.

Как отмечает автор, в некотором случае объединение в кластеры оказывается довольно разумным. Так, в одном кластере оказываются Оззи Осборн и Black Sabbath, Rainbow и Dio, ожидаемо группируется power metal. Полный интерактивный граф доступен по ссылке.

Автор: Владимир Королёв

Источник