Код бестселлера
Шрифт:
Связь между предметом книги и переживаниями читателя описать легко. Возьмем, например, женщин, которые читают любовные романы – причем постоянно и исключительно их. Это не карикатура – такие читательницы действительно существуют, и их много. В прошлом году мы ездили на конференцию «Романтические времена», посвященную любовным романам. Это мероприятие продолжительностью в несколько дней кого угодно убедит, что любовь в самом деле правит миром. Мы встретили нескольких страстных поклонниц жанра, которые клялись, что читают по три-пять сотен любовных романов ежегодно. Как им это удается? Мы не знаем. Но дело не в их сверхчеловеческих способностях. Дело в том, что, когда люди глотают книги одну за другой, это может быть как их свободным выбором, так и зависимостью сродни наркотической, заставляющей их выбирать один и тот же жанр, – но это не обязательно связано с интересом к определенным темам. Да, конечно, открывая любовный роман, мы ожидаем увидеть что-нибудь про любовь и отношения – это часть неписаного контракта между читателем и автором. Но кроме любви и отношений там могут присутствовать абсолютно разные темы. В BISAC есть коды для любовных романов с участием вампиров и шотландцев; любовных романов действие которых происходит в эпоху Тюдоров или в Средние века; любовных романов в спортивном мире; эротических любовных романов – и это лишь несколько примеров. Возможно, существуют читатели-привереды, которые выбирают только любовные романы про оборотней с экстрасенсорными способностями (да, такая категория в BISAC тоже есть). Но с тем же успехом можно предположить, что есть люди, которые читают любовные романы ради определенного переживания, вызванного широкой направленностью книги (тема любви), а не какой-то узкой темой (например, вестерном). Какая разница, кто главный герой – вампир или ветеринар? Главное, чтобы он был прекрасен телом и душой.
Связь между предметом и ощущениями читателя – важнейший вопрос в исследовании, цель которого – раскрыть механизм коммерческого успеха в литературе. Сравним любовные романы и триллеры. Это две важнейшие категории для любого исследователя современного книжного мира, поскольку они продаются лучше всего. Они правят рынком – но разными его сегментами. С одной стороны, триллеры, похоже, все еще занимают более сильные позиции в списке NYT. Это особенно верно для книг в твердом переплете. С другой стороны, стремительно развивающийся мир электронного «самиздата» растет в основном за счет любовных романов. Это золотая жила для исследований – хватило бы на целую отдельную монографию: пассажиры в метро по дороге на работу читают знойные истории любви со смартфонов, а детективы – в бумажных изданиях; при этом среди любителей детективов примерно поровну мужчин и женщин, а вот среди читателей любовных романов женщины преобладают. Однако важный момент, интересующий нас сейчас, заключается в том, что любовные романы и триллеры вызывают у читателя сходные переживания в интеллектуальной и эмоциональной сферах и в том, что касается работы воображения. Любитель триллеров, скорее всего, покупает книги, в которых описаны пытки, шпионаж, проверки алиби, – потому что стремится попасть в мир, где людям угрожают, преследуют их и убивают. Соответственно, триллеры, не создающие атмосферу нависшей угрозы, вряд ли будут иметь успех. Триллер, посвященный рыбалке и термопечати на футболках, скорее всего, не захватит воображение читателя. Как читательница любовного романа жаждет читать о любви, так читатель триллера хочет читать в основном о преступлениях. Мораль ясна: если мы хотим понять, почему та или иная тема имеет успех у читателей, то нужно думать о том, как она действует на нас и совпадает ли это воздействие с нашими желаниями. Иными словами, совет Кинга «писать о том, что знаешь, плюс любовь, секс, работа и отношения» нуждается в существенном уточнении.
При построении компьютерной модели мы рассчитывали на то, что, исследуя темы подробней, чем это доступно обычному человеческому восприятию, мы сможем прийти к более глубокому пониманию тем, постоянно присутствующих в списках бестселлеров. И мы оказались правы. Поскольку в распоряжении писателя – все темы на свете, легко предположить, что бестселлеры – это книги про «секс, наркотики и рок-н-ролл». Но выяснилось, что это не так. Далеко не так.
Секс, наркотики и рок-н-ролл
Секс 0,001 %
Наркотики 0,003 %
Рок-н-ролл 0,001 %
Эти крохотные доли процента отражают присутствие каждой темы (в среднем) в современных романах из нашего корпуса текстов. Вероятно, эти показатели потрясли вас до глубины души. Сейчас мы объясним, почему они настолько низки, и, возможно, потрясем вас еще раз. Если взять набор из 500 тем и проследить их по всему корпусу из 5000 текстов, среди которых есть 500 бестселлеров, то в среднем описания секса в них будут занимать всего около одной тысячной доли процента. Если затем измерить тот же показатель (чуть позже мы объясним, как это делается) только среди бестселлеров, окажется, что доля секса в них еще ниже – 0,0009 %.
Удивительно. Кто бы подумал, что секс – не двигатель продаж? Когда мы об этом рассказываем, нам до сих пор не верят. Истина заключается в следующем: секс (точнее, эротическая литература) продается, причем в немалых количествах, но лишь на определенном, нишевом рынке. Книги этого жанра редко вырываются на основной рынок, который создает бестселлеры. Мы знаем, что вы сейчас подумали: «А как же “Пятьдесят оттенков серого”?» Этот роман (или эти романы, если говорить о всей трилогии) – чрезвычайно редкий пример эротического произведения, попавшего в бестселлеры. В следующей главе мы объясним причины этого успеха – и окажется, что они не имеют отношения к собственно сексу.
Вопреки видимости (учитывая навязчивое присутствие темы секса на ТВ, в кино и СМИ) читающая публика США в последние тридцать лет явно предпочитает другие темы. Сочетание тем, характерное для современного бестселлера, дает основания предположить, что современный читатель ждет от книги чего-то большего, нежели потакание самым низким инстинктам.
Но откуда мы это знаем?
В 1957 году лингвист Джон Руперт Фёрс сказал: лучший способ понять слово – это познакомиться с его соседями. Проще говоря, значение слова раскрывается через контекст, в котором оно употреблено. Слова «секс», «наркотики» и «рок-н-ролл», фигурирующие в названии этого раздела, можно было бы понять соответственно как сокращение слова «секстет», «обезболивающие средства» и «акробатические танцы» – но вы знаете, что в данном контексте имелось в виду не это, именно потому, что каждое из слов придает определенный оттенок смысла своим соседям. Возьмем другой пример – слово «три». Оно может означать числительное, а может – повелительное наклонение глагола [48] . Чтобы различать эти два случая, компьютер нуждается в специальном обучении – по принципу, сформулированному Фёрсом семьдесят лет назад. Компьютер должен рассматривать каждое слово в контексте окружающих его слов в ближайших предложениях. Алгоритмический метод для формализации такого рассмотрения слов в контексте в больших объемах называется моделированием тем [49] .
48
В отдельных случаях примеры адаптированы для русского читателя. (Примеч. ред.)
49
Мы использовали латентное размещение Дирихле – алгоритм моделирования тем, предложенный Дэвидом Блеем, сотрудником Колумбийского университета. Слово «латентный» в названии метода Блея отражает то, что некоторые темы могут присутствовать в тексте в неявном виде. (Примеч. авторов.)
Математический аппарат, задействованный в моделировании тем, весьма сложен, но его общие принципы достаточно просты. Каждый роман представляет собой комбинацию тем, а эти темы выражаются словами (в первую очередь – существительными). Например, в книге о финансах, скорее всего, встретятся слова «банки», «проценты», «деньги», «фидуциарный». В другой книге, посвященной домашнему консервированию, мы увидим слова «банки», «крышка», «огурцы» и «укроп». Слово «банки» попадается в обеих книгах, но, рассмотрев другие существительные, стоящие рядом с каждым вхождением этого слова, компьютерная модель регистрирует повторяющиеся закономерности и может понять – подобно читателю-человеку, – что в разных местах слово «банки» имеет разные значения [50] . Очевидно, что слово «банки» само по себе еще не тема, но, когда оно постоянно попадается рядом с другими словами, которые (как нам уже известно) связаны с финансами, мы понимаем, что компьютер обнаружил в книге тему денег. Аналогично, если «банки» окружены «огурцами» и «пряностями», мы знаем: компьютер обнаружил тему домашних заготовок. При написании этой книги мы проводили моделирование тем, и одна из тем, обнаруженных компьютером, выглядела так, как показано на рис. 1.
50
В 8-й главе своей книги «Macroanalysis: Digital Methods and Literary History» (UIUC Press, 2013) Мэтт более подробно описывает алгоритм моделирования тем. В 13-й главе своей книги «Text Analysis with R for Students of Literature» (Springer, 2014) Мэтт объясняет читателям, как проводить моделирование тем на алгоритмическом языке R (и как создавать словесные облака, которые вы увидите на этих страницах). Мэтт также опубликовал несколько объяснений для неспециалистов у себя в блоге (www.matthewjockers.org), в том числе: «The LDA Buffet is Now Open; or, Latent Dirichlet Allocation for English Majors» (29.09.2011) и «“Secret” Recipe for Topic Modeling Themes» (12.04.2013). (Примеч. авторов.)
Рис. 1
Эта тема посвящена барам – не единицам измерения, а заведениям, куда заходят выпить рюмочку. Значение этого слова вполне прозрачно. На нашей визуализации в виде облака слова изображены шрифтом разного размера: чем крупнее шрифт, тем чаще это слово попадается рядом со словом «бар». Это очень логично. Слова, непосредственно окружающие центральное слово «бар», – «бармен», «выпить», «виски», «пиво» – дают нам уверенность в том, что если компьютер нашел все эти слова в пределах одной-двух страниц, то действие разворачивается в обычном местном баре.
Не все темы, обнаруженные компьютером, так легко интерпретировать. Иногда требуются познания в литературе и дар рассуждения. Время от времени приходится распознавать необычный язык, сконструированный автором фантастической саги, или малоизвестный диалект. Если тема составлена из таких слов, как аск, уолл на уолл, боллзы и амбрелла, вы будете долго напрягать брейнз [51] , пока не догадаетесь, что все это – сленг из романа Энтони Берджесса «Заводной апельсин». Однако гораздо чаще тематическое облако выглядит примерно как на нашем рис. 2.
51
A Clockwork Orange, Anthony Burgess. Использован перевод «Заводного апельсина», сделанный Е. Г. Синельщиковым.
Рис. 2
Такие существительные, как глаза, рот, рука, голова, говорят о том, что тема имеет какое-то отношение к телу. Однако просто тело – недостаточно конкретное название. Тело может фигурировать, например, в описании сцены убийства, но это явно не наш случай. Образующие контекст слова на самом краю облака – поцелуи, наслаждение, улыбка, дыхание, постель, ритм, жар – указывают на то, что эта группа существительных описывает любовную сцену. Но это тоже слишком общее выражение. Любовные сцены бывают разные. Большинство писателей утверждает, что правильно описать секс – нелегкая задача, за которую они берутся безо всякого удовольствия. Каждый автор решает ее по-своему, с большим или меньшим успехом. В данном случае нужно заметить, что выбор слов указывает на довольно сдержанный стиль писателя – он явно не злоупотребляет грубостью или откровенностью. Словесные облака, созданные из описаний любовных сцен, показывают, что эти описания сильно различаются: от таких, которые можно не смущаясь читать вслух собственной бабушке, – до таких, какие выдержит лишь закаленный читатель.
Благодаря алгоритму моделирования тем мы получаем два важных результата. Во-первых, компьютер сообщает, какие темы есть в нашем корпусе текстов (в том числе – какие слова составляют каждую из них; примеры мы только что видели в словесных облаках слов «бар» и «тело»). Во-вторых, компьютер определяет долю содержания каждой темы в каждой книге. Мы задали список из пятисот возможных тем, так что вариации тематического состава могут быть огромны. Узнав эти пропорции, мы можем начать поиск закономерностей, типичных для бестселлеров. Это нечто вроде обратного конструирования. Возьмем в качестве метафоры тарелку супа. Компьютер сначала делит его на составляющие – мясо, бульон, капуста, лук, специи, – а затем тщательно измеряет количество каждого ингредиента.