Код бестселлера
Шрифт:
4. «Черный ящик»
Эта книга – не про алгоритмы. Мы расскажем об основных параметрах, которые научились вычислять, и опишем в общих чертах наш метод, но перед вами не пособие по машинному обучению, автоматическому поиску документов или обработке естественного языка. По этим темам существует множество хороших учебников, а мы пишем о книгах, в основном о бестселлерах [43] . Мы хотим, чтобы вы задумались о себе как читателе или писателе, о задачах литературы, об авторах, которых вы любите или ненавидите, и даже об отношениях человека и машины. Мы расскажем вам о множестве результатов и интерпретаций того, как компьютеру удалось или не удалось определить бестселлеры и чему это нас научило, но мы будем говорить про «Щегла» [44] и «Исчезнувшую», а не про латентные размещения Дирихле или, к примеру, распознавание именованных сущностей. Эти (загадочные для непосвященных) методы были важны для проделанной нами работы, и без них мы не справились бы, но это лишь инструменты: живописец рисует кистью, но он не рисует саму кисть.
43
Многие методы, упомянутые в данной книге, описаны в учебнике авторства Мэтта «Text Analysis with R for Students of Literature». Этот учебник представляет собой вводное пособие в анализ текста и извлечение данных и предназначен для читателей, не имеющих подготовки в области компьютерных наук. Другая книга Мэтта, «Macroanalysis: Digital Methods and Literary History», содержит подробное описание методов, использованных нами в данной работе, в том числе моделирования темы (обсуждается во 2-й главе) и стилеметрии (в 4-й главе). Для тех, кому нужно еще более подробное описание методов, лежащих в основе наших исследований, мы рекомендуем труд Christopher Manning, Prabhakar Raghavan и Hinrich Schutze «Introduction to Information Retrieval» издательства Cambridge University Press, а также Gareth James, Daniela Witten, Trevor Hastie и Robert Tibshirani «An Introduction to Statistical Learning» издательства Springer. Обе эти книги требуют некоторого знакомства с предметом, но вместе они дают полный и очень хорошо написанный обзор дисциплин анализа текста и машинного обучения. (Примеч. авторов.)
44
The Goldfinch, Donna Tartt.
2. Крестные родители, или Почему важно находить время друг для друга
Входя в книжный магазин, первое, что видишь, – столы с новыми книгами. Теперь вы знаете: чаще всего это значит, что за многие из них, если не за все, кто-то хорошо заплатил, чтобы они первыми попались вам на глаза. Это произведения самых разных жанров – романы, автобиографии, кулинарные книги, триллеры, однако остальная часть магазина организована по категориям. Если вы любите читать беллетристику, то знаете, что в магазине обычно есть отдел прозы, где размещаются по алфавиту классические и современные авторы, а также отделы жанров с соответствующими табличками – например «Любовный роман» или «Научная фантастика». Мы так привыкли к подобному размещению книг в магазине, что, кажется, нашли бы нужную с закрытыми глазами.
Расположение книг как в магазинах сети Barnes & Noble, так и в любом онлайн-магазине продиктовано убеждением, что самая главная характеристика книги – это ответ на вопрос: «О чем она?» На этом построено все книжное дело. Каждой книге, опубликованной традиционным образом, присваивается один или несколько кодов тематики по классификации BISAC [45] . Они устанавливаются Группой исследования книжного дела (BISG) – ассоциацией, ответственной за создание и поддержание стандартов в отрасли. Этих кодов тысячи; для одной беллетристики их существует 152, и они определяют, в какую категорию попадет книга, как она будет выставлена на полке и как будет продаваться. Коды очень подробно описывают содержание книги – например «исторический любовный роман с участием викингов».
45
Сокращение расшифровывается как «Стандарты и обмен информацией в книжном деле».
Для других характеристик, тоже важных читателю, – например книги со счастливым концом, книги, выжимающие слезу, книги, действие которых разворачивается в Токио, книги с участием пожарных, принцесс или монахинь, – такой всеобъемлющей системы классификации не существует. Нет кода, который бы указывал, является ли стиль книги минималистским (как у Хемингуэя), или более сложным (как у Дэвида Фостера Уоллеса). По расположению томика в определенном отделе магазина вы не узнаете, какого пола главный герой, стар он или молод, происходят ли описываемые события в Лондоне или в Гонконге.
В принципе, можно сказать, что самая важная информация о книге – это ответ на вопрос: «О чем она?» Если вы советуете подруге, что почитать, или если вы сами писатель и упомянули свою книгу в разговоре, вас тут же спросят: «О чем она?» Очень редко (если вы пишете исключительно биографии) у вас могут поинтересоваться, о ком она, или где происходит действие, или в какую эпоху. В первую очередь людей интересует тема. Поэтому возникает вопрос: существует ли беспроигрышная тема?
Наш компьютер считает, что такие темы есть, и авторы книг-блокбастеров с ними согласны. В своем труде «Как писать книги» [46] – одном из популярнейших среди вышедших за последние годы пособий по писательскому ремеслу – жанровый автор Стивен Кинг советует начинающим романистам взять хорошо знакомую им тему, а потом добавить «собственные знания о жизни, дружбе, отношениях, сексе и работе. Особенно о работе. Люди обожают читать о работе – бог знает почему». Это любопытное наблюдение насчет работы многое говорит о нашей культуре – и в данном случае наш компьютер более-менее согласен с ним. По поводу отношений Кинг тоже оказался прав. Впрочем, в том, что касается секса, он, как ни удивительно, ошибается (мы скоро вернемся к этой теме), и еще он играет дурную шутку с начинающими писателями, сообщая им, что «сантехники в космосе» – неплохой сюжет, который привлечет читателя. Не верьте.
46
On Writing: A Memoir of the Craft, Stephen King.
Конечно, эта работа Кинга написана увлекательно и бойко, а его слова согласуются с мнением других писателей по поводу тематики. Но в конечном счете его советы оказываются не очень полезными. Такая скупость в советах начинающим писателям со стороны одного из самых коммерчески успешных авторов последнего столетия, вероятно, объясняется его убеждениями, которые он также выражает в своей книге. Во-первых, он пишет, что «беллетристы, и я в том числе, сами не очень понимают, что делают, – они не знают, почему у них вышло хорошо, если книга оказалась хорошей, или плохо, если она оказалась плохой». Эти слова, вероятно, продиктованы скорее скромностью, чем стремлением к истине, но от писателя с таким живым воображением вряд ли можно ждать аналитического разбора того, что приходит к нему само собой (в данном случае – нужные темы, взятые в правильной пропорции, так что результат привлекает массового читателя со всех концов света). Во-вторых, Кинг пишет, что преднамеренно выбирать кассовую тему – «моральная нечистоплотность». Это заявление тоже, скорее всего, продиктовано более скромностью, нежели правдивостью. Вряд ли авторы-мультимиллионеры не думают о том, какие темы будут иметь спрос, – особенно когда знают, сколько экземпляров книги нужно продать, чтобы оправдать ожидания издателя. Кроме того, это нечестно со стороны Кинга – обзывать морально нечистоплотным писателя, который разбирается в читательском спросе и хочет работать именно с популярными темами.
Мы здесь не для того, чтобы хвалить или порицать выбор автора с точки зрения морали. А также не для того, чтобы объявлять один роман хорошим, а другой плохим или одну тему более достойной для разработки, чем другая. Мы предоставляем этический выбор в процессе творчества самим творцам, а обязанность их судить – критикам. Наша же задача как литературоведов – находить новые ответы на вопросы и выводить на свет скрытые истины, надеясь, что в результате нечто смутное и неуловимое станет более понятным. Чтобы таким образом прояснить роль темы в литературе, мы сначала должны провести четкую грань между темой книги и ее предметом и показать, как они взаимодействуют, творя произведения удивительного искусства – словесности.
Зачем мы читаем?
Вспомните себя в старших классах школы. Впервые в жизни перед вами стояла задача – прочитать книгу и увидеть ее глазами литературного критика. Скорее всего, это были «Повелитель мух» или «Убить пересмешника» [47] . Вы помните, что вас просили определить разницу между темой и предметом. Вероятно, учитель искал добровольца, готового ответить на вопрос: о чем роман Уильяма Голдинга «Повелитель мух»? Нас, во всяком случае, об этом спрашивали – мы помним. Но вопрос был, разумеется, с подвохом. Тогдашние мы могли бы сказать, что эта книга – о группе мальчиков, оказавшихся на необитаемом тропическом острове; о том, как они самоорганизуются, выживают; как группа делится на фракции, одна из которых становится агрессивной и доходит до убийства. Темы романа – английские мальчики, необитаемые острова, охота, постройка хижин и т. д. Но наши учителя на этом не остановились. Они хотели научить нас более глубокому пониманию прочитанного. Они хотели, чтобы мы заметили «большие вопросы» в романе, те, которые касаются движений человеческой души, – вероятно, именно в их трактовке и состоит послание Голдинга читателю. Двигаясь в этом направлении, мы могли бы заключить, что «Повелитель мух» на самом деле о споре, что важнее – природа или воспитание, или о борьбе добра и зла, или о дружбе, или о том, к чему склонны люди в изолированной группе – скатятся ли они к состоянию дикарей или останутся цивилизованными. Если вы были способны все это сформулировать на уроке литературы, то, скорее всего, получили пятерку. Возможно, даже пятерку с плюсом – если смогли показать, как с помощью раскрытия тем, в основном благодаря подбору существительных и их употреблению в определенных повторяющихся группах, Уильям Голдинг, согласно своему замыслу, наглядно демонстрирует читателю общечеловеческие истины.
47
To Kill a Mockingbird, Harper Lee.
Теперь подумайте немного о том, почему вы читаете именно то, что читаете. В книжном деле царит убеждение, что читатели выбирают книгу из-за темы. Это даже кажется очевидным. Если вас спросят, какие книги вы любите, вы ответите: «про преступления», «про войну», «про секс», «про рыбалку». Это особенно заметно в нехудожественной литературе: люди читают книги по определенным темам. Самые популярные из них – еда и бизнес. Но многие читатели художественной литературы на самом деле объясняют свой выбор совсем другими причинами. Если вы спросите читателя, по какому принципу он выбирал последний прочитанный им роман, то в ответ можете услышать:
«Я выбрал эту книгу, потому что она про холокост».
«Я выбрал эту книгу, потому что мне сказали, что на ней душа отдыхает».
«Я слышала, что это замечательный новый автор».
«Я же читаю все новые романы Стивена Кинга!»
Иногда читатели объясняют свой выбор регалиями книги: «Я хотел прочитать новый роман Адама Джонсона, которому дали Пулитцеровскую премию». Порой – тем, что они собираются в отпуск в Париж, а действие выбранной книги происходит именно там, или тем, что после разрыва с любимым человеком хотелось почитать что-нибудь сентиментальное. Ну и разумеется, выбирают роман, «потому что он был в списке бестселлеров NYT». Мы понимаем, что тема – не единственный стимул читательского интереса. Однако она является важнейшим фактором в книжном деле, к тому же в ней заключены возможности развития каждого конкретного сюжета. Поэтому в данной главе мы выделим вопрос темы и покажем, как с помощью компьютера можно определить ее роль в создании бестселлера.
Ощущения при чтении романа вызываются исключительно словами, расставленными в определенном порядке. Слова – это «кирпичики», строительный материал языка. Многие из них – существительные, а подбор существительных в определенных пропорциях становится инструментом, с помощью которого авторы раскрывают определенные темы, а через них – предмет книги. Именно свойственное автору чувство меры и его умение соблюсти деликатный баланс в раскрытии темы мы можем исследовать с помощью компьютерного анализа. Компьютер помогает понять, как писатель использует инструменты, чтобы вызвать у читателя те или иные переживания.