Чтение онлайн

ЖАНРЫ

Код бестселлера
Шрифт:

Эта работа над определением авторства и «стилеметрией» убедила Мэтта в том, что компьютеры видят многое и помогают нам обнаружить в тексте то, чего мы обычно не замечаем. Дальнейшие исследования позволили Мэтту создать компьютерную программу, которая с точностью 82 % определяла пол автора всего лишь по его или ее манере использовать самые простые слова английского языка, такие как the [28] и of [29] . Мэтт не первым заметил, что у авторов-мужчин и авторов-женщин – разные стилевые привычки, но в своей работе он сосредоточился исключительно на романах XIX века. Затем он обнаружил, что, опираясь лишь на использование слова the, компьютер может достаточно уверенно определить, английский это писатель или американский.

28

Определенный артикль в английском языке.

29

Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «из», «от» и др. (Примеч. перев.)

Реакцию Джоди можно примерно описать словами «Ну и что?». Конечно, очень интересно, что компьютер может отличить британца от американца, но это – искусственная задача, решение которой никому не интересно. Чтобы убедиться в могуществе компьютерного метода, Джоди хотела увидеть, как с помощью машин решаются настоящие литературоведческие задачи. Мэтт же, в свою очередь, был не в восторге от того, что Джоди зациклена на современных бестселлерах. Он считал их одноразовыми поделками – прочел и забыл. Его надо было убедить, что в них скрыто золото, которое оправдает труды старателя.

Все это было несколько лет назад. С тех пор мы объединили свои силы и бросили их на доказательство следующей гипотезы: все бестселлеры характеризуются определенным набором скрытых сигналов, неким тайным кодом. Вместо того чтобы угадывать, какая книга окажется популярной, мы решили довериться тому, что читатели уже поняли, сами того не заметив. Список бестселлеров лишь на первый взгляд кажется случайной подборкой непохожих друг на друга книг – на самом деле это еженедельно обновляемый набор сигналов, на зов которых идет читатель, и этот набор постоянно уточняется посредством коллективного голосования. Учит ли чему-нибудь глас читающего народа? Смогут ли наши компьютеры выделить сигнал из этого шума? Есть ли у этих броских обложек – будь то высокоинтеллектуальные романы из университетской программы или чтиво для пляжа – что-нибудь общее?

Если ответ «да», то мы сможем узнать кое-что об анатомии успеха. Мы сможем даже опровергнуть распространенную в книжном мире теорию и создать алгоритм, позволяющий предсказать, станет ли та или иная книга бестселлером.

Итак, мы начали обучать компьютер чтению.

Машинное чтение

Конечно, компьютеры на самом деле не умеют читать, во всяком случае – в том смысле, в котором вы читаете эту страницу. Но можно также сказать, что они умеют читать в том смысле, в каком они умеют делать все остальное – они «считывают» текст, то есть принимают его в качестве входной информации. Затем они проводят разбор, то есть разбивают текст на единицы, которые мы, люди, считаем осмысленными: буквы, запятые, слова, предложения, главы и т. д. На этой стадии компьютер в значительной мере подражает человеку, и чем совершенней была обучающая программа, тем точнее подражание. Разница между читателем-человеком и читателем-машиной заключается в том, что человек понимает значение читаемого текста, а компьютер – нет. Ирония здесь, однако, в том, что компьютерный способ чтения позволяет нам вглядеться в текст пристальней любого самого опытного литературного критика. Все потому, что компьютеры – мастера различать детали в таком мелком масштабе, какой человеку и не снился.

Вспомним вопрос, с которого началось наше исследование. Можно ли предсказать заранее, что та или иная книга станет бестселлером? Чтобы предсказывать, нужно уметь обнаруживать закономерности. Если вы не умеете гадать на картах, то вся ваша надежда – на способность распознавать определенные характеристики текста. Обычно такими вещами занимаются литературные критики и ученые-литературоведы. Джозеф Кэмпбелл, великий специалист по мифологии, всю жизнь читал мифы и легенды разных народов мира и научился видеть в них схожие мотивы. Он был мастером по распознаванию повторяющихся узоров. Но даже если человек всецело предан своему делу, объем текстов, которые он может переработать, конечен, и столь же ограниченно внимание, с которым он исследует каждую отдельную книгу. Следовательно, в обоих направлениях мы сталкиваемся с ограничениями масштаба и как будто вынуждены одним глазом смотреть в микроскоп, а другим – в телескоп.

Еще один ученый, обладающий завидным трудолюбием, – Кристофер Букер – потратил тридцать лет на чтение сотен книг, чтобы выдвинуть следующую теорию: все литературные произведения и вообще все истории соответствуют семи основным сюжетам. Допустим, он трудился сорок лет и прочел тысячу книг. Допустим также, что из прочитанного он запоминал гораздо больше, чем средний человек. Но кластер компьютеров, обученных надлежащим образом, может прочитать несколько тысяч романов и проанализировать все эти тексты по тысяче параметров примерно за один день. При этом компьютеры обладают невероятной способностью замечать то, что мы, люди, принимаем как должное или вообще игнорируем.

Вот лишь один пример. Как читатели – особенно читатели, обученные пристально вглядываться в текст, – мы отмечаем прилагательные, которые использует писатель. Но, скорее всего, не обратим внимания на соотношение числа существительных и прилагательных, то есть на то, как часто автор использует прилагательное для описания существительного. А вот компьютер прекрасно приспособлен для того, чтобы замечать именно такие вещи – и они важны, поскольку определяют авторский стиль и манеру описаний. Компьютер может также вычислить это соотношение для данной книги и сравнить с тем же показателем у тысячи других книг. Если окажется, что у бестселлеров этот показатель в среднем выше (или ниже), значит, данный параметр имеет какое-то значение.

Предлагаю вам проделать небольшой эксперимент, когда будете в следующий раз выбирать книгу для чтения. Вместо того чтобы последовать рекомендации друга или выбрать книгу знакомого автора (или в любимом жанре), попробуйте взять недельный список бестселлеров NYT и прочитать их все по очереди. Можете это сделать вместе с книжным клубом, в котором состоите, или всей группой на курсе английской литературы. Если вы будете читать внимательно, то скоро уподобитесь нашим компьютерам и начнете замечать неожиданные параллели между литературными шедеврами и массовым чтивом, книгами «для мужчин» и «для женщин», Паттерсонами и пулитцеровскими лауреатами и т. п. Некоторые общие мотивы вас удивят. Например, вы зададитесь вопросом: почему так много книг, в которых главной героине двадцать восемь лет? Имеет ли это какое-то значение? Вы спросите себя, сознательно ли авторы помещают первую любовную сцену на страницу 200, если в романе 400 страниц, или на страницу 110, если страниц 220. Если да, то почему? Вы будете спорить с друзьями о том, определяется ли низкое качество романа, в остальном очень хорошего, отсутствием удовлетворительной развязки. Возможно, вы даже придете к выводу: бестселлеры всех категорий имеют столько скрытых общих черт, что фактически представляют собой отдельный жанр.

Интересно здесь то, как остро и притом незаметно для себя люди во время чтения реагируют на подобные характеристики книги. Специалисты из новой, стремительно развивающейся области «литературной неврологии» используют ЯМР-томографию для исследования мозга человека во время чтения. Эксперимент направлен на выявление того, что замечает читатель. Когнитивная психология подходит к вопросу «как читает читатель?» совершенно под иным углом, чем мы, но оба подхода базируются на одном постулате: отклик читателя на литературный текст зависит от того, из каких слов состоит этот текст, в каком порядке они выстроены и как организованы в предложения. И какую реакцию они вызывают.

Значит, использование компьютерного чтения никак не противоречит обычному подходу литературных критиков. Более того, рассмотрение характеристик текста «под лупой», их извлечение и последующий анализ очень часто используются в традиционных критических подходах и позволяют получить представление о тексте на уровне, который был невозможен раньше.

Компьютер можно научить читать текст и извлекать из него информацию множеством способов [30] . Алгоритмы и программы, созданные нами для данного исследования, направлены на обработку текстов и сбор детальной информации (о неповторимом стиле каждой книги, ее тематике, эмоциональных подъемах и спадах в повествовании, персонажах, местах действия). Также эти программы обрабатывают огромное количество скучных на первый взгляд лингвистических данных, которые не так просто перевести на язык привычных концепций стиля и сюжета. При обработке художественных произведений большого объема, какие обычно изучаются на курсах писательского мастерства и в пособиях для начинающего романиста (тема, сюжет, стиль и т. д.), обычно анализируются сотни параметров. Например, чтобы дать формальное описание стиля, мы использовали несколько сотен переменных: как часто у автора попадаются слова типа a [31] , the, in [32] , she [33] ; как часто автор использует точки и восклицательные знаки; как часто – наречия и какие именно. Эти мелкие детали так много говорят читателю! Посмотрите, как важны местоимения для создания эффекта в знаменитой фразе из романа Шарлотты Бронте «Джейн Эйр» [34] : «Читатель, я вышла за него замуж». Компьютер обращает внимание на слово «него», на то, как часто мы слышим про «него» и как часто это местоимение встречается рядом с самым главным местоимением – «я» рассказчицы. Компьютер замечает, что «я» и «он» попадаются все ближе друг к другу во все большем количестве предложений, и их разделяет все меньше и меньше слов. Конечно, читатель тоже следит за этим. Разве главная развязка множества книг не заключается в том, чтобы «я» и «он» пошли по страницам рука об руку, разделенные лишь немногими важнейшими словами, такими как «вышла за»? Очень часто мы, не в силах оторваться от книги, продолжаем листать ее исключительно ради этого.

30

Общее описание нашего метода содержится в послесловии. (Примеч. авторов.)

31

Неопределенный артикль в английском языке.

32

Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «в», «через» и др. (Примеч. перев.)

33

Она (англ.).

34

Jane Eyre, Charlotte Brontё.

Вопросительные и восклицательные знаки тоже многое могут поведать. Возможно, вы помните, как писали сочинения в школе и как учитель советовал вам не злоупотреблять восклицаниями. Если каждая фраза визжит от возбуждения («О боже!»), или командует («Руки вверх!»), или кричит от боли («Ой!»), или жутко грохочет в подвале среди ночи («Бу-бух!»), то у читателя, не ровен час, может случиться сердечный приступ. Если текст изобилует восклицательными знаками, это кое-что говорит как о его возможном содержании и уровне накала страстей, так и о профессионализме автора. Аналогичным образом обилие вопросительных знаков указывает на то, что этот текст – диалог, а бесконечные страницы текста без единого вопросительного знака могут замедлить динамику повествования и притупить интерес читателя. Эти черты индивидуального стиля мы обсуждаем в 4-й главе.

Поделиться с друзьями: