Немедленно приходите на Бейкер-стрит. Если я не успею вернуться, подождите меня.
Ш.Х."
Я был немало удивлен, увидев, что текст письма отпечатан типографским способом. Еще по делу Баскервилей я помнил, что слова можно вырезать из газетного текста и наклеивать на бумагу. Но по содержанию текста было видно, что он написан Холмсом. Как же он успел его отпечатать в типографии?! Хотя известны такие прецеденты, когда многостраничные речи наших лидеров выходили в свет многомиллионными тиражами на следующий же день после выступления. Но здесь-то всего один экземпляр! Какие же расходы понес Холмс и, главное, зачем? Чтобы меня удивить? Закончив свои дела, я поспешил на Бейкер-стрит.
К счастью, Холмс оказался дома. Как всегда, он сидел за клавиатурой своего компьютера. Увидев меня, он пригласил сесть в кресло у камина.
В характере моего друга Холмса меня часто поражала одна странная особенность: хотя в своей умственной работе он был точнейшим и аккуратнейшим из людей, а его одежда всегда отличалась не только опрятностью, но даже изысканностью, во всем остальном это было самое беспорядочное существо в мире и его привычки могли свести с ума любого человека, живущего с ним под одной крышей.
Не то чтобы я сам был безупречен в этом отношении. Сумбурная работа в Афганистане, еще усилившая мое врожденное пристрастие к кочевой жизни, сделала меня более безалаберным, чем это позволительно для врача. Но все же моя неаккуратность имеет известные границы, и когда я вижу, что человек держит свои сигареты в ведерке для угля, табак - в носке персидской туфли, а письма, которые ждут ответа, прикладывает перочинным ножом к деревянной доске над камином, мне, право же, начинает казаться, будто я образец всех добродетелей.
Однако больше всего меня мучили бумаги Холмса. Он терпеть не мог уничтожать документы, особенно если они были связаны с делами, в которых он когда-либо принимал участие, но вот разобрать свои бумаги и привести их в порядок - на это у него хватало мужества не чаще одного-двух раз в год. Где-то в своих бессвязных записках я, кажется, уже говорил, что приливы кипучей энергии, которые помогали Холмсу в замечательных расследованиях, прославивших его имя, сменялись у него периодами безразличия, полного упадка сил. И тогда он целыми днями лежал на диване со своими любимыми книгами, лишь изредка поднимаясь, чтобы поиграть на скрипке. Таким образом, из месяца в месяц бумаг накапливалось все больше и больше, и все углы были загромождены пачками рукописей. Жечь эти рукописи ни в коем случае не разрешалось. Ничего не изменилось и после приобретения им персонального компьютера. Более того, бумаг стало больше, так как мой друг любил распечатывать свои программы и результаты обработки в нескольких экземплярах.
Не удивила ли вас моя записка? - спросил меня Холмс.
Удивила. Признайтесь, вы ее отпечатали в "Таймс".
Нет, Ватсон, я ее написал вот за этим столом.
Как написали?! Ведь записка отпечатана типографским способом.
Я и говорю, здесь я пишу свои книги, письма и записки.
Но на столе из-за этого компьютера нет даже места для листка бумаги!
Ватсон! В век информатики технически прогрессивные писатели пишут уже не гусиным пером, не китайской ручкой с золотым пером, не японским фломастером с тончайшим стержнем, а набирают текст на клавиатуре персонального компьютера. Вот на этом столе вы видите настольную издательскую систему.
Но, мистер Холмс! Я сразу не разглядел, но сейчас вижу - это тот же персональный компьютер, который вы мне уже показывали. Так все-таки что это - персональный компьютер или настольная издательская система?
Ватсон, почему союз "или"? Нужно употреблять союз "и" - это и персональный компьютер, и одновременно настольная издательская система. Правда, не любой компьютер может выполнять функции издательской системы. Кроме лазерного принтера, специального программного обеспечения может понадобиться и специальный блок - сканер.
Что же побудило вас приобрести эту издательскую систему? Дань моде?
С отроческих лет я хотел попробовать себя в литературе. И вот однажды я купил несколько пачек писчей бумаги, коробку гусиных перьев и пузырек чернил и стал подыскивать подходящую тему. Я искал ее несколько недель, и к этому времени выяснилось, что, постоянно грызя перья, я уничтожил их изрядное количество и извел столько чернил на кляксы, брызги и не имевшие продолжения начала, что чернила имелись повсюду, только не в пузырьке. Сам же роман не двигался с места, легкость пера, столь присущая мне в юности, совершенно исчезла - воображение бездействовало, в голове было абсолютно пусто. Как я ни старался, я не мог подстегнуть бессильную фантазию, мне не удавалось ни сочинить единого эпизода, ни создать хотя бы один персонаж.
Тогда я по совету миссис Хадсон решил купить настольную издательскую систему. Вот взгляните на этот лазерный принтер. Он имеет разрешение 118 точек на сантиметр и позволяет мне отпечатать в месяц 10-30 тысяч страниц. Я издаю мои труды в виде книг. Поскольку они предназначены для специалистов, то тираж в 100-500 экземпляров вполне достаточен.
И много вы пишете?
Есть грех, - рассмеялся Холмс. - Я написал несколько небольших работ. Вот одна из них: "Психологические аспекты меню". Здесь я показываю необходимость перехода от текстовых меню к графическим, к меню пиктограмм. Благодаря этому не только сокращается время поиска и повышается комфортность работы с компьютером, но и значительно расширяется класс людей, могущих практически без обучения сразу начать работать с системой.
Работа с пиктоменю понятна и школьникам, и детсадовцам, и даже людям, говорящим на иных языках. Причем пиктограммами можно выражать не только объекты, но и действия.
Видимо, именно поэтому в дорожных знаках и указателях в аэропортах, на вокзалах, на стадионах преобладают пиктограммы.
Верно, Ватсон. А вот еще одна из моих последних работ. Я думаю, вам как врачу она будет интересна: "Применение компьютера для восстановления лица по черепу".
Неужели такое возможно?
Уже есть такие программы.
Увидеть лица людей, умерших тысячи лет тому назад?! Фантастика!
Кстати, раз мы перешли к моим научным публикациям, хочу привести пример, достойный занесения в книгу рекордов Гиннеса. Так, чемпионом мира по количеству публикаций мог быть назван энтомолог Теодор Коккерел: за 67 лет он написал 3904 (!) статьи - в лучшие годы появлялось в печати по 2 статьи в неделю. На этом фоне, как вы видите, мой вклад в науку более чем скромен.
Мистер Холмс, а разве труд ученого измеряется количеством исписанных страниц?! Задача ученого - открывать закономерности, и в области криминалистики я не знаю вам равных. Но я боюсь вас обидеть, все-таки набор листов с лазерного принтера - это еще не книга! Извините меня за занудство, но терминологическая точность - превыше всего.
Да, вы конечно правы. Я забыл вам показать еще одно устройство. Вот это - переплетчик. Прямо здесь в этой комнате я переплетаю книги. Вот набор обложек.
А где вы держите гарнитуры шрифтов? Ведь это же громоздкая дорогая вещь!
Ватсон! Шрифты не в металле, а в программе. На одной дискете записаны все эти гарнитуры. Удобно!
Мистер Холмс, не понимаю, а в чем преимущества компьютера перед пишущей машинкой? Ведь и там, и здесь текст набирается на клавиатуре.
Ватсон! Здесь столько преимуществ! Перечислю только некоторые. Первое - это то, о чем я уже говорил, шрифты. Лазерный принтер заменяет 44 пишущие машинки! Во-вторых, все выводимые экземпляры являются первыми, т.е. высокого качества печати. В-третьих, можно редактировать текст - исправлять ошибки, заменять и переставлять слова, форматировать абзацы и целые страницы. В-четвертых, пишущая машинка позволяет работать только с текстом, а настольная издательская система работает и с рисунками. С помощью сканера я могу ввести в компьютер любую картинку, фотографию нашей королевы Елизаветы II из газеты "Санди Таймс" или этот отпечаток пальца, который я, помните, обнаружил на подоконнике, раскрыв одно из ужасных преступлений века.
А как же сканер сканирует?
В сканере оцифровка изображения осуществляется либо лазерным лучом, либо матрицей фотодиодов. В первом случае оцифровка поверхности оригинала выполняется путем сравнения интенсивностей опорного луча и рабочего, т.е. луча, отраженного от поверхности оригинала. Для контроля также экспонируется шкала серого того же интервала плотностей, что и оригинал, с числом уровней серого до 256.
Во втором случае в качестве осветителя используется флюоресцентная или гало-геновая лампа, а дискретизация изображения производится матрицей фотодиодов.
Кстати, Ватсон, раз речь зашла об иллюстрациях, не могу себе отказать в удовольствии совершить экскурс в XY век. Сейчас, издавая свои труды, я могу практически мгновенно вставить в титульный лист свой портрет. Для этого мне достаточно сесть перед видеокамерой и ввести в компьютер свое изображение. А дальше - дело техники. Другое дело раньше, в период изобретения книгопечатания. Тогда для получения иллюстрации необходимо было изготовить гравюру. Так, в XY веке ни художников, ни читателей не смущало, что один и тот же портрет изображал одного из библейских праотцов, затем всего несколькими страницами ниже - гомеровского героя, потом - римского поэта, немецкого рыцаря или восточного врача. И если это было возможно в столь роскошном, богато иллюстрированном издании, то читателей (а тем более издателей) и подавно не шокировало даже то, что клише от одного типографа переходили к другому, и подчас применялись для иллюстрации совсем других произведений. Такая иллюстрация в большей мере должна была напоминать читателю книги о том, что рассказывает текст, нежели знакомить его с подлинными чертами изображенного лица, свойствами предмета, расположением зданий и т.п.
Мистер Холмс, насколько я помню из истории, в первое столетие книгопечатания было выработано несколько типов шрифтов. Через 10-20 лет после появления курсива, примерно в 1510 году, он стал использоваться для выделения цитат.
Верно, Ватсон. У вас хорошая память! А знаете, сколько имеется шрифтов к настоящему времени?
Нет, не знаю.
Четыре тысячи! Такой же процесс наблюдается и при создании шрифтов для настольных издательских систем. Их количество достигает уже нескольких сотен! Но кроме ввода и изменения текста, форматирования абзацев и страниц, контекстного поиска и замены символов моя система обеспечивает и орфографический контроль слов в тексте. Система включает в себя лексикографическую базу, состоящую из списка основных словоформ языка (для имен существительных - единственное число, для глаголов - неопределенная форма). Все слова снабжены специальными пометками, определяющими их принадлежность к той или иной части речи и некоторые другие особенности, например: неизменяемая часть речи; употребление только в единственном или только во множественном числе. Словарь словоформ включает примерно 50 тысяч единиц, что занимает на диске около 300 Кбайт. Программы орфографического контроля включают специальные подпрограммы сжатия данных. Кроме этого словаря система позволяет мне составить свой личный словарь, состоящий из наиболее часто употребляемых слов, словосочетаний, имен собственных или специальных терминов. Для обеспечения наиболее быстрого доступа к данным, содержащимся в словаре пользователя, они хранятся только в кодах. Объем личного словаря обычно не превышает тысячи слов. Лексикографическая база составлена высококвалифицированным лингвистом.
А как же функционирует система?
Сначала она просматривает мой текст и выявляет те слова, которые не оказались в лексикографической базе. Затем эти слова высвечиваются на экране. Если это неологизмы - специальные термины, которых у меня очень много в литературе, или имена собственные, я могу либо не учитывать их, либо ввести в свой словарь. В том случае, если я сомневаюсь в правильности написания предъявленных слов, то по моему запросу может быть выдано несколько слов, наиболее похожих по написанию на неправильно написанные. В случае простой опечатки я могу сам внести необходимые изменения.
Все хорошо, одно плохо - проверка осуществляется только изолированных слов, рассматриваемых вне контекста. Преодоление этого возможно лишь при развитии для лексикографического контроля систем искусственного интеллекта.
Опять искусственный интеллект?! А как же естественный? Для него уже не останется места?
Да нет! Просто естественный интеллект должен быть выше искусственного. Лично мне он не грозит, а только помогает.
Холмс, а зачем вы вставили открытку в принтер?
Как же! На носу рождество!
Эх! Совсем забыл!
Что это вы так тяжко вздохнули, Ватсон?
Ну как же! Я должен поздравить всех моих знакомых. Каждому нужно написать открытку, заполнить адрес, искать почтовый ящик, да еще за месяц думать, как бы не позабыть кого-нибудь поздравить.
Так есть же компьютер! Никаких проблем.
А что компьютер? Все равно нужно набирать текст, исправлять ошибки.
Ну, если вам не интересна эта работа, то за полчаса управитесь. Зато на всю жизнь! Вот взгляните, вы, наверное, сразу не поняли, а эту открытку я сочинил сам для миссис Хадсон. Сам!
Что значит сочинил?
Придумал. В компьютере есть почти все необходимые заготовки. Есть наборы шрифтов, поздравительных текстов, изречения великих, анекдоты, есть набор картинок и инструментальные средства для работы с ними - склеивание, разрезание, наложение, масштабирование, поворот и т.п. Для меня составить открытку - увлекательная игра. Сразу вспоминаю свое детство, когда я, не умея рисовать, с помощью аппликации составлял различные картины-сюжеты. Здесь же работать еще интереснее. Я жду рождества, как ребенок - день своего рождения. Такой простор для фантазии!
Хорошо. А адреса? Нужно искать все эти почтовые индексы, названия улиц, номера домов. А эта пытка - все время писать один и тот же обратный адрес! Да мне проще заполнить десять историй болезни.
Спокойно, Ватсон, слушайте. Есть такая программная система Frame Work. На ее базе я организовал базу данных всех моих знакомых.
А их у вас много?
Достаточно! Больше трехсот. Так вот, взгляните на дисплей. Здесь столбцы являются атрибутами: вот фамилии и имена моих знакомых, вот - их пол, а здесь - адрес.
А зачем же вы разделили адрес на несколько атрибутов - почтовый индекс, город, улица-дом-квартира?
При этом, Ватсон, мне удобнее формировать шаблон печати для конверта. Так, теперь строки. На каждого знакомого по одной строке - это записи. У меня получилась такая большая таблица, что она не поместилась на экране. Здесь экран играет роль окна, с помощью которого я могу просмотреть любую часть таблицы.
Затем Холмс вывел на экран небольшой прямоугольник, внизу которого я прочитал обратный адрес Холмса.
А это макет конверта. Теперь смотрите, как я "надписываю" конверты.
Холмс аккуратно вставил конверт в принтер и стукнул по клавише Enter. Раздался тихий шелестящий звук, и конверт медленно выполз из принтера. Небрежным жестом Холмс передал его мне. На конверте прекрасным жирным шрифтом были отпечатаны фамилия, инициалы, индекс и адрес получателя. Внизу был изящно выведен курсивом обратный адрес Холмса. Прекрасно!
Да, осталась мелочь - вписать почтовый индекс в эти прямоугольники. Но я уже знаю, как автоматизировать и эту работу.
Холмс, нет слов! Потрясающе! Это не работа, а сплошное удовольствие. Может быть, мне тоже купить компьютер?
Если только для этой работы, то не стоит. Дайте мне список ваших знакомых, я организую для вас такую же базу данных.
Спасибо, Холмс. Вы даже не представляете себе, какой груз сняли с моих плеч!
Эх, Ватсон! Это же цветочки. Я сейчас вам покажу, что такое работа с текстовым процессором. С его помощью я могу определить, как часто используется в тексте то или иное слово.
В каком тексте?
Да в любом, лишь бы он был записан на машинном носителе. Правда, для получения устойчивых результатов длина текста должна быть достаточно большой. У меня есть доступ к текстам общей длиной 1 миллион словоупотреблений. Эти тексты состоят из художественной прозы (25 %), драматургии (25 %), научных и публицистических текстов (25 %), газетных и журнальных текстов (25 %). Набираю на клавиатуре, например, слово "жизнь". Видите, рядом появилось число - 1547. Столько раз оно встречалось в текстах.
Ну и что?
Пока ничего, не с чем сравнивать. Теперь наберем слово "смерть". Ага, всего 230 употреблений. Чувствуете?
А что я должен чувствовать?
Ну как же! Человечество в целом оптимистично. Слово "жизнь" почти в семь раз употребляется чаще, чем "смерть". Знаменательно! Или сравним такие антонимы, как "плохо" и "хорошо". Так, "плохо" - 212, "хорошо" - 832. И здесь хорошего больше, чем плохого. А "работа" и "отдых", как вы думаете, что чаще используется?
Я думаю, что "отдых". Ведь люди только и мечтают и говорят об отдыхе, отпуске, пенсии.
Нет, Ватсон, взгляните, "работа" встретилась 1103 раза, а "отдых" - всего 66. Почти в двадцать раз реже! Для человека самое главное все-таки работа.
Неожиданно. Хотя если бы я вспомнил пословицу "Делу время, потехе час", то был бы осторожнее в оценках. Мистер Холмс, извините меня, но мне кажется, что все это несерьезно, какая-то игра. Разные частоты употребления слов, ну и что?
Ватсон, чаще употребляются те слова, которые наиболее значимы для общества. И люди это давно знают. Вот прочтите абзац, который я подчеркнул здесь.
А что это за книга?
"Император" Р.Капуцинского. Читайте.
Я начал читать с абзаца, указанного Холмсом.
"Я тогда был титулярным советником отдела учета главного камергера двора... Наш отдел контролировал выполнение императорских инструкций о принципе очередности и частоте упоминания имен отдельных сановников и нотаблей. Этим наш господин вынужден был заниматься лично, ибо каждый сановник жаждал, чтобы его упоминали всегда и притом возможно ближе к имени властелина... Главный камергер велел завести на сановников формуляры упоминаний, чтобы фиксировать, сколько каждый из них был поименован, и составлять месячные отчеты, на основании которых достойный господин отдавал дополнительные распоряжения... Я же тотчас по смене кабинета оказался на улице, так как по непостижимой, но столь достойной наказания слепоте однажды не упомянул нового министра двора, господина Йоханныса Кидане, и тот так разгневался, что, несмотря на мои мольбы о милости, распорядился меня убрать".
Да, формуляры упоминаний, месячные отчеты. Кто мог подумать, что частоты упоминаний - это так серьезно?! Чем только раньше ни занимались!
Почему раньше? Подсчетом частот занимаются и сейчас. Вот как оценить масштаб ученого, какой он - известный, крупный или выдающийся? Здесь-то и помогают частоты упоминаний. Науковеды предложили для этой цели специальный индекс - индекс цитируемости, т.е. количество ссылок на труды того или иного ученого в публикуемых статьях. Ведь на основополагающую работу всегда ссылаются намного чаще, чем на незначительную, проходную. Но вернемся от имен собственных к простым словам. Сравним, частоты употребления слов, "слева направо". Так, набираем "СЛЕВА", ага - 60! А теперь "СПРАВА"... 59!
Почти одинаково. Что вы на это скажете, Холмс?
Скажу, что для нас мир симметричен, т.е. мы не отдаем предпочтения ни левой, ни правой стороне. Хотя, если вы помните, физический мир асимметричен. Кстати за это открытие авторы удостоились Нобелевской премии.
И не только физический мир. Известно, что большинство маленьких детей чаще поворачивают голову или все тело направо, а не налево.
Интересно, видимо, дело в асимметрии мозга?
Я не знаю, как этот факт интерпретировать. А сравните, пожалуйста, мистер Холмс, частоты употребления слов "МУЖЧИНА и ЖЕНЩИНА".
Так, набираем. Вот результат. "МУЖЧИНА - 110", "ЖЕНЩИНА - 429". Явная асимметрия.
Значит, женщины более важны в жизни человечества, чем мужчины?
Ну почему же человечества? Авторы текстов в основном мужчины. Следовательно, женщина важнее в жизни мужчины, чем мужчина. Кстати, таким же образом я выяснил частоты употребления единиц времени. Вот полюбуйтесь, какой график у меня получился на компьютере.
Пики на "год" и "день"! Интересно!
Да, Ватсон, это же естественные единицы времени, именно они задают ритм жизни всему живому на Земле.
Но, наверное, в разные эпохи частоты употребления слов меняются?
Конечно! Язык-то живой, что-то умирает, что-то зарождается. Если в средневековую эпоху наблюдалось преобладание названий, связанных с сельским хозяйством, ремеслами, походами рыцарей, войнами и религиозным культом, то сейчас наибольшее количество слов и словосочетаний-названий относится к науке, технике, спорту и общественно-политической сфере жизни.
Вот вам пример: два слова - "король" и "правительство". В средневековье эти слова употреблялись с частотами "король" - 234, а "правительство" - 40. Сейчас же "король" - 42, "правительство" - 267!
Демократизация налицо! А какие сейчас наиболее употребительные слова?
Надо подумать, как их найти... Ага, с помощью подпрограммы "МАКС".
А зачем думать, мистер Холмс? Пусть думает компьютер!
До чего же это распространенное заблуждение. Пусть думает компьютер! А кто будет отвечать, если он не то надумает?! Нужно досконально знать, как компьютер будет решать поставленную задачу. У меня есть подпрограмма "МАКС". С ее помощью я могу найти максимальную частоту употребления слова. Так - 2167. Теперь определим, какому слову она соответствует. Ага, "год". Теперь исключу из файла эту запись и опять найду максимальную частоту. Отлично! И так десять раз. Поехали. (Холмс увлеченно застучал по клавишам.) Вот и график, пожалуйста, изучайте.
Год, дело, время, люди, рука, работа. Интересно! Есть над чем поломать голову.
Хорошо, Ватсон, а как вы представляете себе график частот употребления названий семи дней недели?
Чаще всего, я думаю, используются "суббота" и "воскресенье", потом - "понедельник", с него все-таки начинается трудовая неделя, ну, а "вторник", "среда", "четверг", "пятница" приблизительно одинаковы, на минимуме. Хотя нет, пятница должна быть почаще, все-таки последний рабочий день.
Нарисуйте график. Не абсолютные значения, а только соотношения по дням недели.
Ну как-то так.
Честно говоря, я и сам не знаю, какой будет график. Ну-с, начнем. Сейчас я наберу названия дней недели и пусть компьютер нам построит график. Так, набираю: понедельник, вторник,..., воскресенье. Все! Запускаем... Вот и график.
Мистер Холмс! Видимо, ошибка, посмотрите какой фантастический пик на "среде"!
Ошибка исключена. Система работает безошибочно.
Так что же, вся наша теория летит к черту?!
Так, сравним с вашим графиком. Общая закономерность выявлена правильно, но "среда"! Середина недели. Что же в ней особенного? Почему она так часто употребляется? Загадка!
Холмс, раскурил трубку, встал из-за стола и подошел к камину. Тихо потрескивали дрова, пламя тревожно освещало лицо Холмса.
Среда, среда, - повторял задумчиво Холмс. - Почему же именно среда, а не вторник или четверг?
По сосредоточенному лицу Холмса можно было догадаться, какую мощную вычислительную работу выполняет его мозг. - Среда, середина недели, - повторял он, глядя на всполохи пламени. - В среду... Что нам в среде? В среде?... В среде обитания... Окружающая среда!... Ватсон! Господи, какие же мы дураки! Ведь "среда" - омоним, это не только третий день недели, но и окружение человека - окружающая среда, географическая среда, воздушная среда. Эта среда обитания так ухудшилась, что о ней пишут чуть ли не в каждой газете. Все стало на свои места! Все правильно!
Мистер Холмс! Я не перестаю восхищаться вами! Какая широта кругозора! Но что происходит со мной?! Раньше я смотрел на вещи значительно шире. Хорошо, так что же нам все-таки делать? Как вычленить частоты употребления слова "среда" в смысле именно "середина недели"? Нужна программа, понимающая текст?
Пока таких программ нет. Но если предположить, что в других языках наблюдаются такие же закономерности, что и в русском, то можем вернуться к нашему английскому языку. Ведь у нас wednesday обозначает среду и ничего другого!
Это идея. Ну что же, на ошибках учатся!
Более того, Ватсон, лучшее учение именно на ошибках! Именно ошибки
заставляют активно работать мозг, мобилизуют весь творческий потенциал человека. Ошибки лечат от самоуспокоенности и лени. А потом, ничто так не запоминается, как ошибки, на всю жизнь! Это бесценный кладезь мудрости. Что ж, перейдем к английским текстам. Где-то у меня хранятся дискеты с газетными текстами на 200 тысяч словоупотреблений. Ага, вот они. Ну-с, попробуем. Итак, набираем: monday, tuesday, wednesday, thyrsday, friday, saturday, sunday. Теперь ждем. А вот и картиночка. Видите, Ватсон, здесь среда в норме.
Среда-то в норме, а что же случилось с воскресеньем? Почему оно оказалось на уровне пятницы?
Вот и здесь проблемы.
Тут Холмс погрузился в молчание и молчал так долго, что я подумал, не уснул ли он? Да, тяжек путь к истине. Каким упорством нужно обладать, чтобы не отчаяться, когда победа оказывается всего-навсего миражом, когда вершина, казавшаяся рядом, оказывается неизвестно где. Затем Холмс подошел к большому календарю, висевшему над письменным столом, и стал внимательно его изучать.
Ватсон, а с чем у вас ассоциируется конец недели?
Конец недели? Это же уикэнд!
Вот именно! Суббота и воскресенье - это уикэнд. Любимое слово трудящихся. Найдем частоту упоминания слова "weekend" Вот - 26! Если мы к частоте слова "sunday" - 29 прибавим еще и частоту слова "weekend" - 26, то получим 55! Что ж, для таких разных культур, как русская и английская, картина распределения частот получилась достаточно похожей! Чувствуете, Ватсон, прощупываются какие-то законы?!
Да, согласен, в частотах что-то есть! Мистер Холмс, а подсчет частот - это ваше хобби?
Такое хобби может оказаться очень полезным сыщику. Ко мне часто обращаются с просьбой установить авторство спорных текстов.
Спорных? Почему спорных?
Да спустя какое-то время после смерти выдающегося автора вдруг появляются на свет тексты, приписываемые ему. Как проверить? Ведь это может быть и ошибкой, и проказой, и подделкой. Так было с текстами, приписываемыми Платону, Гете, Пушкину и многим другим. Начало положили немецкие ученые XIX века В.Диттер-бергер и К.Риммер. Для установления авторства эти ученые предложили использовать методы статистического анализа употребительности отдельных речевых форм, слов, выражений, фразеологических оборотов и синонимов.
То есть они полагают, что каждому писателю (автору) свойственна своя устойчивая структура письма?
Совершенно верно. Нужно лишь выявить эти устойчивые характеристики. Русский ученый, революционер Н.А.Морозов, который в царское время 20 лет отсидел в Шлиссельбургской крепости, предложил, отбросив все редкие слова, ограничиться наиболее частыми и общими для всех родов литературы. Особое внимание он уделял союзам, предлогам, некоторым местоимениям. Подсчитывая частоты употребления этих частиц. Морозов строил графики. Вот, например, как у него выглядели распределения частот встречаемости предлогов "в", "на" и "с" для произведений "Тарас Бульба" и "Дубровский", - сказал Холмс, рисуя графики.
Как видите, у Гоголя и у Пушкина картина распределения частот получилась разной. Поэтому по картине распределения частот употребления предлогов можно с какой-то вероятностью судить об авторе.
А как же он подсчитывал предлоги?
Вручную! В то время ведь компьютеров не было.
Какое трудолюбие! Но ведь, наверное, и у одного автора в разных текстах также наблюдаются флуктуации этих частот?
Да, и в этом сложность установления авторства - нужна статистика! Кстати, я модернизировал метод отображения информации - повысил его наглядность. Именно в этом я вижу большой резерв повышения эффективности вычислительной техники. Это мой конек - как из множества разрозненных характеристик получить единый образ в виде материального тела. Так, из значений частот употребления трех предлогов я предложил строить параллелепипед. Три оси x, y, z и соответствуют частотам трех предлогов "с", "на", "в". Такие графики легко строить и на компьютере. Итак, каждому писателю, точнее каждому его произведению, соответствует своя фигура. Тогда, построив такой параллелепипед для спорного текста, можно сравнить его с параллелепипедами известных текстов и выбрать тот, к которому данная фигура ближе. Это и есть автор!
Аналогичным образом на компьютере шведские ученые статистически проанализировали текст "Тихого Дона" и установили, что его автором является Михаил Шолохов, а не Крюков. Хотя я считаю, что вопрос все равно не решен.
Холмс взял в руку портативный сканер с разрешением 160 точек на сантиметр и медленно стал его перемещать по газетной, полосе. За один проход сканером считывалась полоса шириной 6 см. Вот и все! Целая статья была практически мгновенно введена в память компьютера. Может быть, именно в такой автоматизации рутинных работ и лежит успех работы Шерлока Холмса?
Хотя кто-то сказал, что если выкинуть все рутинные работы, то и творчества не будет. Рутина, если она в меру, необходимый подготовительный этап, своего рода трамплин к творческому взлету. Без всех этих выписок, конспектов, заполнения карточек и их перетасовок, без всей этой однообразной работы не будет настроя на творчество. Так что автоматизация не должна быть всемерной, что-то нужно оставить и человеку. Над этими вопросами мне еще неоднократно приходилось задумываться.