Что для вас значит книга? Если это не просто увлекательный попутчик, но и мудрый наставник, то вы хотя бы раз задумывались, как сохранить его на будущее. Оцифровка бумажных книг имеет два несомненных преимущества: книга в электронном виде всегда под рукой, и ею очень легко поделиться.

Из этого пособия вы узнаете об основных этапах создания удобной электронной версии бумажной книги с навигацией и возможностью копирования текста.

Введение

Стоит отметить, что в век бурной защиты авторских прав и легкой доступности литературы, изначально составленной в электронном виде, имеет смысл оцифровывать либо старые фундаментальные советские учебники, либо что-то действительно редкое и только для личного пользования.

Имея доступ к старым техническим справочникам, я иногда вызывался помогать незнакомым людям, которым так не хватало хороших источников знаний для обучения. А так как я был контрактником, то хотел делать свою работу на достаточно высоком уровне, чтобы читателю книги было приятно погрузиться в нее.

Шаг 1. Копирование книги

Со временем многие процессы упрощаются. Если еще лет пять назад этот этап был чрезвычайно долгим (приходилось пользоваться сканером), то с усовершенствованием камер мобильных телефонов затраченное время значительно сократилось. Конечно, камера другая, но если выбирать приемлемые условия съемки, то подойдет любой более-менее современный телефон.

Конечно, использование сканера все же предпочтительнее. Особенно если речь идет о технической литературе, содержащей множество формул и рисунков.

Забегая вперед, отмечу, что снимки впоследствии будут обработаны специальной программой. Но все же стоит добросовестно относиться к самой съемке, чтобы не ставить качество конечного продукта в зависимость только от постобработки.

Поэтому старайтесь открывать страницы как можно шире, чтобы изгибы у корешка книги были минимальными. Было бы здорово, если бы кто-нибудь помог вам с этим. Один человек держит телефон, а другой переворачивает и расправляет страницы. Кроме того, школьники любят делать пометки на библиотечных книгах, и неплохо бы их стереть.

Делаем серию снимков и переносим их на компьютер в отдельную папку. Неживому мозгу пора работать.

Этап 2. Обработка

Мне попались две серьезные программы для обработки отсканированных (сфотографированных) книг: ScanTailor и ScanKromsator. Возможно, за годы моего бездействия появились еще какие-то достойные альтернативы, но я сомневаюсь — пользовательская ниша очень мала и бедна. Самые опытные букмекеры отдают предпочтение СканКромсатору. Имеет крайне большое количество настроек и возможностей, но сам автор программы видимо не в состоянии разобраться и разобраться во всех предложенных наворотах (шутка). Поэтому я рекомендую вам ScanTailor. Мне довелось следить за развитием этой утилиты с первых дней ее существования. Разработчик прекратил поддержку проекта несколько лет назад, но все же подарил миру хороший инструмент для обработки сканов.

Начало работы

Работа в ScanTailor проста и последовательна. Все промежуточные действия отображаются в левой части рабочего пространства, вы легко можете присоединиться к процессу.

Выберите исходную папку, выходная папка будет создана автоматически. Для всех страниц установите максимально возможное разрешение DPI — 600×600. Мощность современных компьютеров позволяет быстро обрабатывать такие изображения.

Шаг 1. Исправление ориентации

Самый простой и быстрый шаг. Скорее всего, вы изначально сфотографировали страницы с правильной ориентацией, а потому хлопот быть не должно. Отмечу только, что изначально ScanTailor предложит вам запустить пакетную обработку текущего действия (небольшой значок Play напротив шага) — обязательно используйте его, чтобы не нажимать на каждое изображение отдельно.

Шаг 2. Разделение страниц

Почти беспроблемный ход. Я редко сталкивался с программными ошибками на этом этапе. Обязательно обратите внимание на обложку книги — тут часто возникают нюансы.

Шаг 3. Компенсация наклона

В подавляющем большинстве случаев алгоритм работает корректно. Не ждите улова, переходите к следующему шагу.

Шаг 4. Полезная область

Это, пожалуй, самый ответственный момент. Только содержание книги имеет решающее значение, оформление — дело второстепенное. Именно с этого шага начинает работать связь «компьютер-человек». В программе иногда бывают небольшие сбои, поэтому после автоматической обработки взгляните на миниатюры страниц в правой части экрана. Обычно ошибки сразу бросаются в глаза.

Шаг 5. Поля

Границы — дело вкуса. Более важным моментом является возможность выравнивания размеров страниц. Не забудьте установить этот флажок, чтобы избежать «танцующих» страниц.

Шаг 6. Выход

Последний бой самый тяжелый. Плюс самые ресурсоемкие для вашего компьютера и самые требовательные к вашему вниманию.

Финишная растяжка отмечена рядом важных действий. Прежде всего, вы определяете режим вывода книги: черно-белый, цветной или смешанный. Затем страницы очищаются от мусора, выравниваются кривые линии. Не буду вдаваться в подробности, но укажу вам на не самые заметные закладки, расположенные несколько нелогично и необычно — между превью страницы и лентой миниатюр. Каждая вкладка отвечает за важную функцию ручной корректировки получаемых изображений. Если вы найдете желание и время вникнуть в принцип их работы, ваши книги будут более качественными.

Обзор

Стремясь к идеалу, на эту работу можно потратить не один час. Все зависит от вашей заинтересованности в конечном результате и качестве исходных изображений. Да, я снова возвращаюсь к этой теме. Немного больше усилий на этапе подготовки может сэкономить огромное количество времени, которое уходит на то, чтобы страницы выглядели достойно.

Прошу не брать скрины за образец - на все про все у меня ушло не более пары минут. Не сомневаюсь, что забыл указать вам на некоторые нюансы работы со ScanTailor - уж очень давно я с ним ничего не обрабатывал.

В результате вы получите набор разрозненных страниц в формате .tif. Пришло время вышивать!

Шаг 3. Создание файла djvu

Если вы хотите быстро испортить файл DjVu, воспользуйтесь крошечной утилитой DjVu Small. Есть и более серьезные программы, например DjVu Editor Pro. Конечно, использование второго инструмента представляется предпочтительным. Но решать вам: установите обе программы и сравните их возможности.

Что касается создания PDF-файлов, в Интернете есть множество связанных программ и веб-сервисов.

Этап 4. Создание слоя OCR

Одним из признанных мировых лидеров в области распознавания текста, несомненно, является компания ABBYY со своим широко известным продуктом FineReader. Наверное, нет таких людей, которые не слышали об этой программе, поэтому расписывать особо нечего. С недавнего времени FineReader может открывать и сохранять результаты работы прямо в DjVu, что избавляет от необходимости использовать промежуточное ПО.

Этап 5. Создайте оглавление

В Сети мне довелось встретить положительные отзывы о программе Pdf& Djvu Закладка. Как следует из названия, программа может работать с обоими наиболее распространенными форматами электронных книг.

Заключение

Скорее всего, вы не осилили много букв и сразу поспешили с выводами. И они разочаровывают обычного человека. Электронное книгоиздание — дело хлопотное, полное трудностей и неожиданностей. Чтобы добраться даже до «зеленого пояса», придется потратить немало времени. Оцифровка бумажных книг на высоком уровне — удел энтузиастов. Если вы все-таки решитесь пройти чертову дюжину кругов ада, то получите непередаваемые ощущения. Всегда приятно сделать что-то общественно полезное и получить за это обычную человеческую благодарность.

А вообще, рекомендую остановиться после обработки в ScanTailor, слить разрозненные страницы в PDF и не лезть дальше в дебри.

Сознательно и бессознательно я упустил кучу мелочей и нюансов, которые будут подстерегать вас на пути к созданию хорошей электронной книги. Надеюсь, что знающие люди присоединятся к обсуждению в комментариях и укажут на мои неточности или расскажут о своих секретах.