Электронные книги и их форматы: говорим про EPUB — его историю, плюсы и минусы

Ранее в блоге мы писали о том, как появились форматы электронных книг DjVu и FB2.

Тема сегодняшней статьи — EPUB.

4ui6bht6baztkwt7hmvblle2koq.jpeg
Изображение: Nathan Oakley / CC BY

История формата


В 90-е на рынке электронных книг господствовали проприетарные решения. И у многих производителей читалок был собственный формат. К примеру, в NuvoMedia использовали файлы с расширением .rb. Это были контейнеры с HTML-файлом и файлом .info, содержащем метаданные. Такое положение вещей усложняло работу издателей — им приходилось верстать книги под каждый формат по-отдельности. Исправить положение вещей взялась группа инженеров из Microsoft, уже упомянутой NuvoMedia и SoftBook Press.

В то время Microsoft собиралась завоевывать рынок электронных книг и занималась разработкой приложения-читалки для Windows 95. Можно сказать, что создание нового формата являлось частью бизнес-стратегии ИТ-гиганта.


Если говорить о NuvoMedia, то эта компания считается производителем первой массовой электронной читалки Rocket eBook. Внутренняя память устройства составляла всего восемь мегабайт, а время автономной работы не превышало 40 часов. Что касается SoftBook Press, они также занимались разработкой электронных читалок. Но их девайсы имели отличительную особенность — встроенный модем — он позволял скачивать цифровую литературу напрямую из магазина SoftBookstore.

В начале нулевых обе компании — NuvoMedia и SoftBook — были куплены медиакомпанией Gemstar и объединены в Gemstar eBook Group. Эта организация еще несколько лет занималась продажей ридеров (например, RCA REB 1100) и цифровых книг, однако в 2003 году вышла из бизнеса.

Но вернемся к разработке единого стандарта. В 1999 году Microsoft, NuvoMedia и SoftBook Press основали организацию Open eBook Forum, в составе которой стали работать над черновиком документа, положившим начало EPUB. Изначально стандарт назывался OEBPS (расшифровывается как Open EBook Publication Structure). Он позволил распространять цифровую публикацию в одном файле (ZIP-архиве) и упростил перенос книг между различными аппаратными платформами.

Позже к Open eBook Forum присоединились ИТ-компании Adobe, IBM, HP, Nokia, Xerox и издатели McGraw Hill и Time Warner. Все вместе они продолжили разработку OEBPS и занимались развитием экосистемы цифровой литературы в целом. В 2005 году организацию переименовали в Международный форум по цифровым публикациям, или IDPF.

В 2007 году IDPF сменили название формата OEBPS на EPUB и начали разработку его второй версии. Её представили широкой публике в 2010 году. Новинка почти не отличалась от своего предшественника, однако получила поддержку векторной графики и встроенных шрифтов.

К этому времени EPUB завоевывал рынок и стал стандартом по умолчанию для многих издателей и производителей электронных гаджетов. Форматом уже пользовались O«Reilly и Cisco Press, плюс его поддерживали устройства Apple, Sony, Barnes & Noble, ONYX BOOX.


В 2009 году проект Google Books объявил о поддержке EPUB — его использовали для распространения более миллиона бесплатных книг. Популярность формат начал приобретать и у писателей. В 2011 году Джоан Роулинг рассказала о планах запустить сайт Pottermore и сделать его единственной точкой продаж книг Поттерианы в цифровом виде.

Стандартом для распространения литературы был выбран EPUB, в первую очередь из-за его возможности реализовать защиту от копирования (DRM). Все книги в онлайн-магазине писательницы до сих пор доступны только в этом в формате.

Третья версия формата EPUB вышла в 2011 году. Разработчики добавили возможность работать с аудио- и видеофайлами и сносками. Сегодня стандарт продолжает развиваться — в 2017 году IDPF даже вошла в состав консорциума W3C, который внедряет технологические стандарты для Всемирной паутины.

Как устроен EPUB


Книга в формате EPUB представляет собой ZIP-архив. В нем хранится текст публикации в виде XHTML- или HTML-страниц или файлов PDF. Также в архиве лежит медиаконтент (аудио, видео или изображения), шрифты и метаданные. Еще в нем могут находиться дополнительные файлы со стилями CSS или PLS-документы с информацией для сервисов генерации речи.

За отображение контента отвечает XML-разметка. Фрагмент книги со встроенной аудиозаписью и изображением может выглядеть следующим образом:




    
        
        
    
    
        

the entire transcript

What does it mean to be human if we don't have a shared culture? What does a shared culture mean if we can't share it? It's only in the last 100, or 150 years or so, that we started tightly restricting how that culture gets used.

child against a wall


Помимо контентных файлов в архиве находится специальный навигационный документ (Navigation Document). Он описывает расположение текста и изображений в книге. Приложения-ридеры обращаются к нему в том случае, если читатель желает «перескочить» через несколько страниц.

Еще один обязательный файл в архиве — package. Он включает в себя метаданные — информацию об авторе, издателе, языке, названии и так далее. Туда же входит перечень (spine) подразделов книги. Пример package-документа можно посмотреть в репозитории IDPF на GitHub.

Достоинства


Преимущество формата — его гибкость. EPUB позволяет создавать динамическую разметку документа, адаптирующуюся под размеры экрана устройства. Это одна из главных причин, почему формат поддерживает большое количество читалок (и других электронных устройств). К примеру, с EPUB работают «из коробки» все ридеры ONYX BOOX: от базовой и 6-дюймовой Caesar 3 до премиальной и 9,7-дюймовой Euclid.

fxdrvurin-9wbudntnvqimdhbkq.jpeg
/ ONYX BOOX Caesar 3

Так как формат построен на основе популярных стандартов (XML), его легко конвертировать для чтения в интернете. Также EPUB поддерживает интерактивные элементы. Да, подобные элементы они есть и в PDF, однако добавить их в PDF-документ можно только c помощью проприетарного программного обеспечения. В случае с EPUB они добавляются в книгу разметкой и тегами XML в любом текстовом редакторе.

Другим достоинством EPUB являются функции для людей, испытывающих проблемы со зрением или страдающих дислексией. Стандарт дает модифицировать отображение текста на экране — например, подсветить определённые буквосочетания.


Еще EPUB, как мы уже отметили, дает издателю возможность установить защиту от копирования. При желании продавцы электронных книг могут использовать свои механизмы, ограничивающие доступ к документу. Для этого нужно модифицировать файл rights.xml в архиве.

Недостатки


Для создания EPUB-публикации необходимо разбираться в синтаксисе XML, XHTML и CSS. При этом приходится работать с большим количеством меток-идентификаторов. Для сравнения, тот же стандарт FB2 включает в себя лишь минимально необходимый набор тегов — достаточный для верстки художественной литературы. А для создания PDF-документов вообще не требуются особые знания — за все отвечает специализированное ПО.

Также EPUB критикуют за сложность оформления комиксов и других книг со множеством иллюстраций. В этом случае издателю приходится создавать статичный макет с фиксированными координатами для каждой картинки — на это может уходить много сил и времени.

Что дальше


Сейчас IDPF работает над новыми спецификациями для формата. Например, одна из них поможет создавать интерактивные учебные пособия со скрытыми разделами. Одна и та же книга будет по-разному выглядеть для преподавателя и студента — во втором случае окажутся скрыты, например, ответы на тесты или контрольные вопросы.

xchnvik-sdqky-23jswpbufiiow.jpeg
Изображение: Guian Bolisay / CC BY-SA

Ожидается, что новая функция поможет реорганизовать образовательный процесс. Сегодня EPUB довольно активно используется крупными вузами, например Оксфордским университетом. Несколько лет назад они добавили в свое приложение с цифровой библиотекой поддержку EPUB 3.0.


Также IDPF создает спецификацию для внедрения в EPUB сносок Open Annotation. Этот стандарт разработали в W3C в 2013 году — он упрощает работу со сложными видами аннотаций. Например, с его помощью можно поставить примечание к определенному участку JPEG-изображения. Дополнительно стандарт реализует механизм синхронизации изменений в аннотациях между копиями одного EPUB-документа. Примечания формата Open Annotation можно добавлять в EPUB-файлы и сейчас, однако формальная спецификация для них пока не принята.

Также ведется работа над новой версией стандарта — EPUB 3.2. В ней появятся форматы WOFF 2.0 и SFNT, которые используются для сжатия шрифтов (в некоторых случаях они позволяют сократить размеры файла на 30%). Также разработчики заменят некоторые устаревшие атрибуты HTML. Например, вместо отдельного элемента trigger для активации аудио- и видеофайлов в новом стандарте будут нативные HTML-элементы audio и video.

Черновик спецификации и список изменений уже доступны в GitHub-репозитории W3C.


Обзоры читалок ONYX-BOOX:

© Habrahabr.ru