Открыт код Gumbo, библиотеки для унификации парсинга HTML5

Компания Google выпустила под лицензией Apache 2.0 библиотеку Gumbo, представляющую собой реализацию разбора HTML5 на языке программирования C.

В качестве причин для её создания указывается на фрагментацию существующих уже библиотек, либо их неоптимальность. Так, большинство реализаций привязаны к определённым браузерам или движкам, а некоторые были написаны на весьма специфичных скриптовых языках, что сильно усложняло их интеграцию в развивающиеся проекты.

Gumbo представляет собой простую и легковесную библиотеку, не имеющую зависимостей от сторонних приложений и библиотек.

Возможности, на которые указывают разработчики:

Полная совместимость со спецификациями HTML 5 Качественный обработчик ошибок Простой API с возможностью интегрирования в различные языки программирования Легковесность и отсутствие зависимостей Прохождение html5-tests Возможность получения обратных ссылок на исходный код фрагмента Тщательно протестировано на более чем 2.5 миллиардах страниц из поискового индекса Google >>> Gumbo на GitHub

>>> Новость на OpenNet

  google, html5, opensource, web, парсинг веб-страниц

©  Linux.org.ru