Открыт код Gumbo, библиотеки для унификации парсинга HTML5
Компания Google выпустила под лицензией Apache 2.0 библиотеку Gumbo, представляющую собой реализацию разбора HTML5 на языке программирования C.
В качестве причин для её создания указывается на фрагментацию существующих уже библиотек, либо их неоптимальность. Так, большинство реализаций привязаны к определённым браузерам или движкам, а некоторые были написаны на весьма специфичных скриптовых языках, что сильно усложняло их интеграцию в развивающиеся проекты.
Gumbo представляет собой простую и легковесную библиотеку, не имеющую зависимостей от сторонних приложений и библиотек.
Возможности, на которые указывают разработчики:
Полная совместимость со спецификациями HTML 5 Качественный обработчик ошибок Простой API с возможностью интегрирования в различные языки программирования Легковесность и отсутствие зависимостей Прохождение html5-tests Возможность получения обратных ссылок на исходный код фрагмента Тщательно протестировано на более чем 2.5 миллиардах страниц из поискового индекса Google >>> Gumbo на GitHub
>>> Новость на OpenNet
google, html5, opensource, web, парсинг веб-страниц