Распарсить HTML в .NET и выжить: анализ и сравнение библиотек
В ходе работы над одним домашним проектом, столкнулся с необходимостью парсинга HTML. Поиск по гуглу выдал комменарийAthari и его микро-обзор актуальных парсеров HTML в .NET за что ему огромное спасибо.
К сожалению, никаких цифр и/или аргументов в пользу того или иного парсера найдено не было, что послужило поводом к написанию данной статьи.
Сегодня я протестирую популярные, на данный момент, библиотеки для работы с HTML, а именно: AngleSharp, CsQuery, Fizzler, HtmlAgilityPack и, конечно же, Regex-way. Сравню их по скорости работы и удобству использования.
TL; DR: Код всех бенчмарков можно найти на github. Там же лежат результаты тестирования. Самым актуальным парсером на данный момент является AngleSharp — удобный, быстрый, молодежный парсер с удобным API.
Тем, кому интересен подробный обзор — добро пожаловать под кат.
Содержание
Описание библиотек
В данном разделе будут краткие описания рассматриваемых библиотек, описание лицензий и тд.
HtmlAgilityPack
Один из самых (если не самый) известный парсер HTML в мире .NET. Про него написано немало статей как на русском, так и на английском языках, к примеру на habrahabr.
Вкратце это быстрая, относительно удобная библиотека для работы с HTML (если XPath запросы будут несложными). Репозиторий давно не обновляется.
Лицензия MS-PL.
Парсер будет удобным если задача типична и хорошо описывается XPath выражением, к примеру, чтобы получить все ссылки со страницы, нам понадобится совсем немного кода:
///
/// Extract all anchor tags using HtmlAgilityPack
///
public IEnumerable HtmlAgilityPack()
{
HtmlDocument htmlSnippet = new HtmlDocument();
htmlSnippet.LoadHtml(Html);
List hrefTags = new List();
foreach (HtmlNode link in htmlSnippet.DocumentNode.SelectNodes("//a[@href]"))
{
HtmlAttribute att = link.Attributes["href"];
hrefTags.Add(att.Value);
}
return hrefTags;
}
Однако, если вам захочется поработать с css-классами, то использование XPath доставит вам много головной боли:
///
/// Extract all anchor tags using HtmlAgilityPack
///
public IEnumerable HtmlAgilityPack()
{
HtmlDocument hap = new HtmlDocument();
hap.LoadHtml(html);
HtmlNodeCollection nodes = hap
.DocumentNode
.SelectNodes("//h3[contains(concat(' ', @class, ' '), ' r ')]/a");
List hrefTags = new List();
if (nodes != null)
{
foreach (HtmlNode node in nodes)
{
hrefTags.Add(node.GetAttributeValue("href", null));
}
}
return hrefTags;
}
Из замеченных странностей — специфическое API, порой непонятное и запутывающее. Если ничего не найдено, возвращается null
, а не пустая коллекция. Ну и обновление библиотеки как-то затянулось — новый код давно никто не коммитал. Баги не фиксаются (Athari упоминал о критическом баге Incorrect parsing of HTML4 optional end tags, который приводит к некорректной обработке тегов HTML, закрывающие теги для которых опциональны.)
Fizzler
Надстройка к HtmlAgilityPack, позволяющая использовать селекторы CSS.
Код, в данном случае, будет наглядным описанием того, какую проблему решает Fizzler:
// Документ загружается как обычно
var html = new HtmlDocument();
html.LoadHtml(@"
Fizzler
CSS Selector Engine
");
// Fizzler это набор методов-расширений для HtmlAgilityPack
// к примеру QuerySelectorAll у HtmlNode
var document = html.DocumentNode;
// вернется: [Fizzler
]
document.QuerySelectorAll(".content");
// вернется: [Fizzler
,CSS Selector Engine
]
document.QuerySelectorAll("p");
// вернется пустая последовательность
document.QuerySelectorAll("body>p");
// вернется [Fizzler
,CSS Selector Engine
]
document.QuerySelectorAll("body p");
// вернется [Fizzler
]
document.QuerySelectorAll("p:first-child");
По скорости работы практически не отличается от HtmlAgilityPack, но удобнее за счет работы с селекторами CSS.
С коммитами такая же проблема как и у HtmlAgilityPack — обновлений давно нет и, по-видимому, не предвидится.
Лицензия: LGPL.
CsQuery
Был одним из современных парсеров HTML для .NET. В качестве основы был взят парсер validator.nu для Java, который в свою очередь является портом парсера из движка Gecko (Firefox).
API черпал вдохновение у jQuery, для выбора элементов используется язык селекторов CSS. Названия методов скопированы практически один-в-один, то есть для программистов, знакомых с jQuery, изучение будет простым.
На данный момент разработка CsQuery находится в пассивной стадии.
CsQuery is not being actively maintained. I no longer use it in my day-to-day work, and indeed don’t even work in .NET much these day! Therefore it is difficult for me to spend any time addressing problems or questions. If you post issues, I may not be able to respond to them, and it’s very unlikely I will be able to make bug fixes.
While the current release on NuGet (1.3.4) is stable, there are a couple known bugs (see issues) and there are many changes since the last release in the repository. However, I am not going to publish any more official releases, since I don’t have time to validate the current code base and address the known issues, or support any unforseen problems that may arise from a new release.
I would welcome any community involvement in making this project active again. If you use CsQuery and are interested in being a collaborator on the project please contact me directly.
Сам автор советует использовать AngleSharp как альтернативу своему проекту.
Код для получения ссылок со страницы выглядит приятно и знакомо для всех, кто использовал jQuery:
///
/// Extract all anchor tags using CsQuery
///
public IEnumerable CsQuery()
{
List hrefTags = new List();
CQ cq = CQ.Create(Html);
foreach (IDomObject obj in cq.Find("a"))
{
hrefTags.Add(obj.GetAttribute("href"));
}
return hrefTags;
}
Лицензия: MIT
AngleSharp
В отличие от CsQuery, написан с нуля вручную на C#. Также включает парсеры других языков.
API построен на базе официальной спецификации по JavaScript HTML DOM. В некоторых местах есть странности, непривычные для разработчиков на .NET (например, при обращении к неверному индексу в коллекции будет возвращён null, а не выброшено исключение; есть свой отдельный класс Url; пространства имён очень гранулярные), но в целом ничего критичного.
Развивается библиотека очень быстро. Количество различных плюшек, облегчающих работу просто поражает воображение, к примеру IHtmlTableElement, IHtmlProgressElement и тд.
Код чистый, аккуратных, удобный.
К примеру, извлечение ссылок со страницы практически ничем не отличается от Fizzler:
///
/// Extract all anchor tags using AngleSharp
///
public IEnumerable AngleSharp()
{
List hrefTags = new List();
var parser = new HtmlParser();
var document = parser.Parse(Html);
foreach (IElement element in document.QuerySelectorAll("a"))
{
hrefTags.Add(element.GetAttribute("href"));
}
return hrefTags;
}
А для более сложных случаев есть десятки специализированных интерфейсов, которые помогут решить поставленную задачу.
Лицензия: MIT
Regex
Древний и не самый удачных подход для работы с HTML. Мне очень понравился комментарий Athari, поэтому я его, комментарий, здесь и продублирую:
Страшные и ужасные регулярные выражения. Применять их нежелательно, но иногда возникает необходимость, так как парсеры, которые строят DOM, заметно прожорливее, чем Regex: они потребляют больше и процессорного времени, и памяти.
Если дошло до регулярных выражений, то нужно понимать, что вы не сможете построить на них универсальное и абсолютно надёжное решение. Однако если вы хотите парсить конкретный сайт, то эта проблема может быть не так критична.
Ради всего святого, не надо превращать регулярные выражения в нечитаемое месиво. Вы не пишете код на C# в одну строчку с однобуквенными именами переменных, так и регулярные выражения не нужно портить. Движок регулярных выражений в .NET достаточно мощный, чтобы можно было писать качественный код.
Код для получения ссылок со страницы выглядит ещё более-менее понятно:
///
/// Extract all anchor tags using Regex
///
public IEnumerable Regex()
{
List hrefTags = new List();
Regex reHref = new Regex(@"(?inx)
]*
href \s* = \s*
(? ['""] )
(? [^""]+ )
\k
[^>]* >");
foreach (Match match in reHref.Matches(Html))
{
hrefTags.Add(match.Groups["url"].ToString());
}
return hrefTags;
}
Но если вам вдруг захочется поработать с таблицами, да ещё и в вычурном формате, то пожалуйста, сначала посмотрите сюда.
Лицензия указана на этом сайте.
Benchmark
Скорость работы парсера, как ни крути, один из важнейших атрибутов. От скорости обработки HTML зависит то, сколько у вас времени займет та или иная задача.
Для замера производительности парсеров я использовал библиотеку BenchmarkDotNet от DreamWalker, за что ему огромное спасибо.
Замеры производились на Intel Core™ i7–4770 CPU @ 3.40GHz, но опыт подсказывает, что относительное время будет одинаковое на любых других конфигурациях.
Пару слов о Regex — не повторяйте этого дома. Regex очень хороший инструмент в умелых руках, но работа с HTML это точно не то, где стоит его использовать. Но в качестве эксперимента я попробовал реализовать минимально рабочую версию кода. Свою задачу он выполнил успешно, но количество времени, потраченное на написание этого кода, подсказывает, что повторять это я точно не стану.
Что ж, давай-те посмотрим на бенчмарки.
Получение адресов из ссылок на странице
Данная задача, как мне кажется, является базовой для всех парсеров — чаще именно с такой постановки задачи начинается увлекательное знакомство с миром парсеров (иногда и Regex).
Код бенчмарка можно найти на github, а ниже представлена таблица с результатами:
Библиотека | Среднее время | Среднеквадратическое отклонение | операций/сек |
AngleSharp | 8.7233 ms | 0.4735 ms | 114.94 |
CsQuery | 12.7652 ms | 0.2296 ms | 78.36 |
Fizzler | 5.9388 ms | 0.1080 ms | 168.44 |
HtmlAgilityPack | 5.4742 ms | 0.1205 ms | 182.76 |
Regex | 3.2897 ms | 0.1240 ms | 304.37 |
В целом, ожидаемо Regex оказался самым быстрым, но далеко не самым удобным. HtmlAgilityPack и Fizzler показали примерно одинаковое время обработки, немного опередив AngleSharp. CsQuery, к сожалению, безнадежно отстал. Вполне вероятно, что я не умею его готовить. Буду рад услышать комментарии от людей, которые работали с данной библиотекой.
Оценить удобство не представляется возможным, так как код практически идентичен. Но при прочих равных условиях, код CsQuery и AngleSharp мне понравился больше.
Получение данных из таблицы
С данной задачей я столкнулся на практике. Причем таблица, с которой мне предстаяло поработать, не была простой.
Ребят, если будете это читать — сделайте нормальный сервис, ну или хотя бы HTML поправьте.
Я предпринял попытку максимально запрятать всё то, что не относится именно к обработке HTML, но ввиду специфики задачи, не всё получилось.
Код у всех библиотек примерно одинаков, отличие только в API и том, какие возвращаются результаты. Однако стоит упомянуть о двух вещах: во-первых, у AngleSharp есть специализированные интерфейсы, что облечило решение задачи. Во-вторых, Regex для данной задачи не подходит вообще никак.
Давай-те посмотрим на результаты:
Библиотека | Среднее время | Среднеквадратическое отклонение | операций/сек |
AngleSharp | 27.4181 ms | 1.1380 ms | 36.53 |
CsQuery | 42.2388 ms | 0.7857 ms | 23.68 |
Fizzler | 21.7716 ms | 0.6842 ms | 45.97 |
HtmlAgilityPack | 20.6314 ms | 0.3786 ms | 48.49 |
Regex | 42.2942 ms | 0.1382 ms | 23.64 |
Как и в предыдущем примере HtmlAgilityPack и Fizzler показали примерно одинаковое и очень хорошее время. AngleSharp отстаёт от них, но, возможно, я сделал всё не самым оптимальным образом. К моему удивлению, CsQuery и Regex показали одинаково плохое время обработки. Если с CsQuery всё понятно — он просто медленный, то с Regex не всё так однозначно — скорее всего задачу можно решить более оптимальным способом.
Выводы
Выводы, наверное, каждый сделал для себя сам. От себя добавлю, что оптимальным выбором сейчас будет AngleSharp, так как он активно разрабатывается, облатает интуитивным API и показывает хорошо время обработки. Имеет ли смысл перебегать на AngleSharp с HtmlAgilityPack? Скорее всего нет — ставим Fizzler и радуемся очень быстрой и удобной библиотеке.
Всем спасибо за внимание.
Весь код можно найти в репозитории на github. Любые дополнения и/или изменения только приветствуются.
Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.