Парсер HTML кода на PHP.
Все инструменты написаны на php. Все исходники свободны при условии, что вы оставите ссылку на автора.
Разбирает гипертекст, строит дерево элементов.
Позволяет легко и просто выдернуть любой фрагмент кода из любой страницы.
Для этого и разрабатывался. Кроме того реализованы функции вывода полученной
структуры для целей отладки. В 3ей и 4ой версии присутствует инструмент для исследования связей документов на предмет последующей
разборки, нарезки и склейки. :) Использует парсер. Очевидно с некоторых пор не актуален, поскольку в последних версиях пхп появился встроенный разборщик.
Исходники практически не документированы, однако, если приспичит можно разобраться на примерах.
Хостер перешел в защищенный режим, fopen сломался. Потому появилась версия работающая на curl модуле. В WebSurfer убрал глубину, лень переделывать.
Версия 3 - полностью переделанный парсер. Разборка производится на лету (так же как и в версии 2). Изменен сам алгоритм разборки. Синтаксический разборщик сделан как конечный автомат, без всяких там вложенных процедур, чистое структурное программирование. Определение вложенности тэгов производится рекурсивно. Самая быстрая версия. Добавил Web Surfer - тула для исследования ссылок.
Версия 2 - Разборка осуществляется на стадии чтения, т.е. читает и разбирает одновременно, а потом уже выводит. А так то же самое. Работает быстрее. Но мало тестировалась.
Версия 1 - Самая первая версия. Работает, но медлено. Сначала читает страницу, затем парсит. В конце выводит.