Что мы сделали

завершен

HTML Parser

Парсер HTML кода на PHP.

Все инструменты написаны на php. Все исходники свободны при условии, что вы оставите ссылку на автора.

Разбирает гипертекст, строит дерево элементов. Позволяет легко и просто выдернуть любой фрагмент кода из любой страницы. Для этого и разрабатывался. Кроме того реализованы функции вывода полученной структуры для целей отладки. В 3ей и 4ой версии присутствует инструмент для исследования связей документов на предмет последующей разборки, нарезки и склейки. :) Использует парсер. Очевидно с некоторых пор не актуален, поскольку в последних версиях пхп появился встроенный разборщик.

Исходники практически не документированы, однако, если приспичит можно разобраться на примерах.

Версия 4.(2004)

Описание

Хостер перешел в защищенный режим, fopen сломался. Потому появилась версия работающая на curl модуле. В WebSurfer убрал глубину, лень переделывать.

Версия 3.(2004)

Описание

Версия 3 - полностью переделанный парсер. Разборка производится на лету (так же как и в версии 2). Изменен сам алгоритм разборки. Синтаксический разборщик сделан как конечный автомат, без всяких там вложенных процедур, чистое структурное программирование. Определение вложенности тэгов производится рекурсивно. Самая быстрая версия. Добавил Web Surfer - тула для исследования ссылок.

Версия 2.(2003)

Описание

Версия 2 - Разборка осуществляется на стадии чтения, т.е. читает и разбирает одновременно, а потом уже выводит. А так то же самое. Работает быстрее. Но мало тестировалась.

Версия 1.(2003)

Описание

Версия 1 - Самая первая версия. Работает, но медлено. Сначала читает страницу, затем парсит. В конце выводит.

Цель

  • Разработать инструмент для извлечения данных из html страниц.

Список работ

  • Программирование

Их выполняли

  • Ветер

Используемые технологии

  • PHP

[Разработка “Ветер”, Владивосток 2006]