The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"какую либу выбрать для парсинга html:С++/С"
Вариант для распечатки  
Пред. тема | След. тема 
Форумы Программирование под UNIX (Public)
Изначальное сообщение [ Отслеживать ]

"какую либу выбрать для парсинга html:С++/С"  
Сообщение от Arifolth email(ok) on 31-Окт-07, 12:20 
всем привет!

встала необходимость написать кусок кода который будет парсить очень много HTMLя (конкретно - разных web страниц). он должен работать (желательно) очень быстро. HTML может быть иногда будет кривой, неправильный и т. д. главное скорость и надёжность парсера. очень желательно что бы он был на С++ (на крайняк С тоже подойдёт)
какую библиотечку выбрать?

я знаю что в некоторых больших проектах использовался libxml2, но он написан на С. это то к чему я склоняюсь.
есть libxml++ -врапер для libxml2 о ней я ничего не занаю. счас пойду смотреть код.
xerces c++ кажется бы подошёл но его может плющить если страница не соответствует спецификации XML. в доках так написано.
HTML Tidy Library ? хмммм
кто что может ещё предлдожить? варианты? мысли?
мне интересно что скажут местные мозги :-)

заранее благодарен за ответы!
_________________
WBR, Arifolth

Высказать мнение | Ответить | Правка | Cообщить модератору

 Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "какую либу выбрать для парсинга html:С++/С"  
Сообщение от vic (??) on 31-Окт-07, 13:27 
firefox (gesko) ?

=)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

2. "какую либу выбрать для парсинга html:С++/С"  
Сообщение от angra (ok) on 31-Окт-07, 15:15 
Парсить с какой целью? что вы хотите получить как результат парсинга?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

3. "какую либу выбрать для парсинга html:С++/С"  
Сообщение от Arifolth email(ok) on 31-Окт-07, 15:53 
>Парсить с какой целью? что вы хотите получить как результат парсинга?

ссылки которые будут в страницах

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

4. "какую либу выбрать для парсинга html:С++/С"  
Сообщение от AMDmi3 (??) on 31-Окт-07, 18:30 
>>Парсить с какой целью? что вы хотите получить как результат парсинга?
>ссылки которые будут в страницах

Тогда не легче ли использовать регулярные выражения, например pcre?
Кривость документа будет побоку и, скорее всего, будет работать быстрее.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

5. "какую либу выбрать для парсинга html:С++/С"  
Сообщение от angra (ok) on 01-Ноя-07, 06:42 
>ссылки которые будут в страницах

Так я и думал. Правильно вам посоветовали - используйте pcre. Это будет на несколько порядков быстрее и позволит вам искать ссылки даже в js коде, что не позволяет парсинг HTML. Примеры регексов для поиска ссылок можно найти гуглом, а можно изучить регексы и сделать самому.


Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

6. "какую либу выбрать для парсинга html:С++/С"  
Сообщение от Mike (??) on 06-Мрт-08, 11:59 
>>ссылки которые будут в страницах
>
>Так я и думал. Правильно вам посоветовали - используйте pcre. Это будет
>на несколько порядков быстрее и позволит вам искать ссылки даже в
>js коде, что не позволяет парсинг HTML. Примеры регексов для поиска
>ссылок можно найти гуглом, а можно изучить регексы и сделать самому.
>

Xerces-c

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема
Оцените тред (1=ужас, 5=супер)? [ 1 | 2 | 3 | 4 | 5 ] [Рекомендовать для помещения в FAQ]




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру