forum.opennet.ru - "частичный вывод текста из HTML" (1)

форумы

помощь

поиск

регистрация

майллист

вход/выход

слежка

"частичный вывод текста из HTML"

Форумы Программирование под UNIX (Public)
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"частичный вывод текста из HTML"		+/–
Сообщение от santin (ok) on 09-Июл-09, 16:27
Здравствуйте, кто сможет подсказать, как мне возможно из всей страницы вытащить только текст описания??? Код который выводит требуемую страницу: #!/usr/bin/perl -w use strict; use LWP::Simple; my $url = 'http://koodoo.ru/index.php?type=distribution&page=tradegood&...'; my $content = getprint($url); die "Couldn't get $url" unless defined $content; Вы уж простите, но я в этом деле новичок, пробовал с помощью HTML::TreeBuilder, HTML::TokeParser; но почему то у меня ничего не получается... Или дайте хотя б образец скрипта.
Высказать мнение \| Ответить \| Правка \| Cообщить модератору

Оглавление

частичный вывод текста из HTML, аноним, 21:55 , 09-Июл-09, (1)

Сообщения по теме [Сортировка по времени | RSS]

1. "частичный вывод текста из HTML" +/–

Сообщение от аноним on 09-Июл-09, 21:55

Тебе нужен HTML::TreeBuilder::XPath. Работает примерно так:
---
$tree = HTML::TreeBuilder::XPath->new;
$tree->parse_content($html_data);
foreach my $node ($tree->findnodes('//table/tbody/tr[9]/td[2]')) {
print $node->getValue();
}
$tree->delete; # иначе память потечет
---
С помощью XPath указываешь какой именно элемент страницы тебе нужен. Тут полезные примеры по нему:
http://www.zvon.org/xxl/XPathTutorial/Output_rus/example1.html
Здорово помогает FF расширение XPather - можно ткнуть в элемент, получить его полный путь, упростить его и проверить, не захватывает ли он чего лишнего.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. "частичный вывод текста из HTML"		+/–
Сообщение от аноним on 09-Июл-09, 21:55
Тебе нужен HTML::TreeBuilder::XPath. Работает примерно так: --- $tree = HTML::TreeBuilder::XPath->new; $tree->parse_content($html_data); foreach my $node ($tree->findnodes('//table/tbody/tr[9]/td[2]')) { print $node->getValue(); } $tree->delete; # иначе память потечет --- С помощью XPath указываешь какой именно элемент страницы тебе нужен. Тут полезные примеры по нему: http://www.zvon.org/xxl/XPathTutorial/Output_rus/example1.html Здорово помогает FF расширение XPather - можно ткнуть в элемент, получить его полный путь, упростить его и проверить, не захватывает ли он чего лишнего.
Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору