правила/FAQ

регистрация

Версия для распечатки

Пред. тема | След. тема

Новые ответы

[ Отслеживать ]

частичный вывод текста из HTML,

santin, 09-Июл-09, 16:27 [смотреть все]

Здравствуйте, кто сможет подсказать, как мне возможно из всей страницы вытащить только текст описания???
Код который выводит требуемую страницу:
#!/usr/bin/perl -w
use strict;
use LWP::Simple;
my $url = 'http://koodoo.ru/index.php?type=distribution&page=tradegood&...';
my $content = getprint($url);
die "Couldn't get $url" unless defined $content;

Вы уж простите, но я в этом деле новичок, пробовал с помощью HTML::TreeBuilder, HTML::TokeParser; но почему то у меня ничего не получается...
Или дайте хотя б образец скрипта.

Ответить | Сообщить модератору

частичный вывод текста из HTML, аноним, 21:55 , 09-Июл-09 (1)
Тебе нужен HTML::TreeBuilder::XPath. Работает примерно так:
---
$tree = HTML::TreeBuilder::XPath->new;
$tree->parse_content($html_data);
foreach my $node ($tree->findnodes('//table/tbody/tr[9]/td[2]')) {
print $node->getValue();
}
$tree->delete; # иначе память потечет
---
С помощью XPath указываешь какой именно элемент страницы тебе нужен. Тут полезные примеры по нему:
http://www.zvon.org/xxl/XPathTutorial/Output_rus/example1.html
Здорово помогает FF расширение XPather - можно ткнуть в элемент, получить его полный путь, упростить его и проверить, не захватывает ли он чего лишнего.
Ответить | Сообщить модератору

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру