The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]




Версия для распечатки Пред. тема | След. тема
Новые ответы [ Отслеживать ]
частичный вывод текста из HTML, !*! santin, 09-Июл-09, 16:27  [смотреть все]
Здравствуйте, кто сможет подсказать, как мне возможно из всей страницы вытащить только текст описания???

Код который выводит требуемую страницу:

#!/usr/bin/perl -w

use strict;
use LWP::Simple;

my $url = 'http://koodoo.ru/index.php?type=distribution&page=tradegood&...';

my $content = getprint($url);
die "Couldn't get $url" unless defined $content;


Вы уж простите, но я в этом деле новичок, пробовал с помощью HTML::TreeBuilder, HTML::TokeParser; но почему то у меня ничего не получается...
Или дайте хотя б образец скрипта.

  • частичный вывод текста из HTML, !*! аноним, 21:55 , 09-Июл-09 (1)
    Тебе нужен HTML::TreeBuilder::XPath. Работает примерно так:

    ---
    $tree = HTML::TreeBuilder::XPath->new;
    $tree->parse_content($html_data);

    foreach my $node ($tree->findnodes('//table/tbody/tr[9]/td[2]')) {
      print $node->getValue();
    }

    $tree->delete; # иначе память потечет
    ---

    С помощью XPath указываешь какой именно элемент страницы тебе нужен. Тут полезные примеры по нему:
    http://www.zvon.org/xxl/XPathTutorial/Output_rus/example1.html

    Здорово помогает FF расширение XPather - можно ткнуть в элемент, получить его полный путь, упростить его и проверить, не захватывает ли он чего лишнего.




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру