The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"частичный вывод текста из HTML"
Вариант для распечатки  
Пред. тема | След. тема 
Форумы Программирование под UNIX (Public)
Изначальное сообщение [ Отслеживать ]

"частичный вывод текста из HTML"  +/
Сообщение от santin (ok) on 09-Июл-09, 16:27 
Здравствуйте, кто сможет подсказать, как мне возможно из всей страницы вытащить только текст описания???

Код который выводит требуемую страницу:

#!/usr/bin/perl -w

use strict;
use LWP::Simple;

my $url = 'http://koodoo.ru/index.php?type=distribution&page=tradegood&...';

my $content = getprint($url);
die "Couldn't get $url" unless defined $content;


Вы уж простите, но я в этом деле новичок, пробовал с помощью HTML::TreeBuilder, HTML::TokeParser; но почему то у меня ничего не получается...
Или дайте хотя б образец скрипта.

Высказать мнение | Ответить | Правка | Cообщить модератору

 Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "частичный вывод текста из HTML"  +/
Сообщение от аноним on 09-Июл-09, 21:55 
Тебе нужен HTML::TreeBuilder::XPath. Работает примерно так:

---
$tree = HTML::TreeBuilder::XPath->new;
$tree->parse_content($html_data);

foreach my $node ($tree->findnodes('//table/tbody/tr[9]/td[2]')) {
  print $node->getValue();
}

$tree->delete; # иначе память потечет
---

С помощью XPath указываешь какой именно элемент страницы тебе нужен. Тут полезные примеры по нему:
http://www.zvon.org/xxl/XPathTutorial/Output_rus/example1.html

Здорово помогает FF расширение XPather - можно ткнуть в элемент, получить его полный путь, упростить его и проверить, не захватывает ли он чего лишнего.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру