| |
Преположим Вы владеете сайтом, на который сваливается информация в формате *.doc. Много информации. Даже, быть может, структурированной. Необходимо эту информацию перевести в "божеский" вид, т.е. выцепить из таких файлов текст. Скачиваем следующие модули:
Unicode-Map
Startup
OLE-Storage
Устанавливаем их. Мне пришлось убрать строку N1099 при установке Startup. Ну, это вылилось в отсутствие мануала по одному из многочисленных методов этого модуля, ибо эта строчка находилась в самом конце моудля, где обычно находятся описания и комментарии.
Далее берем файл, удовлетворяющий описанным выше условиям и
пишем скрипт(предварительно прочитав man lhalw):
#!/usr/bin/perl
print qx[lhalw --to_stdout Label.doc]
А можно и просто из командной строки
[root@www OLE-Storage-0.386]# lhalw --to_stdout Label.doc
Кому: "ФАМИЛИЯ" "ИМЯ" "ОТЧЕСТВО"
------------------------------ ОБРАТНЫЙ АДРЕС ------------------------------
WWW.RBC.RU, отдел "Новости экономики".
[root@www OLE-Storage-0.386]#
А вообще, старайтесь сохранять файлы в формате *.rtf, ибо Microsoft Office
страдает поддержкой форматов только снизу вверх и для этого специально
введен
формат *.rtf, для совместимости Word различных версий.
Закладки на сайте Проследить за страницей |
Created 1996-2024 by Maxim Chirkov Добавить, Поддержать, Вебмастеру |