Руководство пользователя WebPump
WebPump – комплекс утилит позволяющих скачивать файлы с сайтов, дублировать сайты

Поле 1 может содержать:
1. URL
2. Путь к файлу со списком URL
3. Путь к HTML файлу в котором будут искаться URLы
WebPump Main Menu
Установки закачки:
Поле 2 определяет ссылки, которые будут включены (Разрешены символы *,?
* — любая строка, ? — любой символ)
Поле 3 определяет ссылки, которые будут исключены (Разрешены символы *,?)
Поле 4 определяет расширения файлов для закачки (например: .jpg, .flv)
Поле 5 определяет глубину вложения работы парсера

Рекомендую всегда ставить * вокруг ссылок в поле Include вместо site.com писать *site.com* Это разрешит скачку со всех ссылок вида abc.site.com/adasd/asdsa Если надо запретить с определенного урл, можно прописать в Exclude списке

Пример 1: хотим скачать ролики с главной страницы http://tube8.com
Настройки:
URL http://tube8.com
Include: *tube8.com* – т.к. все файлы лежат на ссылках вида uadasad123.tube8.com
Если не указать *, то будут качаться только с tube8.com
Extensions: .flv
Recursion: 2
Extra Scan=On - т.к. нет прямых ссылок из html, все генерятся и есть ссылки вида url=”adassd.ssa.tube8.com/sdasdsd/sdasdsad.flv”

Пример 2:
Цель скачать http://blackninja2000.narod.ru
Extensions: .jpg, .jpeg, .png, .zip
Offline Browsing=On
Остальные настройки можно не трогать

Пример 3:
Есть сайт http://site1.com
С него идут ссылки на картинки на сайт http://site2.com
Если не добавить site2.com в список включения (Include), то ничего не будет скачано. Поэтому:
URL: http://site1.com
Include *site2.com*
Extensions: тут расширения, какие надо

Настройки
WebPump Settings
Scanner Rules:
Подсказка сканеру про содержимомое CGI-ссылок
Force as HTML – все CGI ссылки являются HTML (быстро)
Force as resourse - все CGI ссылки являются не HTML (работает быстро)
Query MIME – получить тип автоматически (работает дольше)

Extra scan:
Указание искать ссылки на странице по расширениям. Применяется там, где нет прямых ссылок вида <..src=”assdasd”> <..href=”cxczz”>
Downloader:
Direct Download – качать встроенной качалкой

Create Files List – не качать файлы, создать файл-список с ссылками
External Downloader – использовать внешнюю программу-качалку(рекомендуется для больших файлов, например, wget)

Random Wait:
Случайное время ожидания между закачками, (эмуляция работы пользователя, и защита от бана сервером, защита сервера от перегрузок канала)

Helper Logs
Log 1 – выводит ссылки которые удовлетворяют установкам Include/Exclude. Если ссылка на файл на странице есть, а в логе нет, значит надо добавить в список Include.
Log 2 – выводит ВСЕ найденные на странице ссылки
WebPump Settings

Определяет заголовки отправки серверу.
Для продвинутых пользователей, знакомых со сниферами, есть возможность скачивать с закрытых форумов, естесственно, доступ к нему должен быть
1. Заходим на форум браузером
2. Получаем снифером поле сессии/кукисы, например PHPSESSIONID=ab212313131 и доп. Заголовки
3. Вставляем в настройки

Если все правильно, то будет отправляться сессия и сервер будет думать, что пользователь залогинен и можно скачивать
WebPump Settings
Прокси сервер через который будет все работать
Список серверов и логин-пароль пользователя не поддерживаются(Возможно в будущем)

WebPump Settings


User Agent – идентификатор браузера, добавил всего 2, но можно прописать свой
External Downloader Command Line – командная строка внешней утилиты для закачки
Рекомендую wget, и не трогать строку

Web Interface – включает удаленный доступ к проге. (пока что тестовая версия)

Утилиты
Urlgen.exe – генератор ссылок.
WebPump Settings
На входе строка, на выходе файл с сгенерированными ссылками.
Формат строки: http://sitesite%d.htm
%d - в этом месте будут проставляться цифры
Min= начальное значение
Max=конечное значение
Step=шаг

Пример:
http://hostname/dir%d.html
Min=0
Max=3
Step=1

Будет файл со след. содержанием:
http://hostname/dir0.html
http://hostname/dir1.html
http://hostname/dir2.html
http://hostname/dir3.html


copy2same.exe – утилита для копирования файлов в одну папку. Например скачал файлы. WebPump строит древовидную структуру папок, так же как и на сайте, поэтому может быть так что все файлы разбросаны по папкам и неудобно просматривать. Для этого и предназначена утилита.
WebPump Settings
In- базовая директория, откуда берутся файлы
Out- куда будут складываться.
Recursive – копировать рекурсивно
Split Files (Count) – разбить файлы по папкам Count –количество файлов в каждой папке. (неудобно смотреть, если файлов ОЧЕНЬ много)




delbyext.exe – удаление файлов по указанному расширению. Будьте осторожны
WebPump Settings
© black_ninja    http://blackninja2000.narod.ru

Используются технологии uCoz