Web archive downloader linux

wget and web.archive.org

Столкнулся с проблемой и никак не могу ее решить, возможно здесь найду решение. Итак: нужно с помощью wget вытащить сайт из вебархива. Сам сайт _rosi.ru

Использовал ключи, которые не помогли. Некоторые из этих ключей просто скачиваю роботс и индексный (главную страницу сайта) файл хтмл. Вот сами ключи:

wget64.exe -m -HErkp -np -D web.archive.org -k -x -P -U «Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; QQ)» -o -nv -e robots=off

wget -r -k -l 7 -p -E -nc wget -k -x -P -np wget -r -l 12 wget -r -k -l 7 -p -E -nc http://site.com/ wget -k -x -P -U -o -nv -e robots=off

Сам работаю из под винды, но у меня установлен терминал как у самого линукса — mintty 2.8.5

UPD1: с помощью этого ключа вытянул всего 42 файла, но я то знаю, что там больше. Сам ключ: wget -np -e robots=off —mirror —domains=staticweb.archive.org,web.archive.org

Итак: нужно с помощью wget вытащить сайт из вебархива.

А чего не хочешь попробовать что-то типа такого?: https://github.com/hartator/wayback-machine-downloader
Если не хочешь гадить систему, то подними временную виртуалку, установить прогу, подмонтируй директорию а как скачает просто грохни.

Это уже стоит и выкачивает, но структура самого сайта — такая никакая. Оно что-то не то делает. Этой прогой выкачано более 6000 файлов, но то ли там все нужно переименовывать, то ли саму структуру вручную менять, а это не 100 файлов. Вот поэтому ищу как можно с помощью стандартной утилиты линукса вытянуть сам сайт.

на локалке сам сайт имеет вид: file:///D:/sites/websites/www.rosimed.ru/index.html

хочешь потом перейти по адрессу: file:///D:/sites/websites/products/medical/mrentgen — сайт падает: file not found

Падает так как структура поменялась, из последнего адресса выпала директория: _http://www.rosimed.ru (знак подчеркивание не в счет)

file:///D:/sites/websites/http://www.rosimed.ru/products/medical/mrentgen но после такого адресса идет структура вот так:

И это во всех папках и подпапках

С помощью нотепад, поменять структуру — не получается. Все равно одно и то же.

как скачать весь интернет?

Повесилил, молодец, садись — пять.

В том то и вся проблема, что весь не нужен, а нужно только определенное, а это уже становится почти невозможным. Вот поэтому и ищу, кто мог бы помочь, возможно и за не бесплатно. Главное, чтобы работало.

Источник

Как скачать сайт из веб-архива

Легкий и бесплатный способ скачать сайт из веб-архива — это использование специально утилиты, написанной на Ruby, — wayback_machine_downloader. Большинство мануалов в Сети посвящено тому, как установить и запустить ее на сервере под управлением Unix, в результате чего пользователи, работающие под Windows и не имеющие собственных серверов, оказываются слегка обделенными.

В этой статье мы расскажем о том, как просто установить Ruby и Wayback machine downloader на Windows и скачать сайт из веб-архива одним кликом.

Для начала отправляйтесь на официальный сайт Ruby (rubyinstaller.org), а затем в разделе Download найдите нужную вам версию, например, rubyinstaller-devkit-2.5.5-1-x64.exe.

В настоящее время установка Ruby на Windows весьма упрощена и требует лишь запуска специального инсталлятора, в чей состав уже входит Devkit, который понадобиться для работы wayback machine downloader. После его загрузки просто запустите его как обычную программу.

После того, как Ruby будет установлен, найдите в меню Пуск программу Start Command Promt with Ruby, после чего перед вами появится командная строка. Используя ее, установите в систему wayback_machine_downloader следующей командой:

gem install wayback_machine_downloader

Спустя некоторое время, в командной строке появится уведомление о том, что программа успешно установлена.

Читайте также:  Powerquest partition magic для windows

Теперь вы можете скачивать сайты из web-архива всего лишь одной командой. Для этого введите в командную строку запрос wayback_machine_downloader http://example.com.

После этого wayback machine downloader начнет свою работу, а в командной строке будут отображаться названия скачиваемых файлов, а также их количество.

Наиболее частая ошибка, с которой вы можете столкнуться на данном этапе — это невозможность подключиться к веб-архиву, которая будет выглядеть так:

C:/Ruby25-x64/lib/ruby/2.5.0/net/http.rb:939:in `rescue in block in connect’: Failed to open TCP connection to web.archive.org:80 (A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond. — connect(2) for «web.archive.org» port 80) (Errno::ETIMEDOUT)

Для ее устранения обычно достаточно всего лишь отключить антивирус, блокирующий работу Ruby.

Куда скачивает файлы Wayback machine downloader

Дополнительной командой —directory можно указать утилите, куда именно необходимо скачивать файлы. Однако необходимо учитывать, что по умолчанию утилита считает основной директорией путь c:\Users\Admin, поэтому, вероятнее всего, скаченные файлы надо будет искать именно там.

Например, если задать Wayback machine downloader команду —directory d://1/, то утилита будет скачивать файлы по пути c:\Users\Admin\D%3a\1\.

Если вы никак не можете определить, куда именно сохраняется сайт, просто произведите поиск по имени любого скачиваемого файла.

Учтите, что Wayback machine downloader скачивает файлы «как есть», а значит, в них будет содержаться большое количество мусора, включая рекламные блоки, счетчики, внешние ссылки и прочая информация. Поэтому перед размещением не забудьте удалить с web-страниц всю лишнее.

Источник

Инструменты Kali Linux

Список инструментов для тестирования на проникновение и их описание

Wayback Machine Downloader

Описание Wayback Machine Downloader

Загружает полностью веб-сайт из Интрнет архива Wayback Machine.

Программа загрузит последнюю версию каждого файла, присутствующего в Архиве Интернета Wayback Machine, и сохранить его в папку вида ./websites/example.com/. Она также пересоздаст структуру директорий и автоматически создаст страницы index.html чтобы скаченный сайт без каких либо изменений можно было бы поместить на веб-сервер Apache или Nginx.

Все загружаемые файлы являются оригинальными, а не переписанными версиями Wayback Machine.

В конечном итоге получается зеркало сайта с такой же структурой URL и ссылок как и исходный сайт.

Справка по Wayback Machine Downloader

Руководство по Wayback Machine Downloader

Страница man отсутствует.

Примеры запуска Wayback Machine Downloader

Для скачивания полной копии сайта suip.biz из веб-архива:

Только вывести ссылки на файлы из архива сайта hackware.ru, но ничего не загружать (-l) и сохранить эти ссылки в файл (> hackware-urls.json):

Установка Wayback Machine Downloader

Установка в Kali Linux

Установка в BlackArch

Информация об установке в другие операционные системы будет добавлена позже.

Источник

Wayback machine downloader. Восстанавливаем сайт из веб-архива.

Случалось полностью потерять все данные сайта? Актуальные версии файлов, бекапы, бекапы бекапов (вы ведь их делаете, да?)… Полная потеря данных, конечно же явление редкое, но и такое у людей происходит. В такие моменты серьёзно выручает возможность оперативно восстановить хоть что-то, что бы вернуть ресурс в работу. Одним из мест откуда можно быстро восстановить данные является веб-архив. А для него есть wayback machine downloader — отличная утилита, которая может быть установлена в том числе и на сервер.

1. Для установки нам потребуется ruby (команда в зависимости от дистрибутива):

2. Ставим саму утилиту. Установка не требует прав суперпользователя, так как это один из гемов ruby:

3. Скачиваем нужный нам сайт:

Собственно, всё. Скачанные файлы будут доступны в

У утилиты есть несколько параметров, которые могут помочь при скачивании ресурса:

Параметрами -f (—from) и -t (—to) можно указать первый и последний таймштампы в рамках которых будут скачаны файлы. Таймштамп можно взять из URL при просмотре веб-архива.

Параметр -o (—only) позволит указать фильтр, и при скачивании будут сохранены только те страницы, где вхождение заданное в фильтре используется.

Параметр -x (—exclude) задаёт исключения. Совпадающие с указанным здесь вхождением адреса не будут скачаны.

Дальнейшая обработка скачанного завивит от задач. Можно сразу же скопировать данные в директорию для файлов сайта, можно внести необходимые изменения в файлы, например, с помощью sed…

Читайте также:  Рамки окна linux mint

Сделаем бекап текущего состояния:

Переносим сайт с http на https:

Удаляем код гугл-аналитики (осторожно, код может измениться и инструкция не сработает корректно, напишите в комментарии если так произошло, рассмотрим ваш случай):

Удалем код Liveinternet:

В общем, с помощью sed можно сделать практически всё что угодно — удалить, модифицировать, вставить нужную информацию. Разумеется, так как утилита вызывается из командной строки, её без проблем можно использовать в скриптах.

Пример восстановленного сайта — nokia-faq.ru (был выбран случайно, исключительно из академического интереса тогда). Весь процесс — скачиваем, обрабатываем sed’ом, очищаем лишнее — занял у меня примерно 30 минут, так что в слуаях когда потеряно всё, а восстановить доступность ресурса нужно быстро и хоть как-то, утилитой wayback machine downloader стоит попробовать воспользоваться.

One thought on “ Wayback machine downloader. Восстанавливаем сайт из веб-архива. ”

Могли бы помочь? Скачал сайт с помощью этой утилиты. Всё прекрасно. А как можно теперь запустить этот скачанный сайт локально, чтоб всё работало на локальной машине, а не обращалось при переходе по ссылкам во внешний мир и — естественно — ничего толком не работает.
Можно ли так сделать? Апач есть. Что и как нужно сделать, чтоб можно просматривать сайт локально?
Спасибо.

Источник

Как скачать сайт из вебархива

Обращаю ваше внимание на то, что все операции производятся в операционной системе Ubuntu (Linux). Как все это провернуть на Windows я не знаю. Если хотите все проделать сами, а у вас Windows, то можете поставить VirtualBox, а на него установить ту же Ubuntu. И приготовьтесь к тому, что сайт будет качаться сутки или даже двое. Однажды один сайт у меня скачивался трое суток.

По сути, на текущий момент мы имеем два сервиса с архивом сайтов. Это российский сервис web-archiv.ru и зарубежный archive.org. Я скачивал сайты с обоих сервисов. Только вот в случае с первым, тут не все так просто. Для этого был написан скрипт, который требует доработки, но поскольку мне он более не требуется, соответственно я не стал его дорабатывать. В любом случае его вполне достаточно на то, что бы скачать страницы сайта, но приготовьтесь к ошибкам, поскольку очень велика вероятность появления непредусмотренных особенностей того или иного сайта.

Первым делом я расскажу о том, как скачать сайт с web.archive.org, поскольку это самый простой способ. Вторым способом имеет смысл воспользоваться если по каким-то причинам копия сайта на web.archive.org окажется неполной или её не окажется совсем. Но скорее всего вам вполне хватит первого способа.

Принцип работы веб-архива

Прежде чем пытаться восстанавливать сайт из веб-архива, необходимо понять принцип его работы, который является не совсем очевидным. С особенностями работы сталкиваешься только тогда, когда скачаешь архив сайта. Вы наверняка замечали, попадая на тот или иной сайт, сообщение о том, что домен не продлен или хостинг не оплачен. Поскольку бот, который обходит сайты и скачивает страницы, не понимает что подобная страница не является страницей сайта, он скачивает её как новую версию главной страницы сайта.

Таким образом получается если мы скачаем архив сайта, то вместо главной страницы будем иметь сообщение регистратора или хостера о том, что сайт не работает. Чтобы этого избежать, нам необходимо изучить архив сайта. Для этого потребуется просмотреть все копии и выбрать одну или несколько где на главной странице страница сайта, а не заглушка регистратора или хостера.

Качаем сайт с web.archive.org

Процесс восстановления сайта из веб-архива я покажу на примере сайта 1mds.ru. Я не знаю что это за сайт, я всего лишь знаю что у него в архиве много страниц, а это значит что сайт не только существовал, но с ним работали.

Для того, что бы открыть архив нужного сайта, нам необходимо пройти по такой вот ссылке:

На 24 ноября 2018 года, при открытии этой ссылки я обнаружил вот такую картину:

Как видите на главной зафиксировались результаты экспериментов с программной частью. Если мы просто скачаем сайт как есть, то в качестве главной будет именно эта страница. нам необходимо избежать попадания в архив таких страниц. Как это сделать? Довольно просто, но для начала необходимо определить когда последний раз в архив добавлялась главная страница сайта. Для этого нам необходимо воспользоваться навигацией по архиву сайта, которая расположена вверху справа:

Читайте также:  Download with git linux

Кликаем левую стрелку ибо правая все равно не активна, и кликаем до тех пор, пока не увидим главную страницу сайта. Возможно кликать придется много, бывает домены попадаются с весьма богатым прошлым. Например сайт, на примере которого я демонстрирую работу с архивом, не является исключением.

Вот мы можем видеть что 2 мая 2018-го бот обнаружил сообщение о том, что домен направлен на другой сайт:

Классика жанра, регистрируешь домен и направляешь его на существующий дабы не тратить лимит тарифа на количество сайтов.

А до этого, 30 марта, там был вообще блог про шитье-вязание.

Долистал я до 23 октября 2017-го и вижу уже другое содержимое:

Тут мы видим уже материалы связанные с воспитанием ребенка. Листаем дальше, там вообще попадается период когда на домене была всего одна страница с рекламой:

А вот с 25 апреля 2011 по 10 сентября 2013-го там был сайт связанный с рекламой. В общем нам нужно определиться какой из этих периодов мы хотим восстановить. К примеру я хочу восстановить блог про шитье-вязание. Мне необходимо найти дату его появления и дату когда этот блог был замечен там последний раз.

Я нашел последнюю дату, когда блог был на домене и скопировал ссылку из адресной строки:

  • http://web.archive.org/web/ 20180330034350 /http://1mds.ru:80/

Мне нужны цифры после web/, я их выделил красным цветом. Это временная метка, когда была сделана копия. Теперь мне нужно найти первую копию блога и также скопировать из URL временную метку. Теперь у нас есть две метки с которой и до которой нам нужна копия сайта. Осталось дело за малым, установить утилиту, которая поможет нам скачать сайт. Для этого потребуется выполнить пару команд.

  • sudo apt install ruby
  • sudo gem install wayback_machine_downloader

После чего останется запустить скачивание сайта. Делается это вот такой командой:

  • wayback_machine_downloader -f20171223224600 -t20180330034350 1mds.ru

Таким образом мы скачаем архив с 23/12/2017 по 30/03/2018. Файлы сайта будут сохранены в домашней директории в папке «websites/1mds.ru». Теперь остается закинуть файлы на хостинг и радоваться результату.

Качаем сайт с web-arhive.ru

Это самый геморройный вариант ибо у данного сервиса нет возможности скачать сайт как у описанного выше. Соответственно пользоваться этим вариантом есть смысл пользоваться только в случае если нужно скачать сайт, которого нет на web.archive.org. Но я сомневаюсь что такое возможно. Этим вариантом я пользовался по причине того, что не знал других вариантов,а поискать поленился.

В итоге я написал скрипт, который позволяет скачать архив сайта с web-arhive.ru. Но велика вероятность того, что это будет сопровождаться ошибками, поскольку скрипт сыроват и был заточен под скачивание определенного сайта. Но на всякий случай я выложу этот скрипт.

Пользоваться им довольно просто. Для запуска скачивания необходимо запустить этот скрипт все в той же командной строке, где в качестве параметра вставить ссылку на копию сайта. Должно получиться что-то типа такого:

  • php get_archive.php «http://web-arhive.ru/view2?time=20160320163021&url=http%3A%2F%2Fremontistroitelstvo.ru%2F»

Заходим на сайт web-arhive.ru, в строке указываем домен и жмем кнопку «Найти». Ниже должны появится года и месяцы в которых есть копии.

Обратите внимание на то, что слева и справа от годов и месяцев есть стрелки, кликая которые можно листать колонки с годами и месяцами.

Остается найти дату с нужной копией, скопировать ссылку из адресной строки и отдать её скрипту. Не забывает помещать ссылку в кавычки во избежание ошибок из-за наличия спецсимволов.

Мало того, что само скачивание сопровождается ошибками, более того, в выбранной копии сайта может не быть каких-то страниц и придется шерстить все копии на предмет наличия той или иной страницы.

Помощь в скачивании сайта из веб-архива

Если у вас вдруг возникли трудности в том, что бы скачать сайт, можете воспользоваться моими услугами. Буду рад помочь. Для начала заполните и отправьте форму ниже. После этого я с вами свяжусь и мы все обсудим.

Источник

Оцените статью