Этичный хакинг и тестирование на проникновение, информационная безопасность
Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты
Что такое Wayback Machine и Архивы Интернета
В этой статье мы рассмотрим Веб Архивы сайтов или Интернет архивы: как искать удалённую с сайтов информацию, как скачать больше несуществующие сайты и другие примеры и случаи использования.
Принцип работы всех Интернет Архивов схожий: кто-то (любой пользователь) указывает страницу для сохранения. Интернет Архив скачивает её, в том числе текст, изображения и стили оформления, а затем сохраняет. По запросу сохранённые страницу могут быть просмотрены из Интернет Архива, при этом не имеет значения, если исходная страница изменилась или сайт в данный момент недоступен или вовсе перестал существовать.
Многие Интернет Архивы хранят несколько версий одной и той же страницы, делая её снимок в разное время. Благодаря этому можно проследить историю изменения сайта или веб-страницы в течение всех лет существования.
В этой статье будет показано, как находить удалённую или изменённую информацию, как использовать Интернет Архивы для восстановления сайтов, отдельных страниц или файлов, а также некоторые другие случае использования.
Wayback Machine — это название одного из популярного веб архива сайтов. Иногда Wayback Machine используется как синоним «Интернет Архив».
Какие существуют веб-архивы Интернета
Я знаю о трёх архивах веб-сайтов (если вы знаете больше, то пишите их в комментариях):
- https://web.archive.org/
- http://archive.md/ (также использует домены http://archive.ph/ и http://archive.today/)
- http://web-arhive.ru/
web.archive.org
Этот сервис веб архива ещё известен как Wayback Machine. Имеет разные дополнительные функции, чаще всего используется инструментами по восстановлению сайтов и информации.
Для сохранения страницы в архив перейдите по адресу https://archive.org/web/ введите адрес интересующей вас страницы и нажмите кнопку «SAVE PAGE».
Для просмотра доступных сохранённых версий веб-страницы, перейдите по адресу https://archive.org/web/, введите адрес интересующей вас страницы или домен веб-сайта и нажмите «BROWSE HISTORY»:
В самом верху написано, сколько всего снимком страницы сделано, дата первого и последнего снимка.
Затем идёт шкала времени на которой можно выбрать интересующий год, при выборе года, будет обновляться календарь.
Обратите внимание, что календарь показывает не количество изменений на сайте, а количество раз, когда был сделан архив страницы.
Точки на календаре означают разные события, разные цвета несут разный смысл о веб захвате. Голубой означает, что при архивации страницы от веб-сервера был получен код ответа 2nn (всё хорошо); зелёный означает, что архиватор получил статус 3nn (перенаправление); оранжевый означает, что получен статус 4nn (ошибка на стороне клиента, например, страница не найдена), а красный означает, что при архивации получена ошибка 5nn (проблемы на сервере). Вероятно, чаще всего вас должны интересовать голубые и зелёные точки и ссылки.
При клике на выбранное время, будет открыта ссылка, например, http://web.archive.org/web/20160803222240/https://hackware.ru/ и вам будет показано, как выглядела страница в то время:
Используя эту миниатюру вы сможете переходить к следующему снимку страницы, либо перепрыгнуть к нужной дате:
Лучший способ увидеть все файлы, которые были архивированы для определённого сайта, это открыть ссылку вида http://web.archive.org/*/www.yoursite.com/*, например, http://web.archive.org/*/hackware.ru/
Кроме календаря доступна следующие страницы:
- Collections — коллекции. Доступны как дополнительные функции для зарегистрированных пользователей и по подписке
- Changes
- Summary
- Site Map
Changes
«Changes» — это инструмент, который вы можете использовать для идентификации и отображения изменений в содержимом заархивированных URL.
Начать вы можете с того, что выберите два различных дня какого-то URL. Для этого кликните на соответствующие точки:
И нажмите кнопку Compare. В результате будут показаны два варианта страницы. Жёлтый цвет показывает удалённый контент, а голубой цвет показывает добавленный контент.
Summary
В этой вкладке статистика о количестве изменений MIME-типов.
Site Map
Как следует из название, здесь показывается диаграмма карты сайта, используя которую вы можете перейти к архиву интересующей вас страницы.
Поиск по Интернет архиву
Если вместо адреса страницы вы введёте что-то другое, то будет выполнен поиск по архивированным сайтам:
Показ страницы на определённую дату
Кроме использования календаря для перехода к нужной дате, вы можете просмотреть страницу на нужную дату используя ссылку следующего вида: http://web.archive.org/web/ГГГГММДДЧЧММСС/АДРЕС_СТРАНИЦЫ/
Обратите внимание, что в строке ГГГГММДДЧЧММСС можно пропустить любое количество конечных цифр.
Если на нужную дату не найдена архивная копия, то будет показана версия на ближайшую имеющуюся дату.
archive.md
Адреса данного Архива Интернета:
- http://archive.md
- http://archive.ph/
- http://archive.today/
На главной странице говорящие за себя поля:
- Архивировать страницу, которая сейчас онлайн
- Искать сохранённые страницы
Для поиска по сохранённым страницам можно как указывать конкретный URL, так и домены, например:
- microsoft.com покажет снимки с хоста microsoft.com
- *.microsoft.com покажет снимки с хоста microsoft.com и всех его субдоменов (например, www.microsoft.com)
- http://twitter.com/burgerkingfor покажет архив данного url (поиск чувствителен к регистру)
- http://twitter.com/burg* поиск архивных url начинающихся с http://twitter.com/burg
Поиск похожих сайтов. Инструменты для мониторинга конкурентов
Сегодня мы поговорим о том, как организовать поиск похожих сайтов. Да, действие это полезное. Его на полных правах можно соотнести с анализом конкурентов. Способов такого анализа немало. Расскажу о достоверных и интересных.
О некоторых методах я уже писал в статьях “Составить семантическое ядро. Инструменты для сео” и “Как бесплатно раскрутить сайт. Искусство СЕО”. Там подробная информация о сервисах — рейтингах и некоторых других нюансах. А сейчас мы подойдем к вопросу с другого угла, и обсудим альтернативные способы поиска конкурентов, среди которых лучшие инструменты:
Дешево и сердито
Просто вбиваете в компьютере запрос по вашему направлению и анализируете результаты. Допустим, у вас свой бизнес по продаже и монтажу натяжных потолков. Как вариант — вводите запрос «установка натяжных потолков”. Получите примерно такой информационный вывод:

Дело в шляпе. Шагаете по сайтам из выдачи. Используя опыт, который имеется у вас, осуществляете анализ.
Учтите, что руководствоваться вы можете только собственным опытом и знаниями, так как процесс происходит без применения сторонних сервисов.
Инструмент Google: related
Для улучшения показателей на помощь приходит оператор от Google под броским названием “Related:”
Нацелен он на поиск тематически похожих ресурсов.
Для получения результата надо вбить в поисковую строчку Гугла команду, а вслед за ней адрес сайта.
Пример: related:lenta.ru

Как мы видим, с помощью данного оператора на экран выводятся новостные порталы, схожие с «лентой».
Так что владельцы небезызвестного портала предупреждены и вооружены по самое не хочу.
Такая же “операция” вполне осуществима и с вашим родным сайтом, независимо от направления.
Инструмент SimilarWeb
https://www.similarweb.com
Реальный инструмент — реальные результаты. Речь идет о сервисе SimilarSite, предназначенным для поиска соратников-конкурентов в автоматическом режиме.
Алгоритм действий прост до безобразия. Заходите на сервис, вводите адрес своего сайта, кликаете по Enter.
Для своего эксперимента мы продолжаем использовать lenta.ru
Вот что получилось в итоге:

Инструмент Megaindex
https://ru.megaindex.com/a/intersection

Лучший инструмент для сеошников и маркетологов.
Ресурс представляет собой инструментарий для продвижения и аналитики веб-ресурсов, которому посв е щена целая статья.
Так же помогает проверить внешние ссылки на сайт и найти похожие сайты. Учтите,что для практического применения понадобится регистрация, на что у людей не всегда хватает времени.
Инструмент Топвизор
https://topvisor.com
Еще один сервис полезный для сеошников всей страны. После проверки позиций “Топвизор” на специальной вкладке “Мои конкуренты” появляется соответствующий список.
Причем похожие сайты выводятся не рандомно, а по специальной методике с учетом средних позиций и запросов онлайн в топ 3 и топ 10!
Это позволяет отделить зерна от плевел и понять, у кого стоит поучиться, перенять опыт и подкорректировать вероятные ошибки.
Впрочем, найти конкурента можно не только с помощью веб-интерфейса, но и применяя
Расширение для браузеров:
Simular Pages
https://chrome.google.com/webstore/detail/google-similar-pages/pjnfggphgdjblhfjaphkjhfpiiekbbej/related
Работает в тандеме с Google Chrome. Принцип ничем не отличается от классической схемы. На панели инструментов появится специальная иконка, которая по запросу предоставляет список аналогичных вашему проектов в интернете.
Заключение
Итак, мы рассмотрели дополнительные методы поиска сайтов по тематике, схожей с вашей. Думаю, что каждый веб-мастер выбирает метод, наиболее предпочтительный для него. Для лучшего эффекта я предлагаю использовать сразу несколько методов в комбинации. И тогда вы будете иметь наиболее точное представление о конкурентах.
С уважением Аксель Фоули.
Источник: axelfoley.ru
Как найти старые сайты, которых больше не существует
В наше время Интернет стремительно развивается. Веб-сайты получают бесчисленное количество обновленных версий и новых дополнений. Иногда эти веб-сайты закрываются из-за закрытия компании и других подобных причин. Существует несколько исторических записей, которые позволяют вам видеть все старые версии веб-сайтов и их обновленные версии.
Иногда вы можете обнаружить, что определенный веб-сайт больше не доступен. Это может означать, что он удален, но здесь, в этой статье, вы узнаете, как найти старые веб-сайты, которых больше не существует. Итак, приступим.
