- Хроники. - -
Полная информация о сайте.
Posted By Ikutsin On 13 ноября 2008 @ 23:17 In Как? | Comments Disabled
Не стесняясь скажу, это пожалуй самая полезная из статей, по крайней мере на момент написания и по крайней мере для меня, которую я писал на своем блоге. Вся информация, выложенная здесь является абсолютно открытой, но разбросана по всему интернету. Я уверен, что еще не раз буду обращаться к сервисам, описанным здесь, и конечно к этой статье с дополнениями.
Надеюсь вся эта информация будет использована только в мирных целях, а не для сбора данных «об очередной жертве».
Для того, чтобы понять откуда берется информация, нужно знать некоторые особенности работы интернета.
Все сайты лежат на серверах. Так как сейчас интернет окутывает весь мир, пользователю практически все равно, как далеко от него расположен сервер. Для того, чтобы добраться до сайта используются сложные алгоритмы маршрутизации по протоколу TCP/IP, но это совсем другая история.
Каждому серверу присвоен свой IP — числовой код. Тоже самое и с клиентом, но в этом случае он может часто меняться и это выглядит немного сложней. Между двумя точками (компьютерами) образуется соединение (канал), с помощью которого они могут общаться. Так как на одном сервере (как в общем-то и на клиенте) могут одновременно работать несколько сервисов (например HTTP — для передачи сайтов, FTP — протокол передачи файлов, MailServer — для почты и т.д.), для их определения используются порты. Например для HTTP — тот что отвечает за передачу HTML (страниц) и другого контента (картинок и музыки) всемирно принято использовать порт номер 80. Этот стандарт настолько вошел в наш мир, что нам даже не надо его писать в браузерной строке запроса. Например — http://domain.com равнозначно http://domain.com:80.
Последний вопрос, это имена. С начала рождения интернета каждому IP может соответствовать свое имя, этим занимаются DNS сервера, которые хранят таблицы имен и соответствующих им IP адресов. Сейчас, когда адресов начинает не хватать, одному IP может соответствовать несколько разных имен и сайтов. Этот подход называется — «Виртуальный сервер». Например на одном сервере с одним и тем-же IP может быть несколько разных сайтов http://domain2.com и http://domain3.com.
Думаю теперь понятно, что имя сайта (домен) и его содержимое могут находится на разных серверах и волне комфортно могут существовать друг без друга. Но, чтобы сайт принял привычную форму, его автору нужно зарегистрировать имя и создать соглашение о хостинге. Это могут быть разные фирмы или фирма — предлагающая все в одном. И так, имя. Для регистрации имени нужно ввести определенные данные о пользователе, сейчас эта на большинстве доменов не контролируется, но каждая уважающая себя компания, никогда не будет скрывать от пользователей эти данные.
Для получения информации о владельце пользователя, используются сервис whois [1]. Для разных доменов первого уровня он может быть свой. По этому, чтобы найти подходящий, придется воспользоваться поиском. whois.net [2] например стоит первым в гугле. Это действительно не плохой сервис с поддержкой большого количества доменов.
Кроме пользовательской информации есть ещё даты — первая регистрация и дата истечения оплаты. Перед последней датой владелец должен оплатить домен на следующий год, иначе он его лишится.
По IP адресу сайта, можно узнать где находится сайт. Практически весь инструментарий есть на сайтах IPTools.com [3], tools.WebMax [4] и DomainTools.com [5].
Основной из них — это traceroute. Эта утилита показывает все точки сети (сервера, маршрутизаторы и т.д.), которые прошел сетевой пакет от одной точки до другой. Последней записью будет соответственно сервер сайта. Стоит также иметь в виду, что используя traceroute с сайтов, начальной точкой является не ваш компьютер, а сервер сайта предоставляющего этот сервис.
Есть также сервисы, которые определяют местоположение IP адреса на карте. Естественно, эта информация приблизительна до города, а иногда и страны. Для определения положения сервера можно использовать программу VisualRoute [6]. В общем, она делает тоже самое, что и traceroute, плюс добавляет точки на карту. Недостаток в том, что эту программу нужно устанавливать на компьютер. К счастью есть альтернативы, например geoBytes IP Locator [7], который способен определить положение и показать его на карте.
Часто, но не всегда DNS сервер предоставляется той же компанией что и хостинг. Это можно проверить утилитой DIG (или nslookup, dnslookup). Она возвращает записи с сервера, которые разделены по секциям. Подробнее о секциях можно узнать из Википедии [8].
Если хостинг виртуальный (несколько сайтов на одном IP адресе) есть способ узнать о его «соседях».
Для этого можно использовать например сайт myipneighbors.com [9].
Для этого используют широко известную в мире Linux утилиту NMAP [10]. На нее есть и утилиты online. Не думаю, что эта информация может каким — либо образом быть полезна в мирных целях. Так что, больше информации на эту тему не понадобится.
В сети есть так называемый архив сайтов [11]. Сервис хранит изменения главной страницы по времени. Больше информации можно из моей предыдущей записи [12].
Самые популярные сайты, такие как Yandex, Google, Yahoo, Live создают так называемый рейтинг сайта. Такой рейтинг в разных поисковых системах рассчитывается по своему. Дополнительную информацию о расчётах рейтинга можно узнать на соответствующих сайтах. Самый простой способ получить эту информацию в одном месте, это установить дополнение для FireFox — Alexa [13]. Правда всю информацию, которую предоставляет сервис, можно получить только по первым, 100 тысячам по популярности сайтам. Тем не менее, кое-что можно узнать.
Еще одна интересная возможность мониторинга популярности сайтов по странам и категориям.
В дополнение стоит сказать расчете рейтинга в предположительной цене ресурса, такой расчет например использует logi.ru [14].
Подобный иностранный сайт, WebSiteOutlook [15], позволяет также определить примерное количество посещений. В моем случае цифры оказались несколько завышенными.
Первым шагом в борьбе со спамом стало создание баз данных о недобросовестных сайтах. Эти базы используют различные провайдеры или программы электронной почты. Эту информацию можно получить и с соответствующих сайтов. Среди таких, например, уже описанный WebMax [16].
Сервер обычно можно определить если подключится к серверу с помощью telnet через 80-ый порт. Но DomainTools.com [5] готов сделать все это за вас. Эта информация находится на его Whois, в панели Server Data.
Если нужна дополнительная информация или название подменено. Можно по пробовать HttpPrint [17].
Думаю теперь тут все просто:
Первое, что можно сделать, это провести проверку сайта на соответствие стандартов w3c [18] в HTML, CSS и т.д. Скорее всего это не совсем то что вам надо. Несомненно, соответствие стандартам добавляет некоторую ценность сайту и подчёркивает профессионализм его разработчиков. Но к сожалению далеко не всегда это обозначает совместимость с разными браузерами. Для того чтобы определить совместимость сайта с разными версиями браузеров, совсем не обязательно их всех устанавливать. В сети есть незаменимый сервис, который создает изображения с разных браузеров в различных операционных системах. За несколько кликов можно получить вид из более 50 браузеров, включая их версии. Сервис называется BrowserShots [19].
Гугл предаставляет не плохой сервис для сравнения популярности слов между собой. Его можно использовать и для сравнительного анализа сайта и его конкурентов. Cервис называется Trends [20]. Для достаточно популярных сатов сравнительный анализ также делает Alexa [13].
Например следующий анализ стал для меня открытием: webmoney и e-gold [21].
Мне сейчас сложно сказать как именно это сделать с помощью WEB. Но для FireFox есть отличный плагин — SeoQuake [22]. Этот плагин собирает рейтинги разных ресурсов относительно текущего сайта, в том числе и показывает количество внешних ссылок, зарегистрированных различными поисковыми системами.
Гугл предусматривает поиск по домену. Для этого нужно использовать ключевое слово ‘site’. Например: site:. Подобные ключевые слова управления поиском есть в любом популярном поисковике.
Для этого особых сервисов нет. Все что надо, это набрать часть проверяемого текста в кавычках. Проблема в том, что даже гугл часто ошибается выдавая копию гораздо выше оригинала. Печально.
Это довольно ценная информация даже с точки зрения безопасности.
До написания этой статьи у меня было предположение, что эту информацию должен дать DIG. Но нет, решение неожиданно — alexa [13]. Если субдомен проиндексирован, он скорее всего будет в списке.
Вот еще несколько сайтов, которые предоставляют сервисы схожей тематики.
Очень вероятно, что эта статья не освещает и половины информации, которую можно вытащить о сайте. Тем не менее, надеюсь, что она была полезной, и вы узнали что-то новое 🙂
UPD: sitehistory.ru [26]
Article printed from Хроники.:
URL to article: /139-polnaya-informaciya-o-sajte
URLs in this post:
[1] whois: http://ru.wikipedia.org/wiki/WHOIS
[2] whois.net: http://www.whois.net/
[3] IPTools.com: http://www.iptools.com/
[4] tools.WebMax: http://tools.web-max.ca/
[5] DomainTools.com: http://www.domaintools.com/
[6] VisualRoute: http://visualroute.visualware.com/
[7] geoBytes IP Locator: http://www.geobytes.com/IpLocator.htm
[8] Википедии: http://ru.wikipedia.org/wiki/Dig
[9] myipneighbors.com: http://www.myipneighbors.com/
[10] NMAP: http://nmap.org/
[11] архив сайтов: http://web.archive.org/collections/web.html
[12] моей предыдущей записи: /38-internet-arxiv-po-istorii-sajtov
[13] Alexa: http://alexa.com
[14] logi.ru: http://www.logi.ru/
[15] WebSiteOutlook: http://www.websiteoutlook.com/
[16] WebMax: http://tools.web-max.ca/dsbl.php
[17] HttpPrint: http://www.net-square.com/httprint/
[18] соответствие стандартов w3c: http://www.w3schools.com/site/site_validate.asp
[19] BrowserShots: http://browsershots.org/
[20] Trends: http://trends.google.com
[21] webmoney и e-gold: http://www.google.com/trends?q=webmoney%2C+egold%2C+e-gold&ctab=0&geo=all&date=all&sort=0
[22] SeoQuake: http://www.seoquake.com/
[23] abouthisite: http://www.abouthisite.com/
[24] sitetruth: http://www.sitetruth.com/yhoo.html
[25] DomainCrawler: http://www.domaincrawler.com/
[26] sitehistory.ru: http://sitehistory.ru/
Click here to print.
Copyright © 2008 Все, что меня окружает. All rights reserved.