ТИЦ - большой эксперимент. Вводная статья.
Кто не видел темы об очередном апдейте ТИЦ? Не когда не задумывались, а зачем они вообще нужны? Понятно 3-4 сообщения в начале темы служат подтверждением (или опровержением) апдейта. Ну а остальные 200-300 сообщений, информационный мусор из эмоций и глупых вопросов, вперемешку с крупицами полезной информации. Причем достоверность полезной информации проверить не возможно. А статистику по апдейтам собирать очень хотелось... В общем так и родилась сама идея, мониторинга изменений ТИЦ для групп сайтов.
С момента формирования самой идеи до её реализации размер группы, которую хотелось бы отслеживать, изменился в сотни тысяч раз. Изначально планировалось отобрать в полуавтоматическом режиме 2-3 тысячи сайтов из различных источников и постепенно довести размер выборки до 10К. Но этот вариант отпал сам собой в процессе формирования ТЗ, из-за большого объема рутинной ручной работы. Вопрос был поставлен по другому, а что бы я хотел получит в идеале? Всё! 120 миллионов доменов из gLTD и 4 миллиона доменов рунета (ru, su, рф). Ковырялся я долго в итоге техническая возможность получить списки всех зарегистрированных доменов была найдена. Еще раз хочу сказать спасибо друзьям из Прибалтики которые за нескромное вознаграждение взяли на себя поставку списков gLTD.
Дальше все исключительно техническая реализация. Вопросов в процессе написание возникало множество, но все они достаточно стандартны и упираются больше в мощность серверов и их количество. Сейчас сбор ТИЦ всех доменов второго уровня в зоне ru (чуть больше трех миллионов ) занимает примерно 14-15 часов. При текущих ресурсах на обработку всех 120 миллионов доменов теоретически должно уйти около 3х недель. На данный момент сервис находится в состоянии глубокой альфа версии, статистика собирается только для зоны ru. Для выхода на полную мощность необходимо как минимум в три раза увеличить количество серверов, что пока для меня весьма затратно. Несмотря на статус "альфа" появилась редкая возможность проводить фундаментальные исследование ТИЦ уже сейчас. Нечего подобного в публичном доступе я не встречал.
Первые результаты готовы и будут опубликованы завтра.
Комментарии (6)
11января 2011 7:55)контактов на блоге не нашел. интересно приобретение собранной базы. напиши на почту мне.
16января 2011 11:49)контактов на блоге нет специально, я нечего не продаю и никаких услуг не предоставляю. на данный момент продажей любых материалов из проведенных или анонсированных экспериментов мне не интересна.
2июня 2011 1:50)2июня 2011 17:49)2июня 2011 3:35)2июня 2011 17:54)Отправить комментарий