Ворчун
На форуме: 21 г 206 д(с 03/05/2003)
Тем: 116 Сообщений: 2041 Флеймы: 29 (1,4%)
Всего отчетов: 68 Москва и область: 65 Массаж: 3 |
|
Гео: Москва
|
|
Цитата:
Вы получили неверные данные по Интимсити. Вы, видимо, не учли, что анкеты перемешиваются для каждого посетителя индивидуально, при этом ключем для перемешивания служит IP посетителя.
Попробуйте сделать следующее: не обходите основной рейтинг (48-50 страниц, начиная с главной страницы сайта) по несколько раз, меняя IP в каждом проходе, а обойдите его один раз, но с постоянным IP.
Дело в том, что сайт последние 2-3 года подвергается регулярным ddos-атакам и мы вынуждены были установить на сервере защиту от пользователей (роботов), запрашивающих с сервера нереально большое число страниц (тысячи) или делающих это с чрезмерно высокой скоростью (несколько страниц в секунду). Для того, чтобы защита не заблокировала Вашего робота, делайте паузу между запросами, например, 3-10 секунд. На одни проходит таким образом уйдет около 150-500 секунд.
Ну да, первый раз я получил неверные данные, согласен. Скрипт его обошел с большой скоростью, получив со всех стр. всего 91 уникальный тел. Хотя эта "большая" скорость всего ~20 сек. на стр. (скрипт открывает одну стр. в буфер и потом копирует с нее анкеты со скоростью 2-3 анкеты/сек, потом еще одну стр. и т.д.). 20 сек на стр. - скорость нормальная для обычного посетителя. Если он откроет сразу несколько стр. или (для экономии траффика) скачает много страниц какой-то качалкой, он получит тот же результат: минимум анкет (точнее, анкет будет много, но все на один тел.) В дальнейшем я запускал по 10-20 проходов вашего сайта с задержкой 1-2 мин. Максимум, что удалось "вытянуть" с 50-ти стр. - 390 уникальных анкет и стало ясно, что 4-5 проходов обеспечивают более 90% всех анкет. Заход через прокси подвердил этот вывод. Кстати, я понял, как вы нашли этот пост: мне недавно стучался с вашего сайта некий посетитель, кот. разместил ссылку на этот пост и цитировал кусок, касающийся вашего сайта и жаловался, что его сообщение было удалено. То, что вы удалили его пост, а не стали комментировать, как здесь, говорит о том, что у вас не все так хорошо, как вы ходите нас убедить. Радует, что тут вы с моим сообщением не можете обойтись также, как на вашем сайте ;-) С другой стороны, ничего против вашего сайта не имею: каждый зарабатывает деньги, как может. А мы, потребители, хотели бы иметь адекватную информацию с рынка фей. P.S. У вас анкету, кот. не обновлялась недели две, практически невозможно увидеть. В выигрыше те, кто беспрерывно поднимает свои анкеты, в результате для нас, потребителей, обедняется выбор. Возможно, вам стоит пересмотреть политику актуализации анкет. В конце концов уникальность intimcity в том, что там наряду с плат. анкетами есть бесплатные. Но когда анкеты постоянно поднимают, это явно делается за деньги. И анкета становится не бесплатной, а вы теряете деньги. Может сделать, к примеру, что обновление анкеты чаще, чем раз в день, не влияет на ее актуальность? И мне перестанут стучатся в приват народ, просящий сделать скрипт, беспрерывно поднимающий блок анкет. ;-)
|
Intimcity
На форуме: 18 л 157 д(с 21/06/2006)
|
|
|
Цитата:
Хотя эта "большая" скорость всего ~20 сек. на стр. (скрипт открывает одну стр. в буфер и потом копирует с нее анкеты со скоростью 2-3 анкеты/сек, потом еще одну стр. и т.д.).
2-3 страницы в секунды - это не нормальная скорость для человека.
Цитата:
У вас анкету, кот. не обновлялась недели две, практически невозможно увидеть.
Все анкеты доступны из главного каталога, начинающиеся с главной страницы сайта. Сначала идут анкеты, оплатившие рекламу, а за ними - анкеты, рекламирующиеся бесплатно, отсортированные по дате обновления. Зайдите на главную страницу сайта и нажмите на одну из последних страниц каталога, проверьте даты обновления анкет, размещенных на этих страницах - они не обновлялись по несколько месяцев.
Теперь вернемся непосредственно к Вашей программе. 390 уникальных анкет - это и есть неверный результат. Я не знаю как работает Ваша программа, но я написал свой аналогичный скрипт, чтобы проверить Ваше утверждение, результат: более 1700 уникальных телефонов с одного единственного прохода. Ищите ошибку в своей программе. Вот мой скрипт, можете проверить сами:
@set_time_limit(0); function getContent($url){ $handle = fopen($url, "rb"); $contents = ""; while (!feof($handle)) $contents.=fread($handle, 10000); fclose($handle); return $contents; } $phones = array(); for ($i=1; $i<=48; $i++){ $content = getContent("http://www.intimcity.ru/persons.php?type=0&style=0&news=0&updated=0&index=".(($i-1)*50)."&video=N&indoor="); preg_match_all("/alt\=\"([0-9\(\)\-]{17})\ [^\"]*\"/", $content, $matches, PREG_PATTERN_ORDER); for ($j=0; $j print($i.": ".count($phones)." "); flush(); sleep(10); }
|
Ворчун
На форуме: 21 г 206 д(с 03/05/2003)
Тем: 116 Сообщений: 2041 Флеймы: 29 (1,4%)
Всего отчетов: 68 Москва и область: 65 Массаж: 3 |
|
Гео: Москва
|
|
Цитата:
Цитата:
Хотя эта "большая" скорость всего ~20 сек. на стр. (скрипт открывает одну стр. в буфер и потом копирует с нее анкеты со скоростью 2-3 анкеты/сек, потом еще одну стр. и т.д.).
2-3 страницы в секунды - это не нормальная скорость для человека.
Цитата:
У вас анкету, кот. не обновлялась недели две, практически невозможно увидеть.
Все анкеты доступны из главного каталога, начинающиеся с главной страницы сайта. Сначала идут анкеты, оплатившие рекламу, а за ними - анкеты, рекламирующиеся бесплатно, отсортированные по дате обновления. Зайдите на главную страницу сайта и нажмите на одну из последних страниц каталога, проверьте даты обновления анкет, размещенных на этих страницах - они не обновлялись по несколько месяцев.
Теперь вернемся непосредственно к Вашей программе. 390 уникальных анкет - это и есть неверный результат. Я не знаю как работает Ваша программа, но я написал свой аналогичный скрипт, чтобы проверить Ваше утверждение, результат: более 1700 уникальных телефонов с одного единственного прохода. Ищите ошибку в своей программе. Вот мой скрипт, можете проверить сами:
@set_time_limit(0); function getContent($url){ $handle = fopen($url, "rb"); $contents = ""; while (!feof($handle)) $contents.=fread($handle, 10000); fclose($handle); return $contents; } $phones = array(); for ($i=1; $i<=48; $i++){ $content = getContent("http://www.intimcity.ru/persons.php?type=0&style=0&news=0&updated=0&index=".(($i-1)*50)."&video=N&indoor="); preg_match_all("/alt\=\"([0-9\(\)\-]{17})\ [^\"]*\"/", $content, $matches, PREG_PATTERN_ORDER); for ($j=0; $j print($i.": ".count($phones)." "); flush(); sleep(10); }
Не 2-3 стр. в секунду, а 2-3 анкеты в секунду. Я же написал, что страница пишется в буфер и потом в офф-лайне с нее снимаются телефоны.
Мы о разных телефонах говорим. У вас в самом деле 2500 тел. Но уникальных, т.е. тел., не имеющих дублей, я нашел не более 390. Вы как уникальные тел. определяли? В вашем скрипте нет обработки на дубли. Добавьте что-нибудь типа
$phones.sort(); var k=0; while(k < $phones.length-1) {if ($phones[k] == $phones[k+1]) {$phones.splice(k+1,1);} else {k++;}}
тогда и поговорим об "уникальности".
Программа не моя, написанная кем-то под заказ. Использует какой-то плагин под FireFox, работает визуально - то есть непосредственно в браузере открывается страница и подряд снимаются анкеты, потом следующая страница, иимитируя действия человека. Потом обработка, в ходе которой дубли удаляются как раз строчкой, которую я вам послал.
--------------------
Я по женской части - ух! Теоретик! Очень уважаю шлю... Шлю приветик! |
|
Intimcity
На форуме: 18 л 157 д(с 21/06/2006)
|
|
|
Цитата:
Не 2-3 стр. в секунду, а 2-3 анкеты в секунду.
Сайт состоит из страниц, страница анкеты - это тоже страница сайта. Для срабатывания защиты не важно, что именно пользователь дергает по несколько раз в секунду - страницу анкеты или страницу каталога.
Цитата:
Вы как уникальные тел. определяли? В вашем скрипте нет обработки на дубли.
Там есть команда:
if (!in_array($matches[1][$j], $phones)) array_push($phones, $matches[1][$j]);
Означающая: если в массиве нет такого номера телефона, то добавить его. Если бы проверки на уникальность не было, то скрипт собрал бы не 1700 телефонов, а 2500 (по кол-ву анкет).
Впрочем, раз программа написана не Вами и Вы не можете вносить в нее исправления, то, наверное, нет смысла искать ошибку. Я со своей стороны, написав и выложив работающий скрипт, наглядно (на мой взгляд) показал, что ошибка не на моей, а на Вашей стороне.
|
Ворчун
На форуме: 21 г 206 д(с 03/05/2003)
Тем: 116 Сообщений: 2041 Флеймы: 29 (1,4%)
Всего отчетов: 68 Москва и область: 65 Массаж: 3 |
|
Гео: Москва
|
|
Цитата:
Цитата:
Не 2-3 стр. в секунду, а 2-3 анкеты в секунду.
Сайт состоит из страниц, страница анкеты - это тоже страница сайта. Для срабатывания защиты не важно, что именно пользователь дергает по несколько раз в секунду - страницу анкеты или страницу каталога.
Цитата:
Вы как уникальные тел. определяли? В вашем скрипте нет обработки на дубли.
Там есть команда:
if (!in_array($matches[1][$j], $phones)) array_push($phones, $matches[1][$j]);
Означающая: если в массиве нет такого номера телефона, то добавить его. Если бы проверки на уникальность не было, то скрипт собрал бы не 1700 телефонов, а 2500 (по кол-ву анкет).
Впрочем, раз программа написана не Вами и Вы не можете вносить в нее исправления, то, наверное, нет смысла искать ошибку. Я со своей стороны, написав и выложив работающий скрипт, наглядно (на мой взгляд) показал, что ошибка не на моей, а на Вашей стороне.
ЕЩЕ РАЗ ПОВТОРЮ: "дергается" 1 страница, пишется в БУФЕР и уже из него собираются анкеты. У вас же телефоны есть прямо на странице. Для сайта это выглядит как открытие ОДНОЙ страницы в 20-30 сек. Вашей команды, убирающей дубли, в приведенном скрипте не вижу. Если вы утверждаете, что он рабочий, приводите полностью рабочий код, чтобы можно было проверить. А то сейчас ваш "работающий" скрипт из командной строки у меня вылетает с ошибкой, а из-под обоих браузеров просто ничего не говорит. Я не настолько соображаю в JScript, чтоьбы искать причину этого. Мне проще написать все заново на C++. Зато я вижу, как мой рабочий скрипт медленно и визуально собирает телефон за телефоном с сайта. А затем дает один массив со всеми дублями, и отдельно - без оных. Короче, через 2 недели запущу его еще раз, на вашем сайте - 30-60 проходов, посмотрим, что изменилось.
--------------------
Я по женской части - ух! Теоретик! Очень уважаю шлю... Шлю приветик! |
|
Intimcity
На форуме: 18 л 157 д(с 21/06/2006)
|
|
|
http://sextalk.ru/showthreaded.php?Cat=0&Number=938388&page=0&vc=1
|
Intimcity
На форуме: 18 л 157 д(с 21/06/2006)
|
|
|
Цитата:
Я не настолько соображаю в JScript, чтоьбы искать причину этого.
Это не jscript, а php-скрипт (на котором написано 90% сайтов в интернете).
Цитата:
Вашей команды, убирающей дубли, в приведенном скрипте не вижу.
Действительно, совсем забыл, что при публикации на форуме из текста убирается все, что заключено в угловые скобки - вырезались две строчки из скрипта. Я выложил теперь скрипт здесь: http://www.intimcity.ru/test.txt
Тем не менее, сути это не меняет - проблема на Вашей стороне. Мой скрипт собирает более 1700 уникальных телефонов, анализируя только страницы главного каталога.
|
Ворчун
На форуме: 21 г 206 д(с 03/05/2003)
Тем: 116 Сообщений: 2041 Флеймы: 29 (1,4%)
Всего отчетов: 68 Москва и область: 65 Массаж: 3 |
|
Гео: Москва
|
|
Признаю свою ошибку. В самом деле, на intimcity ~1900 уников. Пришлось поизучать JScript и докапаться до ошибки. "Обычные" сайты нумеруют свои стр. подряд, от 0 и далее, intimcity же - по кол-ву анкет - 0,50,100,150.. В скрипте это было учтено, но при расширении списка сайтов "хак" сдвинулся. В результате снималось фактически всего две страницы сайта http://www.intimcity.ru/persons.php?&index=var, где var менялась от 0 до 50, реально "работали" только цифры 0 и 50,стальные давали повторения. "Хак" сдвинулся на play-girls, в результате у которого тоже ошибка - снята толька одна стр. - 0, следующую скрипт пытался снять 50-ю, (считая, что работает с intimcity) кот. там нет (их там всего 14).
Приношу извинения за допущенные ошибки, кот. будут исправлены при дальнейших "съемах" сайтов. Общие выводы статьи (не касающихся этих двух сайтов) не меняются - хоть теперь intimcity дает не 400, а 1900 уников, в целом по 12-ти сайтам кол-во уников почти не увеличивается, т.к. его тел. дублируются на др. сайтах.
Да, и еще. Если при 10-ти "съемах" 2-х первых страниц в течении часа удалось все же собрать 400 уников (а не 100), это говорит о неплохой перемешиваемости анкет: если плат. анкет на сайте ~500 (10 первых стр. по 50 анкет), то за час 3/4 анкет побывали на 1 или 2-й стр.
--------------------
Я по женской части - ух! Теоретик! Очень уважаю шлю... Шлю приветик! |
|
Дон Басс
На форуме: 18 л 21 д(с 04/11/2006)
Тем: 64 Сообщений: 1005 Флеймы: 139 (14%)
Всего отчетов: 12 Москва и область: 8 Обломинго: 4 |
|
Гео: центр Земли
|
|
поправьте цифры в корневом посте ( с помощью модераторов) ашипку было видно сразу: Цитата:
rusdosug.ru - 2577/2063, intimcity.ru - 2498/378
понимающему (а уж тем более КЛС-ку) сразу ясно - в скрипте лажа...
ну не могут результаты по ситям и русдосугу ТАК различаться
--------------------
Не бойся заблудиться в темноте |
|
Ворчун
На форуме: 21 г 206 д(с 03/05/2003)
Тем: 116 Сообщений: 2041 Флеймы: 29 (1,4%)
Всего отчетов: 68 Москва и область: 65 Массаж: 3 |
|
Гео: Москва
|
|
Я не могу свои посты править, так уже исправил. Через неделю запущу еше раз, напишу, что изменилось и поправлю все.
--------------------
Я по женской части - ух! Теоретик! Очень уважаю шлю... Шлю приветик! |
|
Ворчун
На форуме: 21 г 206 д(с 03/05/2003)
Тем: 116 Сообщений: 2041 Флеймы: 29 (1,4%)
Всего отчетов: 68 Москва и область: 65 Массаж: 3 |
|
Гео: Москва
|
|
Итак прошел почти месяц, я повторил полное снятие телефонов. Всего снято 12 тыс тел., из них уникальных (после удаления дублей) - 4622. Новых добавилось 1366 тел. Небольшая коррекция, т.к. в прошлый раз я ошибся с intimcity. Если эту ошибку учесть, обновление произошло ~1000 тел.. То есть всего за месяц телефоны фей обновились почти на четверть! Можно предположить, что за 4-5 мес. в инете не остается ни одного старого телефона. Наверняка это не так, какие-то телефоны останутся. Но в первом приближении вывод такой: средняя "живучесть" телефона 2.5 мес. К сожалению, у меня недостаточно материала, что бы сделать статистически достоверные рассчеты распределения тел. по обновлению, но предварительные грубые оценки, как обычно, 80/20: 20% тел. обновляются медленно, 80% - очень часто. Сказать же, насколько при этом реально обновляется девушки, и вовсе затруднительно.
--------------------
Я по женской части - ух! Теоретик! Очень уважаю шлю... Шлю приветик! |
|
|