Собственно, субж. Лето закончилось, пора приниматься за работу.
В голове много идей, начинаю потихоньку воплощать.
В текущем обновлении Blog Harvester'a:
- Добавлена проверка на noindex
- Появилась возможность обновлять информацию по PR, CY, кол-во исходящих ссылок и т.п. в уже отпарсенных старых базах.
- Добавлена возможность уникализации отпарсенной базы по домену.
В планах - изменение алгоритма определения nofollow ссылок: если в текущем посте не будет комментариев, по которым можно определить тип ссылок, то скрипт будет ходить по блогу в поисках постов с комментариями. Это должно в разы увеличить точность определения типа ссылок.
вторник, 1 сентября 2009 г.
Подписаться на:
Комментарии к сообщению (Atom)
так что уже можно обновлятся ...или как ?
ОтветитьУдалитьУ меня постоянно останавливается парсинг на 5-30 блогах. Запускаю по Яндексу и определение только Фоллоу - больше ничего не надо. Находит 30 страниц 1 блога (зачем мне 30? мне 1 достаточно!) и обрубается... Запрос : блог
ОтветитьУдалитьКак решить проблему?
проэкт умер?
ОтветитьУдалить