вторник, 1 сентября 2009 г.

Поздравляю с днем знаний! :)

Собственно, субж. Лето закончилось, пора приниматься за работу.
В голове много идей, начинаю потихоньку воплощать.
В текущем обновлении Blog Harvester'a:
- Добавлена проверка на noindex
- Появилась возможность обновлять информацию по PR, CY, кол-во исходящих ссылок и т.п. в уже отпарсенных старых базах.
- Добавлена возможность уникализации отпарсенной базы по домену.

В планах - изменение алгоритма определения nofollow ссылок: если в текущем посте не будет комментариев, по которым можно определить тип ссылок, то скрипт будет ходить по блогу в поисках постов с комментариями. Это должно в разы увеличить точность определения типа ссылок.

3 комментария:

  1. так что уже можно обновлятся ...или как ?

    ОтветитьУдалить
  2. У меня постоянно останавливается парсинг на 5-30 блогах. Запускаю по Яндексу и определение только Фоллоу - больше ничего не надо. Находит 30 страниц 1 блога (зачем мне 30? мне 1 достаточно!) и обрубается... Запрос : блог

    Как решить проблему?

    ОтветитьУдалить