Итак, как я уже и писал, у меня в данный момент стоит задача набрать кеев на доры по своей тематике.

Часть доров я буду делать по гемблингу, по этому я брал следующие базы:
1) База кеев Пастухова – старенькая, та что есть в паблике
2) Базы прямого эфира Яндекса раз и два
3) Базу категории Развлечения и Игры Лайвинтернета отсюда

Ну и как же без парсинга самого Я.Вордстата, тут не обошлось без софтинки Арба (но можно воспользоваться бесплатным магаданом).

Итак, я получил огромные объемы данных, писать какойто софт для очистки и создания выборки самому както влом и порыскав на просторах интернета нашел обработчик KeyWordKeeper (я качал 5 бету – работала нормально, повисала пару раз).

Как же я обрабатывал базы:
1) База прямого эфира была не чищенной, не сортированной – в общем мрак, пришлось сначала делать элементарную чистку, потом сортировку, потом удаление дублей (и это при объеме файла 800 метров и примерно 15 кк кеев)
2) Затем на основе всех файлов по основному кею для каждой из узких тематик создал выборки, в каждой примерно 2-3 к кеев.
3) Прогоняем базу и чистим по словам вроде СКАЧАТЬ, БЕСПЛАТНО
4) А дальше самое трудоемкое – ручная чистка. Смотрим на кеи, нравится оставляем – не нравится выкидываем. И таким образом много, очень много времени.

На выходе я получил 5 баз кеев по тематикам он-лайн гамблинга.

Сегодня добавил в индекс ещё 3 дора.

По финансам и кол-ву доров ничего не изменилось, по этому отчеты писать не буду — ломает

Метки:, , ,

Связанные записи