Как собирать емейл адреса по стране/языку
Вы собираете емейлы и хотите, чтобы адресаты говорили на языке вашей рассылки. Действительно, зачем китайцу читать ваш текст на русском языке?
Обычно вы "на глаз" определяете, к какому языку относится та или иная страница. Но как это сделать автоматически? Новая редакция EmEx 3 имеет ряд фильтров, которые могут упростить эту задачу и сделать сканирование сайтов более эффективным.
Фильтры делятся на две категории - емейлы и очередь загрузки.
Этот тип фильтра разрешает добавление найденых емейл адресов на странице, которую обрабатывает EmEx 3. Емейл адресов может быть много, но все ли они вам нужны?
- EMAIL: TLD
Если вы включаете этот фильтр, то условие таково - емейл адрес должен быть с определенной доменной зоны. Например из зоны RU. Таким образом все емейлы, которые соответствуют этому условию будут разрешены к добавлению в общий список результатов.
Как пример: емейл в виде user@domain.ru будет добавлен, и в то же время емейл в виде user@domain.com - нет.
- EMAIL: Document TLD
Этот фильтр пытается определить зону документа. Если документ находится в этой зоне, то уже все адреса с этой страницы будут считаться разрешенными к добавлению. Например зона .RU.
Пример: EmEx 3 анализирует документ по адресу http://www.domain.ru/somepath... - понятно, что на русском вебсайте будут лежать емейл адреса русских пользователей, соответственно их можно добавлять в общий список.
- EMAIL: Keywords
Фильтр по ключевым словам пытается найти искомые слова в анализируемом документе. Здесь мы вставляем те слова, которые наиболее часто встречаются на русских сайтах и на родном языке. Скажем слово "поиск". Китайский или английский сайт такого слова содержать не могут, но зато его будет содержать только русский сайт. А соответственно шансы на то, что емейл адреса на этом сайте будут принадлежать русским пользователям крайне высоки.
- EMAIL: Charset
Какой смысл собирать емейл адреса с сайтов, где ясно сказано - кодировка английская/китайская/японская? Правильно - никакого!
- EMAIL: Lang Tag
Этот фильтр в основном предназначен для страниц, которые имеют кодировку UNICODE. Как правило на таких сайтах этот тег прописан. И наличие этого тега позволяет предположить, что сайт относится к определенной языковой зоне.
Логика "И" или "ИЛИ"
Включеные вами фильтры по умолчанию работают в логике "ИЛИ". Это означает, что должно исполнится хотя бы одно условие, чтобы фильтр сработал. Иначе результат не будет добавлен в общий список. Вы конечно можете включить жесткую логику "И", но это будет означать, что все условия должны будут выполнены одновременно.
Логика "ИЛИ" позволит добавить емейл из зоны .RU, даже если кодировка документа не русская или сам документ находится в какой-то другой зоне, например .COM/.LV/.EE/.CZ... Но сами задумайтесь, если емейл явно указано в зоне .RU, то какая вероятность того, что его владелец говорит на русском языке? Правильно - довольно высокая.
Оптимизация работы с очередью задач
Фильтры, которые влияют на очередь задач работают по тому же принципу, но это касается исключительно добавления найденых ссылок в очередь обработки.
Основная проблема кроется в Unicode сайтах. Они могут быть на каком угодно языке.
Какой логике следует следовать? Вероятность того, что ссылки с русских сайтов будут вести на русские сайты выше, поэтому мы их разрешаем. Но не следует забывать, что русские сайты бывают не только в кодировке Windows-1251, но и в Unicode/UTF8. Такие странички следует анализировать. Если ссылки с них ведут на русские сайты, то мы их рано или поздно получим в очередь. Да, придется обработать ряд уникодных не русских сайтов - факт. Но зато будут отсеяны сайты с другой кодировкой.
Более мощный механизм определения языка - ключевые слова. Но не переусердствуйте, это процессороемкая операция. Подберите список ключевых слов которые будут присутствовать в большинстве сайтов... и вы можете спокойно отключать проверку на кодировку. Но учтите - если сайт не содержит этих ключевых слов, то он будет проигнорирован.
Выводы по настройке фильтров по стране
Фильтры для отбора емейлов следует делать более строгими, если вы хотите получить более точный результат. В то же время фильтры по охвату очереди следует расширять, чтобы не пропустить сайты, соответствующие вашим требованиям.
И еще - учтите, никто не может с точностью до 100% гарантировать, что все емейлы, извлеченные, используя данные фильтры будут теми, которые вам нужны. Но если вы все правильно сделали, то подавляющее большинство из них - да.
Хитрости и тонкости
Используя фильтр ключевых слов по регуляции очереди вы можете ограничивать получение ссылок по определенной тематике.