find us on facebook!
 

Коррекция синтаксиса емейл адресов

Не секрет, что Advanced Email Extractor может извлечь некорректные адреса с веб страниц. Это связано с тем, что адрес может быть написан с ошибкой или с использованием некорректных тегов, или же используется шифровка/защита от спама.

Пример результата работы функции корректировки синтаксиса в списке рассылки

SRC 11: jpiracy@adobe.comjB
NEW 11: jpiracy@adobe.com
SRC 467: "Mr. Potter" <potter@port.com">
NEW 467: "Mr. Potter" <potter@port.com>
SRC 724: "martyb" <martyb@ultraint.com%20(train%20to%20trane)>
NEW 724: "martyb" <martyb@ultraint.com>
SRC 733: "MAXOMENOS" <maxomenos@SPAM=DEATH.hushmail.com>
NEW 733: "MAXOMENOS" <maxomenos@hushmail.com>
SRC 743: tycho@penny-arcade.com,gabriel@penny-arcade.com
NEW 743: tycho@penny-arcade.com
SRC 772: krodim@hotmail.comt
NEW 772: krodim@hotmail.com
SRC 1263: "info@spinnaker.co.jp" <//info@spinnaker.co.jp>
NEW 1263: "info@spinnaker.co.jp" <info@spinnaker.co.jp>
SRC 2267: "Laurent Clevy" <lclevy@club-internet.fr@subject=[ADF_FAQ]>
NEW 2267: "Laurent Clevy" <lclevy@club-internet.fr>
SRC 2480: "guylhem@metalab.unc.edu" <guylhem@LDP_NO_SPAM.metalab.unc.edu>
NEW 2480: "guylhem@metalab.unc.edu" <guylhem@metalab.unc.edu>
SRC 3955: "abuse@ihateclowns.com" <abuse@ihateclowns.com,rodneyb@ihateclowns.com>
NEW 3955: "abuse@ihateclowns.com" <rodneyb@ihateclowns.com>
SRC 4083: abuse@bfp.net)
NEW 4083: abuse@bfp.net
SRC 4229: (djackson@aol.net)
NEW 4229: djackson@aol.net
SRC 11832: "Daniel Stenberg" <daniel_at_haxx.se>
NEW 11832: "Daniel Stenberg" <daniel@haxx.se>
SRC 13550: "lena@lenagames.com" <Lena%20Games>
NEW 13550: "Lena Games" <lena@lenagames.com>
SRC 19699: mailto:kurtcpa@bright.net
NEW 19699: kurtcpa@bright.net
SRC 19846: "JAMM <mike.gole@sun.com>" <JAMM%20<mike.gole@sun.com>>
NEW 19846: "JAMM <mike.gole@sun.com>" <mike.gole@sun.com>

В этом примере мы рассмотрели фактически все возможные ошибки, которые могут встретится при сборе емейл адресов с веб страниц. Как видно, MLW справился с 95% из них! Почему не со всеми, спросите вы? Увы, но искусственный интеллект еще не изобретен...

Рассмотрим результат работы. Каждая строка содержит трехбуквенный код (SRC - что было, NEW - что стало, INV - не удалось понять, как это восстанавливать).

Syntax correction settings

Мастер настроек предлагает следующие опции:

  • Удалять строку ?subject= из списка.
    И действительно, зачем нам тема письма по умолчанию?

  • Add mailbox (user-defined) to domains with no mailbox.
    Некоторые адреса в списке могут и не содержать имени почтового ящика, но зато содержат имя домена:
    NetSoap <netsoap.com>
    Jane Smith <http://www.jsmith.com>
    mycorp.net
    Sergio <mailto:sergio.com>
    

    MLW не может восстановить это имя из несуществующих данных. Поэтому, если эта опция включена, то в качестве имени будет использованы данные, которые вы укажете, например info. И как результат вы получите вот это:

    NetSoap <info@netsoap.com>
    Jane Smith <info@jsmith.com>
    info@mycorp.net
    Sergio <info@sergio.com>
    


  • Remove user-defined substring.
    Не раз замечали, что некоторые емейл адреса содержат какую нибудь абсолютно ненужную строчку в имени? Вот именно эта опция позволяет зачищать такие емейл адреса, приводя их в божеский вид.

  • Recovery emails by known domains list.
    Эта опция позволяет восстанавливать неполные емейл адреса, у которых имя домена является неполным, пытаясь определить по первой строке домена, что надо точно подставить. Например mike@hotmail, jane@aol станут mike@hotmail.com and jane@aol.com. Вы можете формировать свой собственный список частых доменов.

  • Remove known 'REMOVEIT' substrings.
    Эта опция вычищает наиболее частые замены в емейлах, таких как mikeREMOVEIT@hotmail.com и jane@NOSPAMaol.com.

  • Verify emails by first-level domains list.
    Эта опция позволяет убирать из списков рассылки домены, которые не могут существовать в принципе, например - hahaha@dont.spam, someone@invalid.address. Если вы не используете эту опцию, то настоятельно рекомендуется использовать Advanced Maillist Verify и High Speed Verifier для проверки полученых адресов.

  • Remove unrestored addresses.
    Если эта опция отключена, то адреса не поддающиеся восстановлению будут также сохранены в результирующий файл.


 
(c) EMMA Labs, 2024 | Мы против спама