The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Сравнение эффективности работы RBL списков и контекстных спам фильтров

09.09.2003 15:30

Две статьи:

  • "RBL: вред или польза" - Алексей Тутубалин оценивает эффективность RBL и долю ложных срабатываний;
  • "Spam Filters" - рассматриваются системы определение спама по содержимому письма. Обращается внимание на проблему ложных срабатываний: не спам помечается как спам - "False Positive" и спам воспринятый как нормальное сообщение - "False Negative". В обзоре рассмотрены системы: Bayesian Mail Filter, Bogofilter, dbacl, Quick Spam Filter, SpamAssassin, SpamProbe и SPASTIC.

    1. Главная ссылка к новости (http://www.spamtest.ru/varticl...)
    2. Bayesian "A Plan for Spam"
    3. Bayesian Mail Filter
    4. Bogofilter
    5. dbacl
    6. SpamAssassin
    Лицензия: CC-BY
    Тип: Обобщение
    Короткая ссылка: https://opennet.ru/2855-mail
    Ключевые слова: mail, db, text, filter, spam
    При перепечатке указание ссылки на opennet.ru обязательно


    Обсуждение (18) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Zergling (?), 10:48, 10/09/2003 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Статья интересная!
    Честно говоря особо не задумывался
    над проблемой потерянных писем.
    Хотя если хорошенько подумать
    фактически RBL - это единственное более или менее эффективное решение, позволяющее отвергать спам
    не получае его, и соответственно на тратясь
    на траффик.
     
     
  • 2.2, Alex Tutubalin (?), 12:09, 10/09/2003 [^] [^^] [^^^] [ответить]  
  • +/
    Оно конечно сильно зависит от человека и от региона,
    но затраты на траффик - не такая и проблема.
    То-есть вот я лично получаю до ~300-500 спам-писем в сутки
    (адрес известен, с 96 года не менялся, используется и
    в ньюсах и на WWW и на форумах). Среднее - наверное 200
    в сутки, это 1.5Mb в день или ~500Mb/год.
    При цене за траффик в ~$75/Gb (столько он стоит сейчас
    в нашей "домашней сети") - это $37 в год. В-общем, не
    такие и потери. При этом, 200-500 в день - это наверное
    не рекорд, но все-равно очень много. Средняя величина
    потока (на всех пользователей Internet) - единицы
    писем в день на лицо. Т.е. затраты еще на 2 порядка
    меньше. Другими словами, ISP вполне может отнести
    их на себестоимость и не заметить.

    В эту "сумму" не посчитаны вирусы. При этом, у вирусов
    есть две особенности
    - они не ловятся (плохо ловятся ) RBL т.к. идут распределенно
    - вирусный траффик бывает и много больше спаммерского. Опять могу
       судить  только по себе, последний месяц вирусы по общему объему
       превышают спам примерно втрое.

    Я собственно клоню к тому, что потери от спама - они не в траффике.

     
     
  • 3.3, Zergling (?), 12:23, 10/09/2003 [^] [^^] [^^^] [ответить]  
  • +/
    >Оно конечно сильно зависит от человека и от региона,
    >но затраты на траффик - не такая и проблема.
    >То-есть вот я лично получаю до ~300-500 спам-писем в сутки
    >(адрес известен, с 96 года не менялся, используется и
    >в ньюсах и на WWW и на форумах). Среднее - наверное 200
    >
    >в сутки, это 1.5Mb в день или ~500Mb/год.
    >При цене за траффик в ~$75/Gb (столько он стоит сейчас
    >в нашей "домашней сети") - это $37 в год. В-общем, не
    >такие и потери. При этом, 200-500 в день - это наверное
    >не рекорд, но все-равно очень много. Средняя величина
    >потока (на всех пользователей Internet) - единицы
    >писем в день на лицо. Т.е. затраты еще на 2 порядка
    >меньше. Другими словами, ISP вполне может отнести
    >их на себестоимость и не заметить.
    >
    хммм
    причем а если я не провайдре ?
    для меня постратить лишние 200$-300$
    это весьма не приятно!
    примечание: у меня тут одному пользователю
    вчера 2000 писем пришло :(
    >В эту "сумму" не посчитаны вирусы. При этом, у вирусов
    >есть две особенности
    > - они не ловятся (плохо ловятся ) RBL т.к. идут распределенно
    >
    > - вирусный траффик бывает и много больше спаммерского. Опять могу
    >   судить  только по себе, последний месяц вирусы по
    >общему объему
    >   превышают спам примерно втрое.
    >
    >Я собственно клоню к тому, что потери от спама - они не
    >в траффике.
    согласен
    просто не приятно тратить деньги на то что тебе @@@@@@@@@
    а так
    spamassassin + drweb и все ок
    до пользователя доходит 1 из 10 спам писем


     
     
  • 4.4, Zergling (?), 12:24, 10/09/2003 [^] [^^] [^^^] [ответить]  
  • +/

    >хммм
    >причем а если я не провайдре ?
    >для меня постратить лишние 200$-300$
    >это весьма не приятно!
    >примечание: у меня тут одному пользователю
    >вчера 2000 писем пришло :(
    и пользователей у меня несколько сотен

     
     
  • 5.7, Alex Tutubalin (?), 13:14, 10/09/2003 [^] [^^] [^^^] [ответить]  
  • +/
    Из этих 2000 писем - сколько было вирусами ?
    И сколько таки ему приходит _в_среднем_ ?
    Сколько приходит _в_среднем_на_пользователя_ ?

    Второе что для меня очевидно - это то, что предварительную
    фильтрацию почты (спам/вирусы/возможно-спам/не спам) нужно
    выносить в точку, где траффик дешевый. Ибо $75/Gb - это домашняя
    сеть, а в colo это дешевле чуть не на порядок.

     
  • 3.8, Maxim Chirkov (?), 14:47, 10/09/2003 [^] [^^] [^^^] [ответить]  
  • +/
    >Оно конечно сильно зависит от человека и от региона,
    >но затраты на траффик - не такая и проблема.

    Для конечных dial-up пользователей время потраченное на забор лишней почты и проблемы с недоставкой из-за переполнения ящика очень болезненны. Это я по отчетам суппорта сужу. Конечно, для пользователей предусмотрена возможность получать почту в обход антиспам-фильтров, интересно что подобной функцией пользуются примерно 0.01аших пользователей, для которых весь бизнес держится на email.


    >То-есть вот я лично получаю до ~300-500 спам-писем в сутки
    >(адрес известен, с 96 года не менялся, используется и
    >в ньюсах и на WWW и на форумах). Среднее - наверное 200

    У меня в последнее время к 500 приближается (вчера - 483 спам-писем, позавчера - 524). Был недавно в отпуске, в полной мере ощутил тяжесть спама в своем mailbox'е, без раскладывания по папкам выудить полезное письмо из моря спама крайне трудная задача.

    >в сутки, это 1.5Mb в день или ~500Mb/год.
    >При цене за траффик в ~$75/Gb (столько он стоит сейчас
    >в нашей "домашней сети") - это $37 в год.

    Т.е. примерно 1 Гб на 10000 пользователей в день, 30 Гб в месяц (у нас 30Гб ~ 2250$ ), не так мало, хотя в конечном счете пользователи платят.


     
     
  • 4.11, Alex Tutubalin (?), 17:50, 10/09/2003 [^] [^^] [^^^] [ответить]  
  • +/
    Максим,

    вирусы - в разы более болезненны в смысле траффика. Во всяком случае, в моей почте :)

    Что касается оценки 1Gb на 10000 пользователей в день, мне она кажется
    несколько завышенной, скорее на 30-40 тыс пользователей (по состоянию
    на сегодня). То-есть, при приведенных ценах, это в районе 10 центов в месяц с пользователя. 3 рубля. В-общем, можно пережить :).

    Моя оценка очень простая и базируется исключительно на экономике.
    Рассылка миллиона писем стоит заказчику, грубо говоря, $100.
    Часть из них не дойдет, но это не так важно. 30-50 млн писем в день дают с одной стороны
    - общий рынок спама в $1-2mln в год
    - 3-10 писем на пользователя в сутки (пользователей можно считать
        по-разному, поэтому вилка широкая). В среднем по России-матушке.

    Так вот, в рынок 1-2 млн/год (нашего отечественного спама) поверить можно.
    Сами спамеры, если верить августовской публикации в "Деньгах" оценивают
    его меньше (~$600 тыс). Но вот в то, что рынок на порядок больше
    (30-100 писем в среднем на лицо) - поверить уже никак нельзя, ибо этой активности просто не видно, при таких размерах возникнут не сравнительно
    мелкие спамерские фирмы (которые мы видим), а гораздо большие. И PR будет в прессе не только черный (против спама), но и наоборот белый.

    Потоки спама, очень похожие по средней оценке, мы наблюдаем на ряде
    (крупных) систем, где стоит наш софт :)

    Возвращаясь к проблеме. 3-10 писем - это 18-70 килобайт на пользователя.
    Или 1 гигабайт на 14-55 тысяч оных в сутки. Моя оценка выше в данную
    вилку вполне попала

     

  • 1.5, Nikolaev D. (?), 12:39, 10/09/2003 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Вариант борьбы со спамом:
    Разрешаем принимать почту только с обратными адресами из *.ru , остальное запрещаем + разрешить отдельные адреса типа sun.com. Проблема спама решена на 80 временно :)
     
  • 1.6, Nikolaev D. (?), 12:51, 10/09/2003 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >spamassassin + drweb и все ок
    >до пользователя доходит 1 из 10 спам писем
    Вот только drweb под sparc нету, и spamassassin перловый весь :(
     
  • 1.9, Аноним (9), 17:13, 10/09/2003 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А зачем применять RBL ко всей почте? Можно только к "избранным". Я использую весьма агрессивный xbl.selwerd.cx только к тем, кто не резолвится. Ай хорошо Азию-с ловит.
     
     
  • 2.10, Alex Tutubalin (?), 17:37, 10/09/2003 [^] [^^] [^^^] [ответить]  
  • +/
    Если у вас нет корреспондентов в Азии (и Австралии), то не проще ли запихнуть весь ARIN в loopback :) ?
     

  • 1.12, Аноним (9), 18:34, 10/09/2003 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Всех нельзя. Среди китайских товарищей могут оказаться 10 праведников и занесенные ветром судьбы в ARIN родные земляки. Нет, всех не могу. Кроме того, xbl.selwerd.cx содержит не только Азию, а и прочия местности.
     
  • 1.13, Аноним (9), 18:41, 10/09/2003 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А... Леша! Я вас помню маленьким смышленым мальчиком. Вы зачем же важную почту получаете, с адресов, заблокированных dul.ru? И еще других агитируете RBL не использовать? Dul.ru - это диалапы отечественные. Вообще правильно, dul.ru - слишком неэффективно, надо руглярные выражения использовать и все сложно-сочиненные имена порешать безжалостно. chello213047150128.3.15.univie.teleweb.at - согласитесь, честный человек с такого релэя почту не пошлет.
     
     
  • 2.14, Alex Tutubalin (?), 00:36, 11/09/2003 [^] [^^] [^^^] [ответить]  
  • +/
    Уважаемый аноним,

    мне было бы приятно, если бы меня помнил не аноним, а человек с именем и фамилией.

    Важную почту с dul.ru я получаю потому что оттуда пишут. Корреспонденты, которые для меня важны. Почему они делают так - им виднее. Может им удобно так. А может быть их ISP попал в SPEWS и они могут послать почту только так.

    И я не агитирую, а призываю задуматься. "Вот если бы я использовал RBL, я бы потерял 4очты. А вы - теряете ?"

    Бывший маленький смышленый мальчик.

     

  • 1.15, Аноним (9), 14:49, 11/09/2003 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Странно, что автор ссылается на сервер ordb.org в примере о "недошедшем ему важном письме". Так как это просто список open relays и назвать его rbl в полном смысле этого слова нельзя.
    В нем например до сих пор содержатся адреса почтовых служб inbox.ru и mail.ru, широко используемых в русском интернете.
    На мой взгляд всё же овчинка стоит выделки.
    Я использую qmail+rblsmtpd.Из хороших rbl стоит отметить bl.spamcop.net. Подумываю о ведении собственного rbl.
     
  • 1.16, dawnshade (?), 16:21, 11/09/2003 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Гм, а что не судьба использовать тот же спамассассин с перезаписью заголовка письма и вставлением хедера, а не удалять письма??? +настройка почтового клиента на складывание в отдельную папку спама? или заставить imap сервер раскладывать все по папкам??
    По-моему самый оптимальный вариант.
    А касаемо людей, отправляющих почту не через релей, а прямиком со своего диалапа - чтож отстаеться им только посочувствовать...
     
     
  • 2.17, Alex Tutubalin (?), 10:23, 14/09/2003 [^] [^^] [^^^] [ответить]  
  • +/
    Так я так и делаю. Размечаю и складываю.

    Статья о том, что _резать_ на основании RBL наверное не стоит

     

  • 1.20, Торквемада (?), 11:25, 15/09/2003 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Что может быть разумнее, чем помечать письма как спам и принимать. Однако, кроме целесообразности есть еще и кое-чего другого. Кто завалил Osirusoft? Кто постоянно DoSит антиспам-ресурсы? Не спрашиваю о уж о том, кто загаживает почтовые ящики совершенно беззащитных пользователей? Это - силы зла и зараза, которые убивают дух интернета. В рекламном зловоньи, не живут птички. Так победим же ветряные мельницы! Долой Reject из кармана!
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2022 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру