The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Русские правила для SpamAssassin"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Открытые системы на сервере (Почта)
Изначальное сообщение [ Отслеживать ]

"Русские правила для SpamAssassin"  +/
Сообщение от AlanMakoev email(ok) on 27-Окт-06, 12:31 
Приглашаю всех интересующихся принять участие в тестировании правил SpamAssassin, предназначенных для фильтрования русскоязычного спама. Файл с правилами можно загрузить с адреса:
http://sa-russian.narod.ru/99_russian_re.cf
Список ключевых фраз, отлавливаемых правилами, находится в файле:
http://sa-russian.narod.ru/tokens
Замечания, пожелания, советы прошу оставлять здесь или отправлять на почту sa-russian@yandex.ru

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Русские правила для SpamAssassin"  +/
Сообщение от s2 (ok) on 27-Окт-06, 16:27 
>Приглашаю всех интересующихся принять участие в тестировании правил SpamAssassin, предназначенных для фильтрования
>русскоязычного спама. Файл с правилами можно загрузить с адреса:
>http://sa-russian.narod.ru/99_russian_re.cf
>Список ключевых фраз, отлавливаемых правилами, находится в файле:
>http://sa-russian.narod.ru/tokens
>Замечания, пожелания, советы прошу оставлять здесь или отправлять на почту sa-russian@yandex.ru

чето я не понял куда эти файлы пихать?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Русские правила для SpamAssassin"  +/
Сообщение от AlanMakoev email(??) on 27-Окт-06, 16:44 
>чето я не понял куда эти файлы пихать?
Файл 99_russian_re.cf - в каталог, где находятся остальные наборы правил - обычно это /usr/share/spamassassin (если при сборке Spamassassin'а не использовался параметр PREFIX). В этом каталоге находятся файлы с именами вида NN_rulesetname.cf.
Файл tokens указан только для справки. Его можно вообще не смотреть.
После этого следует перезапустить spamd (killall -HUP spamd).

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

3. "Русские правила для SpamAssassin"  +/
Сообщение от s2 (ok) on 27-Окт-06, 16:48 
>>чето я не понял куда эти файлы пихать?
>В каталог, где находятся остальные наборы правил - обычно это /usr/share/spamassassin (если
>при сборке Spamassassin'а не использовался параметр PREFIX). В этом каталоге находятся
>файлы с именами вида NN_rulesetname.cf.
>После этого следует перезапустить spamd (killall -HUP spamd).
угу есть такое
и tokens тудаже?

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

4. "Русские правила для SpamAssassin"  +/
Сообщение от AlanMakoev email(ok) on 27-Окт-06, 16:51 
>и tokens тудаже?
нет, токенс - только для справки
гы, поздновато предыдущий пост дополнил :))

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

5. "Русские правила для SpamAssassin"  +/
Сообщение от dawnshade email on 27-Окт-06, 18:15 
>Приглашаю всех интересующихся принять участие в тестировании правил SpamAssassin, предназначенных для фильтрования
>русскоязычного спама. Файл с правилами можно загрузить с адреса:
>http://sa-russian.narod.ru/99_russian_re.cf
>Список ключевых фраз, отлавливаемых правилами, находится в файле:
>http://sa-russian.narod.ru/tokens
>Замечания, пожелания, советы прошу оставлять здесь или отправлять на почту sa-russian@yandex.ru


мда, вот она непризнанная гениальность. а назвать по человечески никак было?
как потом отлавливать срабатывания скажем правила BODY_WIN1251_69, говорящемго всем видимо за себя.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

6. "Русские правила для SpamAssassin"  +/
Сообщение от s2 (ok) on 27-Окт-06, 18:56 
>мда, вот она непризнанная гениальность. а назвать по человечески никак было?
>как потом отлавливать срабатывания скажем правила BODY_WIN1251_69, говорящемго всем видимо за себя.
>


согласен (:
ибо ниче не понятно может афтар исправит

зато работает даже ончень ничего

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

7. "Русские правила для SpamAssassin"  +/
Сообщение от AlanMakoev (ok) on 28-Окт-06, 12:27 
>а назвать по человечески никак было?
Нет, нельзя :-b
Я планирую настрочить скрипт, который будет регулярно сканить maillog или spamd.log и подсчитывать число попаданий для каждого правила (чтобы вовремя удалять из набора потерявшие актуальность правила). Для этого желательно, чтобы название правила соответствовало некоему легко распознаваемому шаблону.

>как потом отлавливать срабатывания скажем правила BODY_WIN1251_69
Сейчас на http://sa-russian.narod.ru/ выложен файл 99_russian_re.cf, в котором перед каждым правилом в комментарии указан токен, который это правило отлавливает.
Что касается названий типа, к примеру BODY_OBHOD_FILTROV для фразы "обход фильтров" (и ее мутантов) - чуть попозже что-нибудь придумаю.

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

8. "Русские правила для SpamAssassin"  +/
Сообщение от dawnshade email on 28-Окт-06, 14:38 
>>как потом отлавливать срабатывания скажем правила BODY_WIN1251_69
>Сейчас на http://sa-russian.narod.ru/ выложен файл 99_russian_re.cf, в котором перед каждым правилом в
>комментарии указан токен, который это правило отлавливает.
>Что касается названий типа, к примеру BODY_OBHOD_FILTROV для фразы "обход фильтров" (и
>ее мутантов) - чуть попозже что-нибудь придумаю.


хорошо хоть так. после беглово просмотра, правда, выясняется что любые резюме технарей (и не только) попадут под ваши правила. начальные особенно.

Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

9. "Русские правила для SpamAssassin"  +/
Сообщение от cryo on 09-Ноя-06, 12:40 
Под какой лицензией Вы выпускаете файл правил?
Если Public Domain, укажите это явным образом, пожалуйста.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

10. "Русские правила для SpamAssassin"  +/
Сообщение от cryo email on 09-Ноя-06, 12:50 
Под какой лицензией выпускается ваш файл правил?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

11. "Русские правила для SpamAssassin"  +/
Сообщение от R4z0R email(ok) on 18-Янв-07, 16:26 
А как можно подправить "под себя" правила? Я так понимаю, что нужно изменить файл токенов
и потом сформировать сами правила?
Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

12. "Русские правила для SpamAssassin"  +/
Сообщение от R4z0R email(ok) on 28-Май-07, 15:52 
Помогли здесь сделать скрипт для подсчета срабатываний правил, можно ещё добавить сортировку и много чего другого, но самы простой вариант вот:

count=""; #счетчик, пока нулевой

SPISOK1=""; # набор слов для поиска
SPISOK2=""; # список файлов, где нужно искать эти слова

file1="/home/test/test_rul"; # откуда берем имена правил
file2="/home/test/test_spam_list"; #откуда берем файлы писем

while [ 1 ]
do
read SPISOK1 || break # начинаем читать список имен правил пока не
закончится файл
    while [ 2 ]
        do
    read SPISOK2 || break #получаем имена писем пока
не закончится файл

    if cat /home/test/spam/$SPISOK2 | awk '$0~/$SPISOK1/'; then
       let count="$count+1"
    fi

    done < $file2
    echo $SPISOK1 " = "$count >> /home/test/itogi # после поиска выводим результат
done < $file1

З.Ы Правда срабатывания нужно делить на 2 (на каждое правило в хидере 2 записи, одна в списке сработавших, другая в списке правил с баллами)

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

13. "Русские правила для SpamAssassin"  +/
Сообщение от R4z0R email(ok) on 10-Авг-07, 10:45 
Вышеприведенный скрипт считает неправильно, переделал на нормальный вариант - этот работает точно:
#!/bin/sh
# проверяем наличие итогового файла, если нет, то создаем
ls -N /home/test/spam > /home/test/test_spam_list #подготавливаем список писем (заливаем весь спам в папку /home/test/spam)
ALL=/home/test/itogs #файл для итоговых значений
RULES1=""; # набор слов для поиска
SPAM2=""; # список файлов, где нужно искать эти слова
DIR="/home/test/spam"; #
rules="/home/test/test_rul"; # файл с именами правил (подготавливается заранее)
spam="/home/test/test_spam_list";# файл с именами файлов спама

#-------start grep rules name--------------#
while [ 1 ]
do
read RULES1 || break
        while [ 2 ]
        do
        read SPAM2 || break
        cat $DIR/$SPAM2 | awk '{if($0~/'${RULES1}'/) {print 1}}' >> t #если встречается название правила в письме, то в файл t пишем 1
        done < $spam
awk '{ s = s + $1} END {print ("'${RULES1}' = " s/3)}' t >> $ALL #суммируем все единицы из файла t и записываем итоговую строку для каждого правила в итоговый файл
echo -n > /home/test/t #очищаем счетчик для следующего имени правила

done < $rules

Понимаю что сделано коряво и можно было загонять всё в массив, но работает! Кто предложит лучше - буду только рад

Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

30. "Русские правила для SpamAssassin"  +/
Сообщение от skoval email on 10-Дек-08, 14:34 
>Помогли здесь сделать скрипт для подсчета срабатываний правил, можно ещё добавить сортировку
>и много чего другого, но самы простой вариант вот:

Самый простой вариант воспользоваться уже готовыми утилитами, ссылки на которые есть в faq'е http://wiki.apache.org/spamassassin/StatsAndAnalyzers

Пока только http://www.rulesemporium.com/programs/sa-stats-1.0.txt
пользовался. Правила считает на ура.

А за работу спасибо большое :) Еще не примерял, но я SA недавно начал пользоваться, до внедрения third-party правил только недавно дозрел.

Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

14. "Русские правила для SpamAssassin"  +/
Сообщение от Reboot on 12-Сен-08, 12:33 
а для 3.2.5 есть у кого -нибудь правила?


Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

15. "Русские правила для SpamAssassin"  +/
Сообщение от Serdg on 13-Сен-08, 01:45 
>а для 3.2.5 есть у кого -нибудь правила?

файл с правилами подходит к любой версии, у меня он работает сейчас на последней


Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

16. "Русские правила для SpamAssassin"  +/
Сообщение от Бармалей email(??) on 18-Сен-08, 11:55 
>Приглашаю всех интересующихся принять участие в тестировании правил SpamAssassin, предназначенных для фильтрования
>русскоязычного спама. Файл с правилами можно загрузить с адреса:
>http://sa-russian.narod.ru/99_russian_re.cf
>Список ключевых фраз, отлавливаемых правилами, находится в файле:
>http://sa-russian.narod.ru/tokens
>Замечания, пожелания, советы прошу оставлять здесь или отправлять на почту sa-russian@yandex.ru

Подскажите как самому можно получать такие правила из своих фраз? (кусочек скрипта или утилиту которая генерит такие последовательности?)

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

17. "Русские правила для SpamAssassin"  +/
Сообщение от cryo email(??) on 18-Сен-08, 16:24 
>Подскажите как самому можно получать такие правила из своих фраз? (кусочек скрипта
>или утилиту которая генерит такие последовательности?)

Анализируешь содержания писем, ищешь общие фразы, характерные для спама, на их основании пишешь регулярные выражения, оформляешь их в рулы по правилам SA.

К сожалению, волшебного скрипта написать-правила-для-всего-этого-спама.pl, пригодного для практического применения, не существует :)

Ответить | Правка | ^ к родителю #16 | Наверх | Cообщить модератору

18. "Русские правила для SpamAssassin"  +/
Сообщение от Serdg on 18-Сен-08, 22:09 
>>Подскажите как самому можно получать такие правила из своих фраз? (кусочек скрипта
>>или утилиту которая генерит такие последовательности?)
>
>Анализируешь содержания писем, ищешь общие фразы, характерные для спама, на их основании
>пишешь регулярные выражения, оформляешь их в рулы по правилам SA.
>
>К сожалению, волшебного скрипта написать-правила-для-всего-этого-спама.pl, пригодного для практического применения, не существует :)
>

я вручную все делаю, додумался только сделать скрипт, который парсит весь спам и составляет список правил с количеством срабатываний - чтобы не терять актуальность, а фразы вставляю вручную в файл

Ответить | Правка | ^ к родителю #17 | Наверх | Cообщить модератору

19. "Русские правила для SpamAssassin"  +/
Сообщение от Бармалей email(??) on 19-Сен-08, 04:50 
>>Подскажите как самому можно получать такие правила из своих фраз? (кусочек скрипта
>>или утилиту которая генерит такие последовательности?)
>
>Анализируешь содержания писем, ищешь общие фразы, характерные для спама, на их основании
>пишешь регулярные выражения, оформляешь их в рулы по правилам SA.
>
>К сожалению, волшебного скрипта написать-правила-для-всего-этого-спама.pl, пригодного для практического применения, не существует :)
>

Понятное дело :-) я не о том, у меня ситуация такова. Я написал правило, использовал кодировку KOI8-R потом сделал скрипт, который на основе имеющегося файла при помощи iconv делает еще два под cp1251 и UTF-8 (и меняет название правил конечно же). Однако не работает. В приведенном примере русские слова кодируются символами вида \x. Я с таким сталкивался но не знаю что это за кодировка и как получать ее. Вот мой вопрос как раз об этом и был, как получить из /\bспам(им|а) вам!/i строку вида (\xe....) как в примере.

(spamassassin --lint -D говорит что все нормально и пишет что правила подключились)

Ответить | Правка | ^ к родителю #17 | Наверх | Cообщить модератору

20. "Русские правила для SpamAssassin"  +/
Сообщение от arkady email(??) on 07-Окт-08, 09:45 
>[оверквотинг удален]
>написал правило, использовал кодировку KOI8-R потом сделал скрипт, который на основе
>имеющегося файла при помощи iconv делает еще два под cp1251 и
>UTF-8 (и меняет название правил конечно же). Однако не работает. В
>приведенном примере русские слова кодируются символами вида \x. Я с таким
>сталкивался но не знаю что это за кодировка и как получать
>ее. Вот мой вопрос как раз об этом и был, как
>получить из /\bспам(им|а) вам!/i строку вида (\xe....) как в примере.
>
>(spamassassin --lint -D говорит что все нормально и пишет что правила подключились)
>

Я добавил в Mail/Spamassassin/Message.pm после use warnings;
#===========
use bytes;
#===========
в Mail/SpamAssassin/Plugin/Check.pm после use warnings; добавил
#=====================
use utf8;
use POSIX qw (locale_h);
POSIX::setlocale(&POSIX::LC_CTYPE,'ru_RU.UTF-8');
#=====================
в /etc/mail/spamassassin/local.cf
#=====================
normalize_charset 1
#=====================

Таблицы кодировки utf8 можно найти здесь: http://www.utf8-chartable.de/unicode-utf8-table.pl
И еще /i в хексах не работает (по крайней мере у меня не получилось), поэтому скажем русскую букву а я обозначаю как: (\xd0\x90)|(\xd0\xb0)|(\x40)|(\x41)|(\x61)
имеется ввиду: А а @ A a

а далее исключительно Ваше творчество.

Ответить | Правка | ^ к родителю #19 | Наверх | Cообщить модератору

21. "Русские правила для SpamAssassin"  +/
Сообщение от Бармалей email(??) on 08-Окт-08, 09:49 
>[оверквотинг удален]
>normalize_charset 1
>#=====================
>
>Таблицы кодировки utf8 можно найти здесь: http://www.utf8-chartable.de/unicode-utf8-table.pl
>И еще /i в хексах не работает (по крайней мере у меня
>не получилось), поэтому скажем русскую букву а я обозначаю как: (\xd0\x90)|(\xd0\xb0)|(\x40)|(\x41)|(\x61)
>
>имеется ввиду: А а @ A a
>
>а далее исключительно Ваше творчество.

Спасибо за ответ, я разобрался с шестнадцатеричными кодировками, сделал две таблицы, для KOI8-R и cp1251 и на их основе написал скрипт переводящий токены вида (поп(а|ка)) в нужные строки вида (\x... Если интересно - могу выложить тут результат.

С UTF-8 тема так и повисла потому как там русские символы кодируются несколькими байтами. Одним словом я так и не разобрался с ним. Уповаю только на то, что писем в UTF-8 мало.

Ответить | Правка | ^ к родителю #20 | Наверх | Cообщить модератору

22. "Русские правила для SpamAssassin"  +/
Сообщение от Торопыжка on 21-Окт-08, 13:05 
>Спасибо за ответ, я разобрался с шестнадцатеричными кодировками, сделал две таблицы, для
>KOI8-R и cp1251 и на их основе написал скрипт переводящий токены
>вида (поп(а|ка)) в нужные строки вида (\x... Если интересно - могу
>выложить тут результат.

Конечно, интересно, потому что подавляющая часть почты идет именнов  1251.

Кстати, при старте Amavis не читает этот файл в /usr/share/spamassasin/
Все тамошние читает, а вот этот - ни в какую ( я смотрю по логам Amavis-а).


Ответить | Правка | ^ к родителю #21 | Наверх | Cообщить модератору

24. "Русские правила для SpamAssassin"  +/
Сообщение от AlanMakoev email(??) on 22-Окт-08, 20:49 
>Кстати, при старте Amavis не читает этот файл в /usr/share/spamassasin/
>Все тамошние читает, а вот этот - ни в какую ( я
>смотрю по логам Amavis-а).

У меня сейчас тоже Amavis (в том смысле, что amavisd-new) - когда он подгружает модуль SpamAssasin'а, он этот файл считывает. Может быть, этот файл просто по разрешениям недоступен юзеру, с именем которого бегает amavisd?
На всякий случай, добавьте в command-line options для amavisd ключик "-d debug,all" - этим он заставляет SpamAssassin писать дебаг в логи (для контроля работы правил я запускаю amavisd с ключём "-d info,rules", обычному пользователю, впрочем, и это не нужно).
Правда, для того, чтобы добиться дебага от SpamAssassin'а в syslog, пришлось влезть в текст самого SpamAssassin.pm (у меня он обитает в /usr/lib/perl5/site_perl/5.8.8/Mail) и сразу после строки "use Mail::SpamAssassin::Logger;" добавить строку "Mail::SpamAssassin::Logger::add(method => 'syslog', socket => 'unix', facility => 'mail');", без этого не хотел ничего писать ни в syslog, н вообще никуда.

Ответить | Правка | ^ к родителю #22 | Наверх | Cообщить модератору

25. "Русские правила для SpamAssassin"  +/
Сообщение от Торопыжка on 23-Окт-08, 17:26 
Да нет, вроде те же разрешения.

Попробую настроить вывод в лог.


Ответить | Правка | ^ к родителю #24 | Наверх | Cообщить модератору

33. "Русские правила для SpamAssassin"  +/
Сообщение от skoval email on 23-Дек-08, 14:59 
>[оверквотинг удален]
>в Mail/SpamAssassin/Plugin/Check.pm после use warnings; добавил
>#=====================
>use utf8;
>use POSIX qw (locale_h);
>POSIX::setlocale(&POSIX::LC_CTYPE,'ru_RU.UTF-8');
>#=====================
>в /etc/mail/spamassassin/local.cf
>#=====================
>normalize_charset 1
>#=====================

Вот эти действия с последними версиями правил нужно выполнять.
Без этих добавок вроде все нормально, а с ними вот такие предупреждения возникают

$ spamassassin --lint
[70492] warn: Malformed UTF-8 character (unexpected non-continuation byte 0xe8, immediately after start byte 0xe9) in eval "string" at /var/db/spamassassin/3.002005/updates_spamassassin_org/20_advance_fee.cf, rule __FRAUD_GAN, line 1.
[70492] warn: Malformed UTF-8 character (unexpected non-continuation byte 0x5d, immediately after start byte 0xe8) in eval "string" at /var/db/spamassassin/3.002005/updates_spamassassin_org/20_advance_fee.cf, rule __FRAUD_GAN, line 1.

Ответить | Правка | ^ к родителю #20 | Наверх | Cообщить модератору

34. "Русские правила для SpamAssassin"  +/
Сообщение от skoval email on 23-Дек-08, 15:46 
Забыл знак вопроса поставить. Это я спрашивал нужно ли эти исправления сейчас делать.
Ответить | Правка | ^ к родителю #33 | Наверх | Cообщить модератору

36. "Русские правила для SpamAssassin"  +/
Сообщение от Tokamak on 14-Янв-09, 14:32 
>>Подскажите как самому можно получать такие правила из своих фраз? (кусочек скрипта
>>или утилиту которая генерит такие последовательности?)
>
>Анализируешь содержания писем, ищешь общие фразы, характерные для спама, на их основании
>пишешь регулярные выражения, оформляешь их в рулы по правилам SA.
>
>К сожалению, волшебного скрипта написать-правила-для-всего-этого-спама.pl, пригодного для практического применения, не существует :)
>

Вот скрипт на PHP, работает с 4-я кодировками
http://www.spamassassin.tu2.ru

Ответить | Правка | ^ к родителю #17 | Наверх | Cообщить модератору

23. "Русские правила для SpamAssassin"  +/
Сообщение от AlanMakoev email(??) on 22-Окт-08, 20:27 
Здравствуйте все!
Прошу прощения за долгое молчание - немного не до того было.
Сейчас на http://sa-russian.narod.ru выложен "причёсанный скрипт" для генерации правил, файл токенов, файл с правилами и краткие пояснения к файлу токенов.
Принципиальных изменений в списке токенов нет, но надеюсь вскорости обновить, расширить и углУбить.
Скрипт пришлось переписать, чтобы дружил с UTF-8, на моём 5.8.8 работает, вроде должен и на других работать - я старался писать так, чтобы данные обрабатывались побайтово, а не побуквенно.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

26. "Русские правила для SpamAssassin"  +/
Сообщение от AlanMakoev email(??) on 31-Окт-08, 22:19 
На http://sa-russian.narod.ru/ выложена очередная версия файла русских правил для SpamAssassin'а, новая версия скрипта и новый файл токенов.
Изменения в токенах внесены только в раздел, относящийся к порнографии, всё остальное - как прежде.
В скрипте добавлена возможность создавать в списке токенов правила, относящиеся не к русскоязычному содержимому, а к сообщению вообще (наличие смешанных цифр и букв, много восклицательных знаков, буквы, чередующиеся со знаками пунктуации).
Как всегда, жду Ваших замечаний на sa-russian@yandex.ru.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

27. "Русские правила для SpamAssassin"  +/
Сообщение от R4z0R email(ok) on 05-Ноя-08, 12:49 
>На http://sa-russian.narod.ru/ выложена очередная версия файла русских правил для SpamAssassin'а, новая версия
>скрипта и новый файл токенов.
>Изменения в токенах внесены только в раздел, относящийся к порнографии, всё остальное
>- как прежде.
>В скрипте добавлена возможность создавать в списке токенов правила, относящиеся не к
>русскоязычному содержимому, а к сообщению вообще (наличие смешанных цифр и букв,
>много восклицательных знаков, буквы, чередующиеся со знаками пунктуации).
>Как всегда, жду Ваших замечаний на sa-russian@yandex.ru.

Что-то не совсем понятно - сейчас баллы не начисляются по-умолчанию для срабатывающего правила?


Ответить | Правка | ^ к родителю #26 | Наверх | Cообщить модератору

28. "Русские правила для SpamAssassin"  +/
Сообщение от AlanMakoev email(??) on 06-Ноя-08, 21:25 
Баллы начисляются за комбинации сработавших правил, а не за отдельные правила. Например, кроме токена "порн" нужно наличие в письме какого-нибудь ещё токена (типа "видео", или "девочк", или "страстн", или наличие гиперссылки). Правила, которые срабатывают на какой-то один токен, сами по себе вклада в конечный score не дают (иначе SA будет отбрасывать письма, в которых упоминаются "с[порн]ый вопрос" или "у[порн]ый подшипник")
Правила, не относящиеся к русскому содержимому - это, например, наличие в тексте фрагмента "http://[[a-zA-Z0-9].-]", т.е. что в письме есть web-адрес (присутствует в 100% порноспама)
Ответить | Правка | ^ к родителю #27 | Наверх | Cообщить модератору

29. "Русские правила для SpamAssassin"  +/
Сообщение от R4z0R email(??) on 07-Ноя-08, 17:56 
>Баллы начисляются за комбинации сработавших правил, а не за отдельные правила. Например,
>кроме токена "порн" нужно наличие в письме какого-нибудь ещё токена (типа
>"видео", или "девочк", или "страстн", или наличие гиперссылки). Правила, которые срабатывают
>на какой-то один токен, сами по себе вклада в конечный score
>не дают (иначе SA будет отбрасывать письма, в которых упоминаются "с[порн]ый
>вопрос" или "у[порн]ый подшипник")
>Правила, не относящиеся к русскому содержимому - это, например, наличие в тексте
>фрагмента "http://[[a-zA-Z0-9].-]", т.е. что в письме есть web-адрес (присутствует в 100%
>порноспама)

Я просто закинул новые правила вместо старых и сервак стал, процессов exim стало почти 2000, вместо обычных 10-50 и появилось дофига зомби

Ответить | Правка | ^ к родителю #28 | Наверх | Cообщить модератору

31. "Русские правила для SpamAssassin"  +/
Сообщение от Дмитрий (??) on 22-Дек-08, 22:57 
>На http://sa-russian.narod.ru/ выложена очередная версия файла русских правил для SpamAssassin'а, новая версия
>скрипта и новый файл токенов.
>Изменения в токенах внесены только в раздел, относящийся к порнографии, всё остальное
>- как прежде.
>В скрипте добавлена возможность создавать в списке токенов правила, относящиеся не к
>русскоязычному содержимому, а к сообщению вообще (наличие смешанных цифр и букв,
>много восклицательных знаков, буквы, чередующиеся со знаками пунктуации).
>Как всегда, жду Ваших замечаний на sa-russian@yandex.ru.

Огромное спасибо за ваш труд! Не знаю что бы я делал без этих правил.

Ответить | Правка | ^ к родителю #26 | Наверх | Cообщить модератору

32. "Русские правила для SpamAssassin"  +/
Сообщение от R4z0R email(??) on 23-Дек-08, 12:12 
закинул новые правила от 10.11.08 в /usr/share/spamassassin в результате проблема с зомби-процессами и наращиванием процессов exim решилась, но письмо с темой:
"П...но с молоденькими девочками"
и текстом:
Трое негров е.ут молоденькую девку, тр..х с девочкой
http://p0rn0girl.net (тут адрес полностью буквами, это для форума версия)
и в итоге оно прошло с пометками:

X-Spam-Status: No, score=5.6 required=6.5 tests=AWL,BAYES_60,MISSING_MID,
    RDNS_NONE,RU_SPAM_KOI8,RU_SUSPECTED_SPAM_KOI8,URIBL_SBL autolearn=no
    version=3.2.5

Ответить | Правка | ^ к родителю #31 | Наверх | Cообщить модератору

35. "Русские правила для SpamAssassin"  +/
Сообщение от Дмитрий (??) on 24-Дек-08, 16:10 
Вот такое письмо не посчиталось спамом с новыми правилами:
======================================================
From: "Ксения" [mailto:detuxubigu@westaninsurance.com]
Sent: Wednesday, December 24, 2008 1:25 PM
To: ****
Subject: Хочешь оргазма, заходи сюда

ЕО737 Если ты хочешь неимоверных оргазмов, заходи сюда
ЛА290 Смотри, как девочки доводят себя до исступления
ЧО418 Они запихивают в киски игрушки
ХЕ346 Они дико трут клитора
ЕЕ262 Вот это по настоящему классный экшн!

НС807 http://******.ru
=====================================================

Вот что говорит СА:
Content analysis details:   (7.2 points, 6.0 required)

pts rule name              description
---- ---------------------- --------------------------------------------------
3.5 BAYES_99               BODY: Bayesian spam probability is 99 to 100%
                            [score: 1.0000]
1.8 MIME_BASE64_TEXT       RAW: Message text disguised using base64 encoding
0.1 RDNS_NONE              Delivered to trusted network by a host with no rDNS
1.1 FORGED_MUA_THEBAT_CS   Mail pretending to be from The Bat! (charset)
0.6 AWL                    AWL: From: address is in the auto white-list

А это дебаг при прогонке через "spamassassin -D -t < /qwe.eml &> /sdfgsdfg2.txt"

[10502] dbg: rules: running body tests; score so far=3.5
[10502] dbg: rules: compiled body tests
[10502] dbg: rules: ran body rule __RU_PORN_3A1_KOI8 ======> got hit: "▒▒▒▒▒▒"
[10502] dbg: rules: ran body rule __RU_PORN_2B4_KOI8 ======> got hit: " ▒▒▒▒"
[10502] dbg: rules: ran body rule __RU_MMEDIA_2_WIN1251 ======> got hit: "j"
[10502] dbg: rules: ran body rule __RU_MMEDIA_2_KOI8 ======> got hit: "j"
[10502] dbg: rules: ran body rule __NONEMPTY_BODY ======> got hit: "▒"
[10502] dbg: rules: ran body rule __HIGHBITS ======> got hit: "▒▒▒▒▒▒ "
[10502] dbg: rules: running uri tests; score so far=3.5
[10502] dbg: rules: compiled uri tests
[10502] dbg: rules: ran uri rule __DOS_HAS_ANY_URI ======> got hit: "h"
[10502] dbg: eval: stock info total: 0
[10502] dbg: rules: ran eval rule __TVD_MIME_ATT_TP ======> got hit (1)
[10502] dbg: rules: running rawbody tests; score so far=3.5
[10502] dbg: rules: compiled rawbody tests
[10502] dbg: rules: ran rawbody rule __SA_RUS_HLINK ======> got hit: "http://headroomjsrzu.chat.ru"
[10502] dbg: rules: ran rawbody rule __TVD_BODY ======> got hit: "▒▒73"
[10502] dbg: rules: ran eval rule __MIME_BASE64 ======> got hit (1)
[10502] dbg: rules: ran eval rule MIME_BASE64_TEXT ======> got hit (1)
[10502] dbg: rules: running full tests; score so far=5.253
[10502] dbg: rules: compiled full tests

Я считаю, что не нужно группировать вхождения слов и пр., а ловить их по отдельности.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

37. "С введением этих правил нагрузка увеличилась процентов на 50."  +/
Сообщение от Movado email on 10-Фев-09, 14:02 
В итоге через минут 20-30 работы начинает глючить spamd и в итоге загрузка в top 4-4.5, постоянные сообщения типа

2009-02-10 13:52:40 1LWqAJ-0000uS-1z spam acl condition: all spamd servers failed
2009-02-10 13:52:40 1LWq8M-0000te-M7 spam acl condition: error reading from spamd socket: Connection reset by peer
2009-02-10 13:52:40 1LWqAL-0000uT-0Z spam acl condition: error reading from spamd socket: Connection reset by peer
2009-02-10 13:52:40 1LWqAL-0000uT-0Z spam acl condition: warning - spamd connection to 127.0.0.1, port 783 failed: Connection refused

Проблема решается перезапуском spamd.

Думаю уменьшить количество child процессов spamd, но по любому загрузка сильно возросла.

Зато каков эффект от фильтрации!

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

38. "С введением этих правил нагрузка увеличилась процентов на 50..."  +/
Сообщение от R4z0R email(??) on 10-Фев-09, 16:21 
>[оверквотинг удален]
>reset by peer
>2009-02-10 13:52:40 1LWqAL-0000uT-0Z spam acl condition: warning - spamd connection to 127.0.0.1,
>port 783 failed: Connection refused
>
>Проблема решается перезапуском spamd.
>
>Думаю уменьшить количество child процессов spamd, но по любому загрузка сильно возросла.
>
>
>Зато каков эффект от фильтрации!

посмотрите мой пост №32 - так же делали?

Ответить | Правка | ^ к родителю #37 | Наверх | Cообщить модератору

39. "С введением этих правил нагрузка увеличилась процентов на 50..."  +/
Сообщение от Movado email on 10-Фев-09, 17:12 

>посмотрите мой пост №32 - так же делали?

Да, в /usr/local/share/spamassassin самые свежие правила. Пока что решил проблему введением только фильтрации по Win1251 - KOI-8 пока отключил на загруженных серверах. Но даже без KOI-8 загрузка по top-у около единицы, а раньше была в среднем 0.5

Железо вполне человеческое - интел Е2160 (core Duo)... Нагрузка - гиг почтового трафига в сутки, 40-50 тысяч реджектов по превышенному SpamScore или несуществующим получателям, в основную почтовую систему проползает 10-12 000 писем в день.

Эх, мне б аналог spamd, но не перловый, а сишный...

Ответить | Правка | ^ к родителю #38 | Наверх | Cообщить модератору

40. "Русские правила для SpamAssassin"  +/
Сообщение от Евгений (??) on 30-Окт-13, 02:36 
К сожалению, проект перестал поддерживаться. Порядком намучившись с русским спамом пришлось начать писать правила самим. Приглашаем протестировать и наши правила для фильтрации русскоязычного спама: http://www.wentor.ru/articles/spamassassin/
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру