The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Странное поведение catalyst 4948e"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Маршрутизаторы CISCO и др. оборудование. (Диагностика и решение проблем)
Изначальное сообщение [ Отслеживать ]

"Странное поведение catalyst 4948e"  +/
Сообщение от kid (??) on 11-Янв-18, 10:28 
Всем доброго времени суток.Подскажите уважаемые куда копать уже сломал голову. В общем стоит на границе сети каталист 3550-12Т, поднято 2 аплинка: 1-etherchanel (2 порта) 2-й резервный гиговый порт, бгп принимает от аплинков только дефолтные маршруты. в этот же коммутатор воткнуто 3 сервера: 1)NAT 2)Белые адреса бегают 3)BRAS с pppoe клиентами.На данном коммутаторе все работает отлично, по 1м каналу прокачиваем свои 2 гига без проблем. Решили поменять коммутатор на более мощный поставили 4948е-с 4мя 10Гб портами, конфигурация 1 в 1 с 3550, но при установке коммутатора начинаются проблемы, не можем прокачать свои 2 гига, скорости у абонентов нет, а на серверах начинаю наблюдать дикие потери на сетевых интерфейсах
к примеру на сервере где бегают белые ип

RX packets:489094294147 errors:46 dropped:203983 overruns:716283 frame:26
ethtool -S eth6 | grep rx
     rx_packets: 489097326771
     rx_bytes: 540861461684088
     rx_broadcast: 54
     rx_multicast: 0
     rx_crc_errors: 26
     rx_no_buffer_count: 0
     rx_missed_errors: 203983
     rx_long_length_errors: 0
     rx_short_length_errors: 0
     rx_align_errors: 0
     rx_flow_control_xon: 0
     rx_flow_control_xoff: 0
     rx_long_byte_count: 540861461684088
     rx_smbus: 0
     os2bmc_rx_by_bmc: 0
     os2bmc_rx_by_host: 0
     rx_errors: 46
     rx_length_errors: 0
     rx_over_errors: 0
     rx_frame_errors: 0
     rx_fifo_errors: 716283
     rx_queue_0_packets: 60275438145
     rx_queue_0_bytes: 67364653646328
     rx_queue_0_drops: 66870
     rx_queue_0_csum_err: 862692
     rx_queue_0_alloc_failed: 0
     rx_queue_1_packets: 59742801332
     rx_queue_1_bytes: 66535309734072
     rx_queue_1_drops: 132185
     rx_queue_1_csum_err: 788196
     rx_queue_1_alloc_failed: 0
     rx_queue_2_packets: 61087346856
     rx_queue_2_bytes: 67571487122583
     rx_queue_2_drops: 53690
     rx_queue_2_csum_err: 1021215
     rx_queue_2_alloc_failed: 0
     rx_queue_3_packets: 62018388233
     rx_queue_3_bytes: 67839534530503
     rx_queue_3_drops: 42516
     rx_queue_3_csum_err: 4393512
     rx_queue_3_alloc_failed: 0
     rx_queue_4_packets: 61935367558
     rx_queue_4_bytes: 67771655959457
     rx_queue_4_drops: 53519
     rx_queue_4_csum_err: 890017
     rx_queue_4_alloc_failed: 0
     rx_queue_5_packets: 60983872760
     rx_queue_5_bytes: 66954520823464
     rx_queue_5_drops: 42260
     rx_queue_5_csum_err: 1317810
     rx_queue_5_alloc_failed: 0
     rx_queue_6_packets: 63103739331
     rx_queue_6_bytes: 68177826438092
     rx_queue_6_drops: 55008
     rx_queue_6_csum_err: 842091
     rx_queue_6_alloc_failed: 0
     rx_queue_7_packets: 59948940847
     rx_queue_7_bytes: 66689840760277
     rx_queue_7_drops: 66252
     rx_queue_7_csum_err: 803654
     rx_queue_7_alloc_failed: 0

соответственно на циске вижу что она начинает активно вставлять pause frame и дропать трафф. Возвращаю 3550 и все нормализуется, счетчики дропов перестают расти. Если я правильно понимаю то дело даже не в циске.

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Странное поведение catalyst 4948e"  +/
Сообщение от fantom (??) on 11-Янв-18, 12:39 
>[оверквотинг удален]
>      rx_queue_6_csum_err: 842091
>      rx_queue_6_alloc_failed: 0
>      rx_queue_7_packets: 59948940847
>      rx_queue_7_bytes: 66689840760277
>      rx_queue_7_drops: 66252
>      rx_queue_7_csum_err: 803654
>      rx_queue_7_alloc_failed: 0
> соответственно на циске вижу что она начинает активно вставлять pause frame и
> дропать трафф. Возвращаю 3550 и все нормализуется, счетчики дропов перестают расти.
> Если я правильно понимаю то дело даже не в циске.

rx_queue_N_csum_err <очень много>
Где N 0-8  


Symptoms
rx_queue_0_csum_err incrementing in ethtool -S output
[Expert@gw]# ethtool -k <interface> shows:
rx-checksumming: on
The interface is using the igb driver
Cause
The cable or port in use may be faulty.

This can also be caused by the rx-checksumming option for the interface, in some cases.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Странное поведение catalyst 4948e"  +/
Сообщение от kid (??) on 11-Янв-18, 12:55 
>[оверквотинг удален]
> Где N 0-8
> Symptoms
> rx_queue_0_csum_err incrementing in ethtool -S output
> [Expert@gw]# ethtool -k <interface> shows:
> rx-checksumming: on
> The interface is using the igb driver
> Cause
> The cable or port in use may be faulty.
> This can also be caused by the rx-checksumming option for the interface,
> in some cases.

Я правильно понял что надо отключить чексумминг на интерфейсе?
сейчас вот так настройки сделаны
ethtool -k eth6
Features for eth6:
rx-checksumming: on
tx-checksumming: on
        tx-checksum-ipv4: on
        tx-checksum-unneeded: off [fixed]
        tx-checksum-ip-generic: off [fixed]
        tx-checksum-ipv6: on
        tx-checksum-fcoe-crc: off [fixed]
        tx-checksum-sctp: on
scatter-gather: on
        tx-scatter-gather: on
        tx-scatter-gather-fraglist: off [fixed]
tcp-segmentation-offload: on
        tx-tcp-segmentation: on
        tx-tcp-ecn-segmentation: off [fixed]
        tx-tcp6-segmentation: on
udp-fragmentation-offload: off [fixed]
generic-segmentation-offload: on
generic-receive-offload: on
large-receive-offload: off [fixed]
rx-vlan-offload: on
tx-vlan-offload: on
ntuple-filters: off [fixed]
receive-hashing: on
highdma: on [fixed]
rx-vlan-filter: on [fixed]
vlan-challenged: off [fixed]
tx-lockless: off [fixed]
netns-local: off [fixed]
tx-gso-robust: off [fixed]
tx-fcoe-segmentation: off [fixed]
fcoe-mtu: off [fixed]
tx-nocache-copy: on
loopback: off [fixed]

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

3. "Странное поведение catalyst 4948e"  +/
Сообщение от fantom (??) on 11-Янв-18, 13:05 
>[оверквотинг удален]
> highdma: on [fixed]
> rx-vlan-filter: on [fixed]
> vlan-challenged: off [fixed]
> tx-lockless: off [fixed]
> netns-local: off [fixed]
> tx-gso-robust: off [fixed]
> tx-fcoe-segmentation: off [fixed]
> fcoe-mtu: off [fixed]
> tx-nocache-copy: on
> loopback: off [fixed]

!!!!
The cable or port in use may be faulty.
!!!!
Порт или кабель могут быть неисправны.

Для начала проверить порты 48-ого каталиста

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

4. "Странное поведение catalyst 4948e"  +/
Сообщение от kid (??) on 11-Янв-18, 16:06 
>[оверквотинг удален]
>> tx-gso-robust: off [fixed]
>> tx-fcoe-segmentation: off [fixed]
>> fcoe-mtu: off [fixed]
>> tx-nocache-copy: on
>> loopback: off [fixed]
> !!!!
> The cable or port in use may be faulty.
> !!!!
> Порт или кабель могут быть неисправны.
> Для начала проверить порты 48-ого каталиста

что проблема на всех портах в которые включены сервера?

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

5. "Странное поведение catalyst 4948e"  +/
Сообщение от vk (??) on 12-Янв-18, 07:42 
выключайте flowcontrol, ставьте максимум hold-queue на интерфейсе коммутатора. Должно полегчать.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

6. "Странное поведение catalyst 4948e"  +/
Сообщение от kid (??) on 12-Янв-18, 14:27 
> выключайте flowcontrol, ставьте максимум hold-queue на интерфейсе коммутатора. Должно
> полегчать.

flowcontrol Отключал и на rx и на tx легче не становилось. Что то я прихожу к выводу что и не в циске дело, похоже сервера наливают кучу мелких пакетов, 3550 как то жует их, а на 4948 уже получается переполнение буферов, вчера на одном из серверов через ethtool увеличил буфера на rx-tx до 4096 (стояло 256) так у меня сразу порт на циске и слождился с переполненым тх буфером. в данный момент настройки интерфейса на сервера вот такие

ethtool -g eth6
Ring parameters for eth6:
Pre-set maximums:
RX:             4096
RX Mini:        0
RX Jumbo:       0
TX:             4096
Current hardware settings:
RX:             256
RX Mini:        0
RX Jumbo:       0
TX:             256

ethtool -k eth6
Features for eth6:
rx-checksumming: on
tx-checksumming: on
        tx-checksum-ipv4: on
        tx-checksum-unneeded: off [fixed]
        tx-checksum-ip-generic: off [fixed]
        tx-checksum-ipv6: on
        tx-checksum-fcoe-crc: off [fixed]
        tx-checksum-sctp: on
scatter-gather: on
        tx-scatter-gather: on
        tx-scatter-gather-fraglist: off [fixed]
tcp-segmentation-offload: on
        tx-tcp-segmentation: on
        tx-tcp-ecn-segmentation: off [fixed]
        tx-tcp6-segmentation: on
udp-fragmentation-offload: off [fixed]
generic-segmentation-offload: on
generic-receive-offload: on
large-receive-offload: off [fixed]
rx-vlan-offload: on
tx-vlan-offload: on
ntuple-filters: off [fixed]
receive-hashing: on
highdma: on [fixed]
rx-vlan-filter: on [fixed]
vlan-challenged: off [fixed]
tx-lockless: off [fixed]
netns-local: off [fixed]
tx-gso-robust: off [fixed]
tx-fcoe-segmentation: off [fixed]
fcoe-mtu: off [fixed]
tx-nocache-copy: on
loopback: off [fixed]

ethtool -i eth6
driver: igb
version: 5.0.5-k
firmware-version: 1.2.1
bus-info: 0000:0a:00.1
supports-statistics: yes
supports-test: yes
supports-eeprom-access: yes
supports-register-dump: yes
supports-priv-flags: no

может чего то отключить включить посоветуете?

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

7. "Странное поведение catalyst 4948e"  +/
Сообщение от fantom (??) on 12-Янв-18, 17:02 
>[оверквотинг удален]
> driver: igb
> version: 5.0.5-k
> firmware-version: 1.2.1
> bus-info: 0000:0a:00.1
> supports-statistics: yes
> supports-test: yes
> supports-eeprom-access: yes
> supports-register-dump: yes
> supports-priv-flags: no
> может чего то отключить включить посоветуете?

А что счетчики ошибок на портах каталиста 48-го говорят?

Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

8. "Странное поведение catalyst 4948e"  +/
Сообщение от vk (??) on 12-Янв-18, 22:59 

мне кажется, что дело в QoS. И я бы копал в эту сторону.
у 3550 и 4849 разные архитектуры qos, разный queuing. Судя по тому что каталист дает паузы - у него переполняется очередь. Смотрите статистику qos и input/output drops по очередям,

возможно придется его немного подтюнить.

>[оверквотинг удален]
> driver: igb
> version: 5.0.5-k
> firmware-version: 1.2.1
> bus-info: 0000:0a:00.1
> supports-statistics: yes
> supports-test: yes
> supports-eeprom-access: yes
> supports-register-dump: yes
> supports-priv-flags: no
> может чего то отключить включить посоветуете?

Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

9. "Странное поведение catalyst 4948e"  +/
Сообщение от Andrey (??) on 12-Янв-18, 23:21 
> может чего то отключить включить посоветуете?

Ну для начала нужно определиться с тем, в какую сторону будете копать проблему. Вы грешите на Cisco, но статистику показываете тольк с интерфейсов _серверов_. Делать предположения что в вашем каталисте происходит, только на основании показаний серверов... ну даже не знаю что сказать...

Либо статистика со свитча, либо разбираем проблему на стороне серверов.

Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

10. "Странное поведение catalyst 4948e"  +/
Сообщение от kid (??) on 13-Янв-18, 12:49 
>> может чего то отключить включить посоветуете?
> Ну для начала нужно определиться с тем, в какую сторону будете копать
> проблему. Вы грешите на Cisco, но статистику показываете тольк с интерфейсов
> _серверов_. Делать предположения что в вашем каталисте происходит, только на основании
> показаний серверов... ну даже не знаю что сказать...
> Либо статистика со свитча, либо разбираем проблему на стороне серверов.

Спасибо все откликнувшимся на проблему, сейчас 4948 снята и перепрошита другой версией иос, так что счетчики обнулились, выкладываю показания в момент когда она стояла на канале и в нее были включены сервера.
отключил flow control на интерфейсах пропали ошибки TxPauseFrames ,до этого сыпались, потом стал смотреть счетчики на интерфейсах, почему льет в одну очередь когда qos вообще отсутствует в настройках
Port       Tx-Bytes-Queue-1  Tx-Bytes-Queue-2 Tx-Bytes-Queue-3  Tx-Bytes-Queue-4
Gi1/8                275988                 0                0                 0
Port       Tx-Bytes-Queue-5  Tx-Bytes-Queue-6 Tx-Bytes-Queue-7  Tx-Bytes-Queue-8
Gi1/8                     0                 0                0     2234230990749
ну и самое главное откуда сыпятся дропы?
show platform software drop-port
Drop Port Software State
  Dequeue Enabled           : True
  DropQueue Water mark Reg  : 0x8000600038001D4C
  DropQueue Water mark Reg  : 0x7FE32010
(Empty, PreEmpty, Head:0xED, Tail:0xED)
  DropActivityCount                : 22236165
  DropOverrunCount                 : 0
Drop Event Reason            Packets Dropped
-----------------            ---------------
RxErrDrop                       16
SptDrop                         144611
InpL2AclDrop                    19
InpL3AclDrop                    46123
BridgeToRxPortDrop              3541320
rplErrDrop                      6576714
TxQueFullDrop                   22799697

show platform health

PacketBufRaw              184.29     100%          184.29      100%
PacketBufRaw             5938.31     100%         5938.31      100%

Packets Dropped In Processing Overall
Total                5 sec avg 1 min avg 5 min avg 1 hour avg
-------------------- --------- --------- --------- ----------
             2839939         1         0         1          0
Packets Dropped In Processing by CPU event
Event             Total                5 sec avg 1 min avg 5 min avg 1 hour avg
----------------- -------------------- --------- --------- --------- ----------
Sa Miss                        2839939         1         0         1          0
Packets Dropped In Processing by Priority
Priority          Total                5 sec avg 1 min avg 5 min avg 1 hour avg
----------------- -------------------- --------- --------- --------- ----------
Medium                         2839939         1         0         1          0
Packets Dropped In Processing by Reason
Reason             Total                5 sec avg 1 min avg 5 min avg 1 hour avg
------------------ -------------------- --------- --------- --------- ----------
STPDrop                              10         0         0         0          0
Tx Mode Drop                    2839929         1         0         1          0
Total packet queues 64
Packets Received by Packet Queue
Queue                  Total           5 sec avg 1 min avg 5 min avg 1 hour avg
---------------------- --------------- --------- --------- --------- ----------
Input ACL fwd(snooping)            2108         0         0         0          0
Host Learning                  2839893         1         0         1          0
L2 Control                     1170963         0         0         0          0
Ip Option                           98         0         0         0          0
Ttl Expired                    3753040         5         0         2          0
Adj SameIf Fail                8805693         0         0         0          0
L2 router to CPU, 7            3297553         2         0         1          0
L3 Glean, 7                    3917159         2         0         1          2
L3 Fwd, 7                       610579         0         0         0          0
L3 Receive, 7                  1106106         0         0         0          0
Packets Dropped by Packet Queue
Queue                  Total           5 sec avg 1 min avg 5 min avg 1 hour avg
---------------------- --------------- --------- --------- --------- ----------
Adj SameIf Fail                    136         0         0         0          0
L3 Glean, 7                      13174         0         0         0          0

никаких колец нет.

Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

11. "Странное поведение catalyst 4948e"  +/
Сообщение от kid (??) on 15-Янв-18, 17:47 
Идей нет? В общем судя по документации циски очередь при переводе порта в L3 становится 75
Input queue: 0/75/0/0 (size/max/drops/flushes), и как рекомендует циско не повышать ее выше 100 единиц, https://www.cisco.com/c/en/us/support/docs/routers/10000-ser... судя посчетчикам у меня все лилось в 8 очередь что на данном коммутаторе является свободным qos. Возможно ли с ПС с гиговым портом нагенерировать под гиг трафика для разбора на стенде, если поставлю в рабочую сеть и будет опять такая петрушка меня уже точно порешат.
Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

12. "Странное поведение catalyst 4948e"  +/
Сообщение от fantom (??) on 15-Янв-18, 19:24 
> Идей нет? В общем судя по документации циски очередь при переводе порта
> в L3 становится 75
> Input queue: 0/75/0/0 (size/max/drops/flushes), и как рекомендует циско не повышать ее
> выше 100 единиц, https://www.cisco.com/c/en/us/support/docs/routers/10000-ser...
>  , судя посчетчикам у меня все лилось в 8 очередь
> что на данном коммутаторе является свободным qos. Возможно ли с ПС
> с гиговым портом нагенерировать под гиг трафика для разбора на стенде,
> если поставлю в рабочую сеть и будет опять такая петрушка меня
> уже точно порешат.

https://wiki.linuxfoundation.org/networking/pktgen

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

13. "Странное поведение catalyst 4948e"  +/
Сообщение от Andrey (??) on 15-Янв-18, 21:19 
> Идей нет? В общем судя по документации циски очередь при переводе порта
> в L3 становится 75
> Input queue: 0/75/0/0 (size/max/drops/flushes), и как рекомендует циско не повышать ее
> выше 100 единиц, https://www.cisco.com/c/en/us/support/docs/routers/10000-ser...
>  , судя посчетчикам у меня все лилось в 8 очередь
> что на данном коммутаторе является свободным qos. Возможно ли с ПС
> с гиговым портом нагенерировать под гиг трафика для разбора на стенде,
> если поставлю в рабочую сеть и будет опять такая петрушка меня
> уже точно порешат.

Первое правило радиолюбителя гласит: нельзя крутить более одной ручки настройки за раз.
В вашем случае: сняли, залили свежий IOS - погоняйте на стенде. Соберите инфу со свежими настройками. В режиме L2, в режиме L3. Посмотрите в эти моменты на очереди, интерфейсы, процессор. Попробуйте через разные интерфейсы. Если используете SFP - меняйте модули, патч-корды и т.д.
Попробуйте зафлудить маленькими пакетами, большими, Jumbo.
Современные компы вполне могут выдать полноценный 1Gb на интерфейсе. Попробуйте iperf-ом погонять.

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру