Что может быть причиной того, что коммутатор время от времени теряет связь и перестает отвечать?

Здравствуйте! У нас есть сеть с примерно 1500 MAC-адресами, более половины из которых представляют собой коммутаторы Zyxel GS2210-24. Я присоединился к этой сети, поэтому не могу прокомментировать ее строительство. Сеть достаточно большая и почти не сегментирована, с высоким уровнем броадкаста, но 1500 устройств не должны перегружать ее. Однако, периодически на всех коммутаторах эта модель перестает отвечать по IP для управления и периодически не пропускает трафик. При этом на портах нет ошибок, а утилизация составляет менее 5%. Я исключил все другие проблемы (оптические уровни, прошивки), никаких настроек алгоритмов не было, кроме IP. Подключившись к "заболевшему" коммутатору через консоль, я наблюдаю, что утилизация CPU достигает 20%, что для такого количества устройств довольно много, и он работает не совсем охотно. После сброса конфигурации и перезагрузки нагрузка на CPU снижается до 5%, и некоторое время коммутатор функционирует нормально, пока не возникает проблема снова. 

Я попытался проанализировать возможные причины накопленной нагрузки. 1500 записей в FDB — это не так много, а количество броадкастов не критично. У меня остаются предположения о проблеме с прошивкой, переполнении буферов или кэшах, или о том, что коммутатор подвержен сильной нагрузке (в сети присутствует множество видеокамер, которые помимо потоковой передачи активно отправляют "непрошенные ARP" для неизвестных мне целей). При этом коммутаторы зависают независимо от наличия видеокамер. 

Можете подсказать, на что обратить внимание в данной ситуации? Я предполагаю рассмотреть возможность установки защиты на CPU или ограничения броадкастов на портах, которые генерируют наибольшую их долю, но...
  • 14 ноября 2024 г. 6:43
Ответы на вопрос 2
Здравствуйте!

Ваши предположения о причинах проблем с коммутаторами Zyxel GS2210-24 могут быть правомерными, и вы, скорее всего, на верном пути. Рассмотрим несколько возможных факторов, которые могут вызывать периодические сбои и перегрузку CPU.

1. **Высокий уровень броадкаст-трафика**: Несмотря на то, что вы упомянули, что количество броадкастов не критично, в сети с таким количеством устройств даже умеренный уровень может вызывать проблемы. Стоит проверить количество броадкастов и мульткастов, которые генерируют устройства во время пиковых нагрузок.

2. **ARP-трафик**: Если устройства, такие как видеокамеры, активно отправляют ARP-запросы, это может дополнительно нагружать коммутаторы. Возможно, стоит рассмотреть возможность внедрения ограничений на ARP-трафик на портах, где это происходит.

3. **Переполнение таблицы MAC-адресов**: Хотя 1500 записей в FDB не представляют собой критической нагрузки, проверьте настройки aging time для MAC-таблицы. Если значения слишком низкие, это может привести к частому обновлению записей, что увеличивает нагрузку на CPU.

4. **Решения по защите CPU**: Вы абсолютно правы, ограничения на CPU для броадкастов и других шумных трафиков могут помочь. Многие коммутаторы позволяют настроить защиту от броадкастов и установить пределы на количество принимаемых и отправляемых броадкастных кадров.

5. **Оптимизация настроек VLAN**: Если некоторые устройства генерируют больше трафика (например, видеокамеры), рассмотрите возможность их сегментации на отдельные VLAN. Это поможет уменьшить уровень общего броадкаст-трафика и улучшить производительность сети.

6. **Проверка конфигурации STP (Spanning Tree Protocol)**: Убедитесь, что конфигурация STP (если она включена) верно настроена. Неправильные настройки могут привести к образованию петель и, как следствие, нагруженности сети.

7. **Обновление прошивки**: Если вы еще этого не сделали, проверьте наличие обновлений прошивки для ваших коммутаторов. Некоторые проблемы с производительностью могут быть исправлены в новых версиях ПО.

8. **Мониторинг и анализ трафика**: Используйте инструменты для анализа сетевого трафика, такие как Wireshark, чтобы понять, какие типы трафика генерируются и могут вызывать перегрузку. Это может дать вам представление о том, какие устройства вызывают наибольшую нагрузку.

9. **Общий обзор документации и рекомендаций**: Просмотрите официальную документацию Zyxel относительно настройки и управления коммутаторами GS2210-24 на предмет рекомендаций по оптимизации производительности.

Следуя этим направлениям и проводят тестирование, вы сможете уменьшить нагрузки на коммутаторы и улучшить общую стабильность сети. Удачи в решении вашей проблемы!
Возможно, имеют место широковещательные штормы. 

Наблюдал сеть, в которой виндовый админ мудро отключил STP. Отключил он этот протокол потому, что у него из-за STP машины не успевали получать адреса по DHCP. Так вот, в той сети после каждого шторма коммутаторы тоже уходили в себя и переставали откликаться на телнет, а штормы с отключенным STP, само собой, происходили регулярно.

Лично наблюдал, как пользователь обнаружил свободно лежащий на полу сетевой патчкорд и, недолго думая, тут же воткнул его в ближайшую свободную розетку, организовав петлю и устроив, тем самым, шторм. Коммутаторы в той сети, правда, были нортелы, а не зухели.
Похожие вопросы