viernes, 14 de febrero de 2020

Lo barato sale caro Vol. I

Un dicho muy popular:

 "Lo barato sale caro"

Cuando se compran productos baratos, estamos sacrificando algunas cosas, como puede ser calidad, garantia, potencia, etc.

Para reducir costes, muchos fabricantes hacen "recortes" en las caracteisticas del producto. Y no digo que este mal, ya que, de no ser por eso, muchos productos serian caros.

Pero, ¿confiarias tu vida a un auto de 0 estrellas, solo por que es mas barato? o ¿ comprarias ese auto que tiene al menos 2-3 estrellas pero cuesta un poco mas?

Asi pasa en todos los ambitos, como indica @mundowdg en el BOFH-ZEN II.

El o los jefes, siempre trataran de comprar lo mas barato (a no ser que sea algo que ellos usen directamente, y a veces, ni asi).

Esta historia comienza cuando, se empezo a planear la migracion a telefonia IP.

Al revisar diferentes proveedores, nos quedamos con Avaya, telefonos IP PoE, por lo que se hicieron necesarios switches con esta funcionalidad.

Y como por arte de magia, 2 proveedores, aparecieron con una excelente  promocion: 1 switch Cisco SG220-50P de $ 1,800 usd, a solo $ 800 usd. Toda una ganga ¿verdad?.

Pues si, un producto Cisco con menos de 2 años (en ese entonces) con una rebaja de mas del 50%, era para encender las alertas, pero, solo se fijaron en esa promocion y fueron los elegidos, por lo que en 2 meses, recibimos 3 piezas de un proveedor, y un mes despues, 2 piezas mas de otro proveedor.

Quedaron distribuidos de la sig manera: 1 en el primer piso, con todos sus puertos usados, 2 en el segundo piso, igualmente llenos, 1 en el tercer piso, con una ocupacion de solo 20 puertos, y un switch de respaldo, por si las dudas, y que lo tenia funcionando a mi lado en el escritorio.

El tiempo paso, y salvo algunos reportes del tercer piso de fallas ocasionales de red al mes, todo marchaba bien.

Hace 4 meses empezaron problemas de la red, desconexiones aleatorias en todos los pisos, pero duraderas de 40 -60 seg..

Al principio se penso que eran equipos antiguos (teniamos algunos con 11 años, y muy pocos con 4 años o menos), por lo que se empezo a cambiar equipos y cableado.

Y entre todo esto, uno actualizando servidores, realizando pruebas y demas. (enlace)

Mas concretamente, ponerse a probar la velocidad de copia entre un SSD NVME, y un RAID 10, con discos SAS de 10k. Sin decir agua va, sin anestesia, sin tomar en cuenta la topologia de la red...

El desastre ocurrio, sature el puerto gigabit del fortigate, que maneja la vlan 1, junto al puerto que maneja la vlan 4.

De la Vlan 4 no hay tanto problema, solo son los servidores, de la vlan 1, bueno, es gracioso, por que es la que usan todos los demas equipos en el edificio, por lo que durante 1 minuto, se cayo la red.

Panico, alarmas, fuego, terminando con la desconexion fisica del cable del equipo.

Nada alarmante, todavia.

  Llegamos al punto de reemplazar el switch central, por un flamante SG350-52, el cual, si conectas un loop, bloquea solo ese puerto y no deja de dar servicio o bloquearse.

Ahora, varios meses despues, y habiendo agotado nuestras opciones (actualizacion de firmware en los switches, cambio de cableado de red dañados, cambio de maquinas antiguas), investigando un poco mas en los foros de cisco, me encuentro con la siguiente sorpresa:



Un post de 2015, indicando que al menos 16 personas tenian este problema, y aunque cisco habia reemplazado el hardware, volvia a fallar.

Una solucion era restaurarlos de fabrica, con lo cual volvian a funcionar durante algunas semanas de manera correcta, y despues, otra vez problemas de reinicios al azar.

Asi que, si, por tomar una mega oferta, terminamos con aparatos defectuosos.

Esto se encuentra en evaluacion por la direccion de TI, y aunque probablemente los cambien, sera algo que tardara algunos meses mas.. por cada switch..