Navegante Godin
Un Godin SysAdmin y sus tribulaciones
viernes, 14 de febrero de 2020
Lo barato sale caro Vol. I
"Lo barato sale caro"
Cuando se compran productos baratos, estamos sacrificando algunas cosas, como puede ser calidad, garantia, potencia, etc.
Para reducir costes, muchos fabricantes hacen "recortes" en las caracteisticas del producto. Y no digo que este mal, ya que, de no ser por eso, muchos productos serian caros.
Pero, ¿confiarias tu vida a un auto de 0 estrellas, solo por que es mas barato? o ¿ comprarias ese auto que tiene al menos 2-3 estrellas pero cuesta un poco mas?
Asi pasa en todos los ambitos, como indica @mundowdg en el BOFH-ZEN II.
El o los jefes, siempre trataran de comprar lo mas barato (a no ser que sea algo que ellos usen directamente, y a veces, ni asi).
Esta historia comienza cuando, se empezo a planear la migracion a telefonia IP.
Al revisar diferentes proveedores, nos quedamos con Avaya, telefonos IP PoE, por lo que se hicieron necesarios switches con esta funcionalidad.
Y como por arte de magia, 2 proveedores, aparecieron con una excelente promocion: 1 switch Cisco SG220-50P de $ 1,800 usd, a solo $ 800 usd. Toda una ganga ¿verdad?.
Pues si, un producto Cisco con menos de 2 años (en ese entonces) con una rebaja de mas del 50%, era para encender las alertas, pero, solo se fijaron en esa promocion y fueron los elegidos, por lo que en 2 meses, recibimos 3 piezas de un proveedor, y un mes despues, 2 piezas mas de otro proveedor.
Quedaron distribuidos de la sig manera: 1 en el primer piso, con todos sus puertos usados, 2 en el segundo piso, igualmente llenos, 1 en el tercer piso, con una ocupacion de solo 20 puertos, y un switch de respaldo, por si las dudas, y que lo tenia funcionando a mi lado en el escritorio.
El tiempo paso, y salvo algunos reportes del tercer piso de fallas ocasionales de red al mes, todo marchaba bien.
Hace 4 meses empezaron problemas de la red, desconexiones aleatorias en todos los pisos, pero duraderas de 40 -60 seg..
Al principio se penso que eran equipos antiguos (teniamos algunos con 11 años, y muy pocos con 4 años o menos), por lo que se empezo a cambiar equipos y cableado.
Y entre todo esto, uno actualizando servidores, realizando pruebas y demas. (enlace)
Mas concretamente, ponerse a probar la velocidad de copia entre un SSD NVME, y un RAID 10, con discos SAS de 10k. Sin decir agua va, sin anestesia, sin tomar en cuenta la topologia de la red...
El desastre ocurrio, sature el puerto gigabit del fortigate, que maneja la vlan 1, junto al puerto que maneja la vlan 4.
De la Vlan 4 no hay tanto problema, solo son los servidores, de la vlan 1, bueno, es gracioso, por que es la que usan todos los demas equipos en el edificio, por lo que durante 1 minuto, se cayo la red.
Panico, alarmas, fuego, terminando con la desconexion fisica del cable del equipo.
Nada alarmante, todavia.
Llegamos al punto de reemplazar el switch central, por un flamante SG350-52, el cual, si conectas un loop, bloquea solo ese puerto y no deja de dar servicio o bloquearse.
Ahora, varios meses despues, y habiendo agotado nuestras opciones (actualizacion de firmware en los switches, cambio de cableado de red dañados, cambio de maquinas antiguas), investigando un poco mas en los foros de cisco, me encuentro con la siguiente sorpresa:
Un post de 2015, indicando que al menos 16 personas tenian este problema, y aunque cisco habia reemplazado el hardware, volvia a fallar.
Una solucion era restaurarlos de fabrica, con lo cual volvian a funcionar durante algunas semanas de manera correcta, y despues, otra vez problemas de reinicios al azar.
Asi que, si, por tomar una mega oferta, terminamos con aparatos defectuosos.
Esto se encuentra en evaluacion por la direccion de TI, y aunque probablemente los cambien, sera algo que tardara algunos meses mas.. por cada switch..
sábado, 12 de octubre de 2019
Ya no hace gracia (nivel II)
jueves, 19 de septiembre de 2019
Ya no hace gracia (nivel I)
Una vez es gracia, dos se pasa y la tercera es desgracia.
Así lo dice el refrán, la máxima popular, y cualquier madre cuando tienes que repasar la tarea, pero la desgracia viene con la chancla (pantufla en otros lados).
De esta manera inicio el post, dado que es lo que se siente en el ambiente en estos momentos.
- Abril 2019, primera semana –
Llegando a la oficina me doy cuenta de que uno de mis bebes (que ya no es un bebe, ya tiene pelo en pecho, 8 años tiene ya), se queja de un disco duro.
Ahí estaba, parpadeando el disco, indicando que está próximo a fallar.
Uno, siendo voluntarioso, redacta un correo muy prolijo, donde se indica, mediante captura de pantalla, y descripciones, que el servidor cuenta con 5 discos, 2 para el SO, 3 en RAID 5 para los datos.
También se indica que, tiene 4 maquinas virtuales, 2 de ellas de alta importancia, así como unos buenos gigas de información que se comparte (la de los usuarios que se conectan no la contamos, sencillamente, por que el proceso indica que, si no lo guardas en la compartida, no se respalda).
Incluso se indica el tipo de disco a comprar y su capacidad (SAS, 15K RPM, 900 GB).
Se abre el Skype for Bussines y se espera a que los jefes pidan más información.
A final del día, uno de ellos, el gerente, hace la pregunta mas inteligente del mundo (sarcasmo).
- Oye, de ese disco, es posible que aguante, hasta agosto, que es cuando se van a reemplazar los servidores.
Vale, quieren jugar a ver si aguanta… Juguemos un poco
- Puede, solo que cada día, tendrás que lanzar una moneda y si cae cara, es que sigue funcionando, si cae cruz, es que ya murió.
- Si verdad, bueno, esperemos que aguante hasta cambiar el servidor, es que están muy caros los discos y ni modo de invertirle a algo que ya va de salida.
Vale, yo solo soy un analista de infraestructura, el que corta el pan, es el gerente, y él sabrá de administración y de riesgos de perdida de información, así como también debe tener una fe del porte de un buque, para fiarse de un RAID 5, con discos de 6 años.
Pues nada, programo un respaldo diario de las VM, así como de la información, por si las dudas.
- Agosto 2019, lunes mitad de mes –
9 am, hora de San Juan del Huarache Perdido
Se presenta un ticket en el sistema.
“Sin acceso al FTP”
Y documentado, con una captura, se ve claramente que el servidor no está respondiendo.
Pues vale, vamos a revisar el servidor físico, por que el FTP es un virtual.
Intento conectarme por escritorio remoto, y, sorpresa, no me responde.
Vamos al Site, y nada más conectar el monitor (no hay KVM), veo que esta atorado en la pantalla de BIOS, pide que presione F1… Sopas, ni modo, vamos a reportarlo primero y ahorita vemos que tal arranca WS2008R2.
Una vez que inicia, decido volver a enviar la información del servidor, un informe muy completo, incluyendo la información del disco, las maquinas virtuales que tiene, archivos compartidos, service tag.
Sin respuesta de nadie… Vale, seguro que ya están pidiendo el disco (sarcasmo).
- Septiembre 2019, segunda semana –
1 pm, hora de San Juan del Huarache Perdido
En el chat grupal de infra de $Centroypocomas, el gerente pide que le mande la información del servidor con el problema del disco, así que aprovecho y al informe anterior, le agrego capturas de pantalla.
Inmediatamente, en el correo, me contesta el gerente solicitando lo siguiente:
“Navegante
-Escritorios remotos para SucursalPerdida: ¿escritorios remotos de qué? Con la SD WAN se pueden conectar sin el server
-Hyper-V: ¿Que máquinas virtuales tiene?
-FileServer. ¿Qué tipo de información es?”
Vale, esto ya no hace gracia, esa información viene desglosada en el informe, y sabe muy bien, que los escritorios remotos son por un programa que se usaba, y de donde todavía usamos para extraer información de archivo (Por ley debemos tener 5 años, pero por servicio al cliente, tenemos hasta de hace 25 años).
Pues nada, le contesto a sus preguntas, usando la información del informe y lo envió.
Esto no ha terminado, y no se quedará así…
viernes, 6 de septiembre de 2019
Las preguntas de los lunes
Lunes 8:00 am | Sede $Centroypocomas
Rutina de todos los días, hacer el checklist del site, checklist de firewall, checklist de red (falta hacer un checklist de checklist).
¿Qué es un checklist de site? Pues básicamente, revisar que haya corriente eléctrica, que el aire este con vida, que los servidores no se estén quejando de algo (no, no tenemos software de monitoreo, si, lo propuse, no, no lo aprobaron, si, se les hizo caro). Cubriendo esos tres puntos, se diría que estamos del otro lado.
El de red es similar, revisar que los switches estén bien, que los enlaces estén bien (ya de su capacidad no hablemos, es deprimente desde hace unos meses) y que haya conectividad a internet.
Y el de firewall, solo revisar que las políticas estén bien, que las vpn estén correctas, y que los pollitos no abusen de las políticas de libre navegación (para los que lo hayan pedido alguna vez, y sus jefes lo justificaron con que algunas paginas traen cosas de YouTube y Facebook y que, si se los bloqueamos, la pagina no funciona bien ¬¬).
Es cosa de abrir al sustituto de Skype que pario Microsoft, Teams le llaman, y empezar las preguntas tontas de cada lunes.
Coordinador – Oye, tenemos carpetas compartidas en la sucursal de allá (así tal cual, sin buenos días, sabiendo que no hay té para ver los pozos y adivinar a que sucursal se refiere).
- Pues en todas hay, pero dame 5 min para tomar el té y decirte de cual me estás hablando.
- A perdona, es en la sucursal $NewBrain (no es nueva, no tiene empleados nuevos, solo que cada día estrenan cerebro, como cierto coordinador).
- Pues sí, tenemos un par, ¿Por? (¿Para que pregunto, para corroborar o por inocencia?)
- Pues necesitamos crear una más, los de “Calidad”, exigen que todos tengan una carpetita.
- Vale, tenemos 60 equipos, dime en cual
- ¿Cómo que en cuál? Pues en el servidor.
¡!Aleluya¡¡ Por fin le compraron servidor a la sucursal, mira que tiene años que se solicita uno, para implementar dominio y file server al... un momento, esto suena demasiado perfecto...
- ¿Así que ya tienen servidor? A, pues la cosa cambia, pásame las credenciales y voy creando la replica del dominio, y comparto las carpetas que quieran...
- ¿Pero de que me hablas?, se supone que todas las sedes tienen servidor o servidores
No... noooo... ¿es broma? Volteo a ver nuevamente el nombre del chat de Teams, pero no, no deja lugar a dudas, es el Coordinador de la división.
- Así es, las SEDES, tienen servidor o servidores.
- ¿Eantonces, cual es el problema? Solo crea la carpetita y ya, no te cuesta nada, es mas me espero para que me confirmes.
-Como te dije, las SEDES tienen servidor, pero $NewBrain es una SUCURSAL
Mutis durante 15 min en el Teams, no se si esta revisando la información, esta en llamada o esta pensando en la maroma que tiene que decir.
Pasado el tiempo, escribe lo siguiente:
-Bueno pues lo hacemos por OneDrive, al fin y al cabo, todos tienen Office 365.
¿Pero que broma es esta? ¿Dónde esta la cámara?
De los 60 equipos, solo 25 tienen licencia Office 365, así que sí... TODOS tienen licencia, bueno que se le hacemos, a comentarle nuevamente el estado de las licencias en la sucursal.
-Oye, pero si solo 25 tienen licencia, ¿de dónde sacamos los 35 restantes?
Nuevamente mutis, hasta recibir el siguiente mensaje:
-Deja reviso que hacemos, te aviso.
Por suerte, nuestro coordinador, esta super preparado, esta muy informado. Y hace este tipo de preguntas cada lunes…
miércoles, 4 de septiembre de 2019
El cansancio (palito, palito)
En el anterior post, Recursos InfraHumanos indico que todo ya “funciona”.
El Gerente y el Coordinador, solicitan explicación tras el “sacrificio” de los 2 segmentos de red de una sede.
Explicas nuevamente el plan de trabajo, esta vez, haciendo énfasis en los segmentos asignados a cada sede y sucursal.
Pasan 2 semanas
Recibes un “toque” de tu coordinador. “URGE” avanzar con el proyecto de homologación de redes.
Revisas con el compañero de la sede norteña.
Te das cuenta que los cables son activo fijo (10 años) y se fueron tendiendo, conforme se necesitaba, por lo que no todos llegan al “site”.
Buscas los modelos de switch y te llevas las manos a la cabeza, no son administrables.
Realizas el presupuesto: cableado nuevo, switches nuevos, AP’s nuevos.
Agregas los viáticos para 1 persona, tu coordinador decide que ayudara mucho que vaya, así que agregas los viáticos de él.
El Gerente ve la cifra final de poner en condiciones la sede norteña, así como homologarla.
Te hace una llamada interesante, preguntando si es necesario todo.
El coordinador se mete en la llamada, jura y perjura que es necesario que él vaya.
El Gerente nos manda a un lugar terminado en ulo, supongo que quiso referirse al zulo.
Pasa 1 semana
Recibo un correo, de mi coordinado, pidiendo que le pase, al proveedor, la configuración que “debe” tener el switch central de la sede norteña.
Le mando las vlans que debe tener, los puertos, y los segmentos de red.
El proveedor solicita el archivo de configuración, para solo meterlo al switch, eso sí, me incluye el modelo del que se va a comprar.
Pregunto (¿para que lo hice? Conozco la respuesta) acerca de la consolidación de los 3 switches en uno solo.
Me contesta el proveedor que no tiene la mínima idea de que le hablo.
Recibo otro “toque” por privado del Gerente, que el proveedor solo vera el switch central y que mantendremos los demás switches, citando: “No habrá problema, son auto configurables, sirve que no les metes mano”.
CONTINUARA…
martes, 3 de septiembre de 2019
El cansancio (palito)
Presentas un plan de trabajo.
Un proyecto con sus detalles.
Modificas lo que mando el proveedor y que no sirve.
Explicas los detalles al Gerente y Coordinador de turno.
Empiezas el plan, te llevas sorpresas, por falta de informacion del personal del sitio.
Terminas el primer sitio, a pesar de las sorpresas.
Presentas lo que se necesita para las sucursales.
Te lo niegan, los aparatos de red cuestan y hay que hacer el proyecto con un clip y un chicle.
Te piden actualizar una sede, es urgente sacar el proyecto.
Solicitas aparatos de red, milagrosamente te los aprueban.
Realizas el cambio un viernes por la noche, sabado de madrugada.
Todo funciona correctamente, pero la palmadita en la espalda, es para el que no llego a tiempo y solo estuvo llamando y no dejando trabajar a gusto.
Se cortan las VPN entre sede y sucursales, para que no se pisen las direcciones entre si.
Explicas nuevamente el plan de trabajo, y la razon para cortar VPN, al Gerente y Coordinador.
Todo “funciona” durante una semana.
Recursos InfraHumanos se da cuenta que no puede revisar entradas/salidas de los empleados de las sucursales.
Explicas nuevamente el plan de trabajo, y la razon de que no se puedan ver las checadas, pues dependen de las VPN, al Gerente y Coordinador
Se “sacrifican” 2 segmentos de red, para reconectar VPN.
Recursos InfraHumanos confirma que todo funciona.
CONTINUARA…
martes, 13 de noviembre de 2018
¿Por que?
¿Por que lo haces mal?
Cuando el sistema te dice: favor de presionar ctrl+alt+supr, ¿por que piensas que altgr es lo mismo, maxime si tu teclado no tiene altgr y la tecla que presionas es la de fn?
¿Por que si el sistema te dice que la contraseña no puede ser igual a una usada el mes pasado, y estando en julio, insistes en usar la de junio2018?
¿Si el sistema te esta avisando con letras en negritas y color rojo, desde 15 dias antes que se va a expirar tu contraseña, insistes que no viste ninguna notificacion y que no sabias?
¿Si sabes que los datos los suben los de operaciones y no hay datos, por que insistes que sistemas es el que tiene que solucionar esa falta de datos?
Asi es dia tras dia, en el que los lusers llaman para demostrar su perfecta falta de comprension lectora, de raciocinio basico y del uso de la logica.
Pero pasan los dias, y uno ya no se enoja al telefono, tampoco se lia a discutir, simplemente se echa unas risas y despues se pone a redactar un post.
Asi pasa la vida del sysadmin..