viernes, 14 de febrero de 2020

Lo barato sale caro Vol. I

Un dicho muy popular:

 "Lo barato sale caro"

Cuando se compran productos baratos, estamos sacrificando algunas cosas, como puede ser calidad, garantia, potencia, etc.

Para reducir costes, muchos fabricantes hacen "recortes" en las caracteisticas del producto. Y no digo que este mal, ya que, de no ser por eso, muchos productos serian caros.

Pero, ¿confiarias tu vida a un auto de 0 estrellas, solo por que es mas barato? o ¿ comprarias ese auto que tiene al menos 2-3 estrellas pero cuesta un poco mas?

Asi pasa en todos los ambitos, como indica @mundowdg en el BOFH-ZEN II.

El o los jefes, siempre trataran de comprar lo mas barato (a no ser que sea algo que ellos usen directamente, y a veces, ni asi).

Esta historia comienza cuando, se empezo a planear la migracion a telefonia IP.

Al revisar diferentes proveedores, nos quedamos con Avaya, telefonos IP PoE, por lo que se hicieron necesarios switches con esta funcionalidad.

Y como por arte de magia, 2 proveedores, aparecieron con una excelente  promocion: 1 switch Cisco SG220-50P de $ 1,800 usd, a solo $ 800 usd. Toda una ganga ¿verdad?.

Pues si, un producto Cisco con menos de 2 años (en ese entonces) con una rebaja de mas del 50%, era para encender las alertas, pero, solo se fijaron en esa promocion y fueron los elegidos, por lo que en 2 meses, recibimos 3 piezas de un proveedor, y un mes despues, 2 piezas mas de otro proveedor.

Quedaron distribuidos de la sig manera: 1 en el primer piso, con todos sus puertos usados, 2 en el segundo piso, igualmente llenos, 1 en el tercer piso, con una ocupacion de solo 20 puertos, y un switch de respaldo, por si las dudas, y que lo tenia funcionando a mi lado en el escritorio.

El tiempo paso, y salvo algunos reportes del tercer piso de fallas ocasionales de red al mes, todo marchaba bien.

Hace 4 meses empezaron problemas de la red, desconexiones aleatorias en todos los pisos, pero duraderas de 40 -60 seg..

Al principio se penso que eran equipos antiguos (teniamos algunos con 11 años, y muy pocos con 4 años o menos), por lo que se empezo a cambiar equipos y cableado.

Y entre todo esto, uno actualizando servidores, realizando pruebas y demas. (enlace)

Mas concretamente, ponerse a probar la velocidad de copia entre un SSD NVME, y un RAID 10, con discos SAS de 10k. Sin decir agua va, sin anestesia, sin tomar en cuenta la topologia de la red...

El desastre ocurrio, sature el puerto gigabit del fortigate, que maneja la vlan 1, junto al puerto que maneja la vlan 4.

De la Vlan 4 no hay tanto problema, solo son los servidores, de la vlan 1, bueno, es gracioso, por que es la que usan todos los demas equipos en el edificio, por lo que durante 1 minuto, se cayo la red.

Panico, alarmas, fuego, terminando con la desconexion fisica del cable del equipo.

Nada alarmante, todavia.

  Llegamos al punto de reemplazar el switch central, por un flamante SG350-52, el cual, si conectas un loop, bloquea solo ese puerto y no deja de dar servicio o bloquearse.

Ahora, varios meses despues, y habiendo agotado nuestras opciones (actualizacion de firmware en los switches, cambio de cableado de red dañados, cambio de maquinas antiguas), investigando un poco mas en los foros de cisco, me encuentro con la siguiente sorpresa:



Un post de 2015, indicando que al menos 16 personas tenian este problema, y aunque cisco habia reemplazado el hardware, volvia a fallar.

Una solucion era restaurarlos de fabrica, con lo cual volvian a funcionar durante algunas semanas de manera correcta, y despues, otra vez problemas de reinicios al azar.

Asi que, si, por tomar una mega oferta, terminamos con aparatos defectuosos.

Esto se encuentra en evaluacion por la direccion de TI, y aunque probablemente los cambien, sera algo que tardara algunos meses mas.. por cada switch..



sábado, 12 de octubre de 2019

Ya no hace gracia (nivel II)


Viernes, 8:30 am, Hora de San Juan del Huarache Perdido
Me llama al celular el coordinador:
- ¿Oye, que tal, como va todo por allá?
A saber, pero bueno sin problemas en la sede en la que esto, este quiere algo…
-Pues bien, acá ya tiene un rato que llegue, voy revisando servidores y la red.
-A que no estás en la sucursal $RedNumbers
- ¿No, acaso no es mañana que voy?
-Cierto, cierto, a no pues es que como estoy en $Norteña, ya estabas allá.
Pues nada, ya mejor no pregunto sus razones tras ese pensamiento.

Sábado, 9:30 am Hora de San José García
Empiezo la implementación de la nueva segmentación de red en la sucursal $RedNumbers.
Pero antes de todo, hay que hacerle espacio a un Cisco SG220-50, que sí, es 1U, pero este “site” solo tiene un rack, donde han colgado todo y de todo, de cualquier manera, con o sin tornillos, bridas, cinchos, etc.… No me sorprendería encontrar algo pegado con chicle.
Y la primera en la cara al llegar, no está el compañero (si, a este si lo considero compañero y no ganado).
Bueno, no pasa nada, que el compañero no es de TI, y tiene que descansar.
Veo el site, y creo que no estoy preparado para esta tarea.
No lo digo por el cableado, ni por las extensiones que pueblan la parte baja, eso no da miedo. Lo que da miedo, es la capa de mugre y polvo que recubre todos los aparatos, las bandejas, el conmutador, e incluso, la mesita que funge como soporte de la ONT, está cubierta de cables desechados, ratones, cubiertas de los organizadores del rack, así como algunos discos y un switch de 24 puertos hp, y como no, También recubierta de mugre y polvo…
Pues nada, por mi mente cruzo un momento el huir y no regresar hasta tener un traje NBQ, pero, no quiero pasar demasiado tiempo acá, así que, toca arremangarse, apretarse el cinturón, y apañárselas con toallitas húmedas.
11:30 am
Por fin, después de limpiar, escombrar, organizar, patalear, recordarles a sus antepasados al que hizo los patch cord, puedo iniciar con los cambios, pero, aviso a los compañeros que tienen hasta las 12 para terminar lo que sea que estén haciendo, porque a las 12 en punto se corta el internet (cosas de tener direccionamiento fijo en las PC).
Pues nada, en lo que llegan las 12, reviso la configuración del Cisco, todo bien, todo correcto, vlans bien configuradas, trunk configurada, descripciones bien hechas, pasemos a configurar el HP, creamos vlans, ponemos los trunk, asigno las vlans que pueden viajar por estos trunk y a qué acceso deben tener los puertos de usuario.
Llegan las 12, y puntuales como hacienda, el proveedor del Firewall (Fortinet) corta comunicaciones.
¿Como lo es? Sencillo, escuchando a los compañeros gritando como borregos: “¡No hay interné!”.
Y algunos, oye, es que estaba a mitad de algo, ya sé que habías dicho que se cortaba a las 12, pero déjalo un ratito más.
Bueno, pues nada, previniendo esto, pedí DHCP en una de las vlans, y pasé a quitar las direcciones fijas, ole, se quedan trabajando los borregos.
Decido que no hay mejor momento, que este para repórtame al gerente, y decirle que cambiare mi vuelo, que esto ya casi esta.
-Que tal, oye acá en $RedNumbers estoy a mitad del cambio, me regresare antes, espero no haya problema.
-Pues no, por mí no hay problema, nada más ayúdame, porque acá en la sede $Somoslomas (que el responsable es… el gerente) se metió un virus.
Vale, tenemos antivirus, probablemente haya sido algo puntual y en un solo equipo desactualizado, pero mejor pregunto
-Que virus fue? Seguro fue en uno de los XP, ¿verdad?
Al escuchar la respuesta, me quede un tanto Pajarito…
-Pues fue un ransomware, perdimos DOS servidores, uno con máquinas virtuales y el otro es un file server.
Vale, espera, ¿qué? … ¿QUE?
De seguro sigo dormido en el avión, la altitud y la presión me están jugando una mala pasada… Pero no, estoy despierto, solo me quede parado y viendo al vacío en medio de la oficina, escucho a lo lejos a las personas berrean acerca de que no pueden poner música, y al oído escucho berrear al gerente, acerca de que los dos servers están bloqueados y encriptados, y que el file server, es el que tenía los Backups... el mundo se ve gris...
Después de esto, sigo la plática de lejos con el gerente, acerca de que esta contactando al proveedor de Fortinet, para ver si le pueden ayudar…
El resto del día fue un sin sabor de mucho ruido y pocas nueces en los cambios, una tarea repetitiva:
Entrar al equipo, cambiar IP, cambiar Puerto de las impresoras, mandar prueba de impresión, registrar en el croquis y la memoria tecnica, el servicetag, ip y usuario.
Nada, al final del día, me entero del recuento de daños:
1 servidor hyper-v con 5 máquinas virtuales
1 servidor de archivos con varios teras
Los Backups de la localidad, que eran discos USB pinchados al servidor de archivos, al menos 10 teras perdidos.
No hubo sanciones, porque no pudieron (o quisieron) determinar la cuenta con la cual se ejecutó el ransomware.
Las preguntas, en esta situación, son las siguientes:
¿Cómo entro?
¿Qué cuenta lo ejecuto, como para llevarse por delante 2 servidores?
¿Por qué el gerente no quiso investigar más a fondo?
¿Qué pintaba nuestro proveedor de Firewall en esto?
¿Por qué los Backups eran simples discos USB?
¿Cómo puede el gerente conservar su puesto?

Lo dicho, ya no hace gracia.

jueves, 19 de septiembre de 2019

Ya no hace gracia (nivel I)

Una vez es gracia, dos se pasa y la tercera es desgracia.

Así lo dice el refrán, la máxima popular, y cualquier madre cuando tienes que repasar la tarea, pero la desgracia viene con la chancla (pantufla en otros lados).

De esta manera inicio el post, dado que es lo que se siente en el ambiente en estos momentos.

- Abril 2019, primera semana –

Llegando a la oficina me doy cuenta de que uno de mis bebes (que ya no es un bebe, ya tiene pelo en pecho, 8 años tiene ya), se queja de un disco duro.

Ahí estaba, parpadeando el disco, indicando que está próximo a fallar.

Uno, siendo voluntarioso, redacta un correo muy prolijo, donde se indica, mediante captura de pantalla, y descripciones, que el servidor cuenta con 5 discos, 2 para el SO, 3 en RAID 5 para los datos.

También se indica que, tiene 4 maquinas virtuales, 2 de ellas de alta importancia, así como unos buenos gigas de información que se comparte (la de los usuarios que se conectan no la contamos, sencillamente, por que el proceso indica que, si no lo guardas en la compartida, no se respalda).

Incluso se indica el tipo de disco a comprar y su capacidad (SAS, 15K RPM, 900 GB).

Se abre el Skype for Bussines y se espera a que los jefes pidan más información.

A final del día, uno de ellos, el gerente, hace la pregunta mas inteligente del mundo (sarcasmo).

- Oye, de ese disco, es posible que aguante, hasta agosto, que es cuando se van a reemplazar los servidores.

Vale, quieren jugar a ver si aguanta… Juguemos un poco

- Puede, solo que cada día, tendrás que lanzar una moneda y si cae cara, es que sigue funcionando, si cae cruz, es que ya murió.

- Si verdad, bueno, esperemos que aguante hasta cambiar el servidor, es que están muy caros los discos y ni modo de invertirle a algo que ya va de salida.

Vale, yo solo soy un analista de infraestructura, el que corta el pan, es el gerente, y él sabrá de administración y de riesgos de perdida de información, así como también debe tener una fe del porte de un buque, para fiarse de un RAID 5, con discos de 6 años.

Pues nada, programo un respaldo diario de las VM, así como de la información, por si las dudas.

- Agosto 2019, lunes mitad de mes –

9 am, hora de San Juan del Huarache Perdido

Se presenta un ticket en el sistema.

“Sin acceso al FTP”

Y documentado, con una captura, se ve claramente que el servidor no está respondiendo.

Pues vale, vamos a revisar el servidor físico, por que el FTP es un virtual.

Intento conectarme por escritorio remoto, y, sorpresa, no me responde.

Vamos al Site, y nada más conectar el monitor (no hay KVM), veo que esta atorado en la pantalla de BIOS, pide que presione F1… Sopas, ni modo, vamos a reportarlo primero y ahorita vemos que tal arranca WS2008R2.

Una vez que inicia, decido volver a enviar la información del servidor, un informe muy completo, incluyendo la información del disco, las maquinas virtuales que tiene, archivos compartidos, service tag.

Sin respuesta de nadie… Vale, seguro que ya están pidiendo el disco (sarcasmo).

- Septiembre 2019, segunda semana –

1 pm, hora de San Juan del Huarache Perdido

En el chat grupal de infra de $Centroypocomas, el gerente pide que le mande la información del servidor con el problema del disco, así que aprovecho y al informe anterior, le agrego capturas de pantalla.

Inmediatamente, en el correo, me contesta el gerente solicitando lo siguiente:

“Navegante

-Escritorios remotos para SucursalPerdida: ¿escritorios remotos de qué? Con la SD WAN se pueden conectar sin el server

-Hyper-V: ¿Que máquinas virtuales tiene?

-FileServer. ¿Qué tipo de información es?”

Vale, esto ya no hace gracia, esa información viene desglosada en el informe, y sabe muy bien, que los escritorios remotos son por un programa que se usaba, y de donde todavía usamos para extraer información de archivo (Por ley debemos tener 5 años, pero por servicio al cliente, tenemos hasta de hace 25 años).

Pues nada, le contesto a sus preguntas, usando la información del informe y lo envió.

Esto no ha terminado, y no se quedará así…

viernes, 6 de septiembre de 2019

Las preguntas de los lunes

Lunes 8:00 am | Sede $Centroypocomas

Rutina de todos los días, hacer el checklist del site, checklist de firewall, checklist de red (falta hacer un checklist de checklist).

¿Qué es un checklist de site? Pues básicamente, revisar que haya corriente eléctrica, que el aire este con vida, que los servidores no se estén quejando de algo (no, no tenemos software de monitoreo, si, lo propuse, no, no lo aprobaron, si, se les hizo caro). Cubriendo esos tres puntos, se diría que estamos del otro lado.

El de red es similar, revisar que los switches estén bien, que los enlaces estén bien (ya de su capacidad no hablemos, es deprimente desde hace unos meses) y que haya conectividad a internet.

Y el de firewall, solo revisar que las políticas estén bien, que las vpn estén correctas, y que los pollitos no abusen de las políticas de libre navegación (para los que lo hayan pedido alguna vez, y sus jefes lo justificaron con que algunas paginas traen cosas de YouTube y Facebook y que, si se los bloqueamos, la pagina no funciona bien ¬¬).

Es cosa de abrir al sustituto de Skype que pario Microsoft, Teams le llaman, y empezar las preguntas tontas de cada lunes.

Coordinador – Oye, tenemos carpetas compartidas en la sucursal de allá (así tal cual, sin buenos días, sabiendo que no hay té para ver los pozos y adivinar a que sucursal se refiere).

- Pues en todas hay, pero dame 5 min para tomar el té y decirte de cual me estás hablando.

- A perdona, es en la sucursal $NewBrain (no es nueva, no tiene empleados nuevos, solo que cada día estrenan cerebro, como cierto coordinador).

- Pues sí, tenemos un par, ¿Por? (¿Para que pregunto, para corroborar o por inocencia?)

- Pues necesitamos crear una más, los de “Calidad”, exigen que todos tengan una carpetita.

- Vale, tenemos 60 equipos, dime en cual

- ¿Cómo que en cuál? Pues en el servidor.

¡!Aleluya¡¡ Por fin le compraron servidor a la sucursal, mira que tiene años que se solicita uno, para implementar dominio y file server al... un momento, esto suena demasiado perfecto...

- ¿Así que ya tienen servidor? A, pues la cosa cambia, pásame las credenciales y voy creando la replica del dominio, y comparto las carpetas que quieran...

- ¿Pero de que me hablas?, se supone que todas las sedes tienen servidor o servidores

No... noooo... ¿es broma? Volteo a ver nuevamente el nombre del chat de Teams, pero no, no deja lugar a dudas, es el Coordinador de la división.

- Así es, las SEDES, tienen servidor o servidores.

- ¿Eantonces, cual es el problema? Solo crea la carpetita y ya, no te cuesta nada, es mas me espero para que me confirmes.

-Como te dije, las SEDES tienen servidor, pero $NewBrain es una SUCURSAL

Mutis durante 15 min en el Teams, no se si esta revisando la información, esta en llamada o esta pensando en la maroma que tiene que decir.

Pasado el tiempo, escribe lo siguiente:

-Bueno pues lo hacemos por OneDrive, al fin y al cabo, todos tienen Office 365.

¿Pero que broma es esta? ¿Dónde esta la cámara?

De los 60 equipos, solo 25 tienen licencia Office 365, así que sí... TODOS tienen licencia, bueno que se le hacemos, a comentarle nuevamente el estado de las licencias en la sucursal.

-Oye, pero si solo 25 tienen licencia, ¿de dónde sacamos los 35 restantes?

Nuevamente mutis, hasta recibir el siguiente mensaje:

-Deja reviso que hacemos, te aviso.

Por suerte, nuestro coordinador, esta super preparado, esta muy informado. Y hace este tipo de preguntas cada lunes…

miércoles, 4 de septiembre de 2019

El cansancio (palito, palito)

En el anterior post, Recursos InfraHumanos indico que todo ya “funciona”.

El Gerente y el Coordinador, solicitan explicación tras el “sacrificio” de los 2 segmentos de red de una sede.

Explicas nuevamente el plan de trabajo, esta vez, haciendo énfasis en los segmentos asignados a cada sede y sucursal.

Pasan 2 semanas

Recibes un “toque” de tu coordinador. “URGE” avanzar con el proyecto de homologación de redes.

Revisas con el compañero de la sede norteña.

Te das cuenta que los cables son activo fijo (10 años) y se fueron tendiendo, conforme se necesitaba, por lo que no todos llegan al “site”.

Buscas los modelos de switch y te llevas las manos a la cabeza, no son administrables.

Realizas el presupuesto: cableado nuevo, switches nuevos, AP’s nuevos.

Agregas los viáticos para 1 persona, tu coordinador decide que ayudara mucho que vaya, así que agregas los viáticos de él.

El Gerente ve la cifra final de poner en condiciones la sede norteña, así como homologarla.

Te hace una llamada interesante, preguntando si es necesario todo.

El coordinador se mete en la llamada, jura y perjura que es necesario que él vaya.

El Gerente nos manda a un lugar terminado en ulo, supongo que quiso referirse al zulo.

Pasa 1 semana

Recibo un correo, de mi coordinado, pidiendo que le pase, al proveedor, la configuración que “debe” tener el switch central de la sede norteña.

Le mando las vlans que debe tener, los puertos, y los segmentos de red.

El proveedor solicita el archivo de configuración, para solo meterlo al switch, eso sí, me incluye el modelo del que se va a comprar.

Pregunto (¿para que lo hice? Conozco la respuesta) acerca de la consolidación de los 3 switches en uno solo.

Me contesta el proveedor que no tiene la mínima idea de que le hablo.

Recibo otro “toque” por privado del Gerente, que el proveedor solo vera el switch central y que mantendremos los demás switches, citando: “No habrá problema, son auto configurables, sirve que no les metes mano”.

CONTINUARA…

martes, 3 de septiembre de 2019

El cansancio (palito)

Presentas un plan de trabajo.

Un proyecto con sus detalles.

Modificas lo que mando el proveedor y que no sirve.

Explicas los detalles al Gerente y Coordinador de turno.

Empiezas el plan, te llevas sorpresas, por falta de informacion del personal del sitio.

Terminas el primer sitio, a pesar de las sorpresas.

Presentas lo que se necesita para las sucursales.

Te lo niegan, los aparatos de red cuestan y hay que hacer el proyecto con un clip y un chicle.

Te piden actualizar una sede, es urgente sacar el proyecto.

Solicitas aparatos de red, milagrosamente te los aprueban.

Realizas el cambio un viernes por la noche, sabado de madrugada.

Todo funciona correctamente, pero la palmadita en la espalda, es para el que no llego a tiempo y solo estuvo llamando y no dejando trabajar a gusto.

Se cortan las VPN entre sede y sucursales, para que no se pisen las direcciones entre si.

Explicas nuevamente el plan de trabajo, y la razon para cortar VPN, al Gerente y Coordinador.

Todo “funciona” durante una semana.

Recursos InfraHumanos se da cuenta que no puede revisar entradas/salidas de los empleados de las sucursales.

Explicas nuevamente el plan de trabajo, y la razon de que no se puedan ver las checadas, pues dependen de las VPN, al Gerente y Coordinador

Se “sacrifican” 2 segmentos de red, para reconectar VPN.

Recursos InfraHumanos confirma que todo funciona.

CONTINUARA…

martes, 13 de noviembre de 2018

¿Por que?

¿Por que lo haces mal?

Cuando el sistema te dice: favor de presionar ctrl+alt+supr, ¿por que piensas que altgr es lo mismo, maxime si tu teclado no tiene altgr y la tecla que presionas es la de fn?

¿Por que si el sistema te dice que la contraseña no puede ser igual a una usada el mes pasado, y estando en julio, insistes en usar la de junio2018?

¿Si el sistema te esta avisando con letras en negritas y color rojo, desde 15 dias antes que se va a expirar tu contraseña, insistes que no viste ninguna notificacion y que no sabias?

¿Si sabes que los datos los suben los de operaciones y no hay datos, por que insistes que sistemas es el que tiene que solucionar esa falta de datos?

Asi es dia tras dia, en el que los lusers llaman para demostrar su perfecta falta de comprension lectora, de raciocinio basico y del uso de la logica.

Pero pasan los dias, y uno ya no se enoja al telefono, tampoco se lia a discutir, simplemente se echa unas risas y despues se pone a redactar un post.


Asi pasa la vida del sysadmin..