Introducción a seguridad Zero Trust Wed, 28 Mar 2018

No es difícil suponer que cuando tienes la escala de Google te encuentras con problemas que el resto no tenemos, o que sí tendremos, pero en unos años. Es algo que ya ha pasado con un buen número de tecnologías, desde MapReduce hasta Kubernetes y que, quién sabe, también pasará con el tema de este post. Esta vez nos centramos en el modelo de seguridad tradicional que conoce todo el mundo. Acceso limitado a la red perimetral a través de firewalls, redes DMZ, VPNs y similares son algo que todos hemos usado.

Una de las críticas, diría que con razón, que se hacen a este modelo es que una vez se accede a un nivel, todas las máquinas de esa capa quedan a la vista. De esta manera, es probable que un administrador de base de datos tenga acceso a servidores de almacenamiento o red, o a todas las máquinas de un mismo dominio de Windows. Algo a tener en cuenta dada la necesidad que parece que tenemos de pulsar sobre mensajes que nos mandan príncipes nigerianos.

Por supuesto, esta no deja de ser una simplificación. En la práctica se pueden securizar más estos niveles, se pueden usar tecnologías tipo IPSEC y similares, o se puede tener un control más específico de quién accede a dónde. Hoy en día, a menudo, aunque se conzca el problema de base, cuando la cantidad de gente que trabaja en estos entornos es limitada y controlada, puede parecer razonable asumir el riesgo en relación al coste de cualquier otra medida.

Claro, cuando la escala es lo suficientemente grande, el control se hace más complicado. Hay muchos servicios, de todo tipo; algunos se gestionan vía SSH, otros vía Web, o con APIs específicos. En cuanto a los administradores, además de los propios responsables de las plataformas, puede haber personal externo, estudiantes en prácticas, personal de atención al cliente, y tantos otros. Para terminar, el acceso también es más diverso. Lo que antes era un PC en una oficina, ahora puede ser un PC, o un portátil en casa, o una tablet desde la Wifi del tren.

Con estos antecedentes, y dados los ataques y problemas propios del entorno, Google comenzó un proyecto interno para cambiar su gestión de la seguridad. Evidentemente, los recursos y el nivel técnico de estas "grandes" les permiten llegar a desarrollos que para el resto son complicados de alcanzar, pero los conceptos más generales siempre pueden adaptarse y, llegado el momento, implementarse en entornos más pequeños.

En este post voy a hacer un resumen básico de lo que se busca con BeyondCorp, que es como ha llamado Google a su proyecto interno, pero también me gustaría ver qué software podríamos usar para hacer una implementación, aunque sea básica, de las ideas principales que se buscan. Si queréis dejar de leer ahora y pasar a documentación más completa, estos enlaces pueden serviros:

  • BeyondCorp: Web con información básica y enlaces a algunos artículos técnicos. Está desarrollada por ScaleFT, una de las empresas que han creado un producto en la línea de los documentos publicados por Google, y que están documentados en la propia web. Son fáciles de leer, os los recomiendo.
  • Google BeyondCorp: Web de referencia en Google Cloud.
  • Zero Trust Networks: Uno de los pocos libros que he visto sobre la materia. Son poco más de 200 páginas, y siempre podréis sacar conclusiones y ver qué os sirve y qué no.

¿Qué son las redes Zero Trust?

Una red Zero Trust es una red en la que no se confía. Por lo tanto, todos los dispositivos que están el ella se gestionan como si estuviesen directamente conectados a Internet (que no deja de ser una red de este tipo), independientemente de si dan servicio externo o interno. En definitiva, se trata de complementar todo aquello para lo que el modelo tradicional es efectivo, añadiendo medidas contra lo que los estándares actuales, la segmentación de red, DMZs y similares son más limitados:

  • Equipos comprometidos por Phising, Keyloggers, ...
  • Shells inversos en servidores con aplicaciones no actualizadas
  • Movimiento lateral entre equipos de un mismo segmento de red
  • Contraseñas vulnerables
  • Acceso a servidores internos desde servidores públicos vulnerables
  • ...

Las redes Zero Trust se fundamentan en lo siguiente:

  • Asumir que el tráfico dentro de un centro de datos o de una red corporativa es seguro es erróneo. La segmentación en zonas y la seguridad perimetral que se ha venido siguiendo estos años no impiden los movimientos laterales dentro de un mismo nivel en el momento en el que un servidor o dispositivo se vea comprometido.
  • Todas las redes deben considerarse hostiles.
  • Las amenazas pueden ser tanto internas como externas.
  • Que un dispositivo pertenezca a un segmento de red no es suficiente para garantizar la confianza.
  • Todos los dispositivos, usuarios y flujo de red deben estar autorizados y autenticados.
  • Las políticas de acceso deben ser dinámicas.

Elementos principales

Independientemente de cómo se implemente, una parte importante del trabajo va a ser la capa de control. Hablamos del entorno que va a identificar a usuarios y dispositivos, y que va a autorizar el acceso a los elementos de la red. Idealmente, se va a formar una entidad con el dispositivo desde el que se accede, el usuario que lo está intentando, y la aplicación. A partir de aquí, el sistema tomará una decisión basada en las variables que se consideren adecuadas, y que pueden ir en la línea de las siguientes:

  • ¿Se está accediendo desde un equipo inventariado?
  • ¿El equipo tiene todas las actualizaciones de seguridad instaladas?
  • ¿Desde dónde se está intentando acceder?
  • ¿A qué hora?
  • ¿Qué usuario está intentando acceder?
  • ¿A qué aplicación o servidor se quiere acceder?
  • ¿Qué método está usando para acceder? ¿Qué algoritmo de seguridad?

En realidad, esta lista se podría completar con todo tipo de información adicional. El objetivo es que este sistema de control use estos datos para tomar una decisión (permitir o no), y que abra el camino para que se pueda establecer la conexión, de forma dinámica, entre ese cliente (y solo ese cliente) y el destino (y solo ese destino).

¿Cómo autorizamos un intento de acceso?

Por lo general, al hablar de autenticación hablamos de algún tipo de cifrado. En definitiva, se trata de intentar garantizar que un dispositivo origen puede acceder a un recurso, y para esto, estándares tan desarrollados como los certificados basados en X.509 son una elección lógica. Es relativamente común que se usen CAs privadas para crear los certificados que se usan en una organización.

Como siempre, alrededor de este concepto se pueden desarrollar todo tipo de sistemas avanzados que controlan la validez de los certificados, el inventario, y todo lo que se os ocurra. Hay gente que crea certificados válidos por poco tiempo, otros usan ocsp, y también los hay que incluyen información que puede ser útil en la toma de decisiones en alguno de los atributos que define el protocolo.

¿Cómo autenticamos un intento de acceso?

Ojo, que autorizar y autenticar no son lo mismo. En su forma más simple, podemos estar hablando de un formulario web que se enganche a una base de datos de usuarios, sea del tipo que sea. Por lo tanto, un usuario se conectará desde un equipo autorizado, con las credenciales que tenga asignadas en ese momento.

Una vez más, a partir de esta idea básica se pueden hacer todo tipo de desarrollos y comprobaciones. Con los datos que tenemos ya es esta fase, podremos mostrar un listado de servidores a los que permitir la conexión, topes de tiempo para acceder, obtener datos de otros sistemas internos, como puede ser de monitorización, y tantos otros.

¿Cómo hacemos efectivo el acceso?

En estos últimos años la automatización ha sido una de las tecnologías que más han avanzado, y diría que es una de las claves que permiten implementar un sistema Zero Trust con facilidad. En su forma más sencilla, se puede usar ansible, chef, puppet, cfengine y similares para activar los permisos necesarios. Sistemas más avanzados permitirían, además, la configuración de accesos a nivel de red, vlanes o enrutamiento, en función de la infraestructura con la que se trabaje.

Implementación de ejemplo

Cuando se lee documentación de este tipo de tecnologías se tiende a concretar poco el software que podría usarse para implementarlas. Hagamos una prueba de concepto, aunque sin escribir código, y siempre limitándonos a lo más básico.

Uno de los ejes fundamentales sobre el que gira la tecnología Zero Trust es el cifrado. Para conseguirlo, nos interesaría tener una buena gestión de certificados. Hacer un inventario no es trivial, y mucho menos si queremos asociar de manera efectiva los portátiles (por ejemplo) en los que se instalan, con los usuarios a los que pertenecen. Si somos creativos, podemos hacer cosas muy sencillas pero que pueden ser interesantes, como por ejemplo definiendo atributos extra (los certificados X.509 permiten añadir cosas como teléfonos, estados, y muchos otros), o usando números de serie para los certificados. Imaginad, por ejemplo, que llevamos el control de un certificado que pertenece a un usuario (en base a los datos del Subject), y que incrementamos el número de serie cada vez que haya una actualización de seguridad. El usuario se instalará el nuevo certificado cuando actualice su equipo, y el sistema solo validará la sesión SSL si es así. Es algo simple, pero puede ser un buen punto de partida.

# openssl req -new -key client_new.key -out client_new.csr
-----
Country Name (2 letter code) [AU]:??
State or Province Name (full name) [Some-State]:????
Locality Name (eg, city) []:????
Organization Name (eg, company) [Internet Widgits Pty Ltd]:????
Organizational Unit Name (eg, section) []:????
Common Name (e.g. server FQDN or YOUR name) []:usuario
Email Address []:usuario@example.com
--- No es difícil incluir más atributos aquí

Please enter the following 'extra' attributes
to be sent with your certificate request
A challenge password []:
An optional company name []:

#root@ansible:~# openssl x509 -req -days 365 -in client_new.csr -CA ca.cert -CAkey ca.key -set_serial 1 -out client_new.crt

Enseguida veremos que los servidores web o los proxies modernos pueden leer estos valores.

Incluso en los casos en los que la aplicación que usemos no funcione con certificados, los navegadores, en su inmensa mayoría, sí los usan. Gracias a esto podríamos generar las reglas de acceso necesarias para un cliente desde el navegador, y permitir el acceso a esa otra aplicación con la confianza suficiente de que se origina desde un cliente válido. Las implementaciones más avanzadas usan proxies, por ejemplo de SSH, o tienen utilidades que cambian, en el caso de SSH, la configuración de los clientes y del servidor para que usen los nuevos certificados. El termino medio que planteo basa la autenticación y la autorización en un interfaz web muy compatible con los certificados, para que luego el cliente pueda conectarse al servidor de la forma más natural, que en el caso de SSH no dejan de ser las claves públicas y privadas de toda la vida. No es algo perfecto, ni mucho menos, pero es genérico y no obliga a reconfigurar los servidores constantemente.

Pasemos a lo que puede ser el interfaz web con la lógica necesaria para el sistema.

Queremos controlar el estado de los certificados en detalle, y para eso no hay nada como Nginx y su módulo para Lua Este no es un post sobre Nginx, así que solo daré algunas pistas sobre cómo se podría implementar todo esto sobre lo que estamos hablando con Nginx, pero hasta ahí.

Como sabéis los que conocéis Nginx, los certificados de servidor "de siempre" se leen con directivas como estas:

ssl_certificate /ruta/certificado_servicio;
ssl_certificate_key /ruta/clave_servicio;

Y se puede obligar al uso de un certificado cliente, instalado en el navegador, que se haya firmado con una CA

ssl_client_certificate      /ruta/certificado_ca;
ssl_verify_client           on;

Con esto ya sabremos que solo se accederá al sitio desde equipos en los que se haya instalado un certificado que hayamos firmado con nuestra CA. Lo que no hemos hecho es ampliar la lógica y usar el número de serie o el Subject del certificado. No hay problema, Nginx crea variables con todo lo que necesitamos, y que podemos usar en la fase de acceso de los distintos location. Si usamos el módulo Lua, no habrá ningún problema para acceder a los datos que nos manda el navegador, y para aplicar la lógica que queramos con ellos. Podemos leer datos de inventario desde una base de datos, desde redis, en un json desde un servidor independiente, .... Hay librerías para todos los gustos.

location ??? {
  access_by_lua_block {
    -- En la variable $ssl_client_s_dn tenemos un cadena de texto con el email, el CN, OU, O, L, ST, C y otros atributos menos habituales que hayamos configurado
    local dn = ngx.var.ssl_client_s_dn

    -- En la variable $ssl_client_serial tenemos el numero de serie del certificado del cliente.
    local serial = ngx.var.ssl_client_serial

    -- A partir de aqui, accedemos a donde sea que tengamos la gestion del inventario, y permitimos el acceso, o no
    -- ngx.exit(403)
    -- ngx.exit(ngx.OK)
  }
}

La autenticación es básicamente cosa de programación, del estilo de lo que hemos hecho siempre. Una ventana de acceso, login, password con credenciales del usuario, y todo lo demás. Esto se complementaría con el bloque de control de certificado que hemos descrito antes. Además, siempre se pueden incluir ventanas adicionales en las que un usuario autenticado vea los host a los que puede acceder, y quizá puedan definir una franja horaria en la que van a conectarse a ese host o grupo de hosts.

La idea es garantizar que el acceso se ha hecho desde un equipo autorizado, y que se ha hecho por un usuario autenticado. Al final de todo, podremos haber generado una sesión típica con el navegador cliente. Esta sesión puede servir si usamos este servidor como proxy para accesos web. Imaginad, por ejemplo, que queremos que los accesos a wp-login.php de un Wordpress solo puedan realizarse a través de este sistema. Solo necesitamos las reglas básicas para que Nginx haga de proxy a ese destino, controlando la validez de la sesión. La ventaja es que el Wordpress no necesita ningún tipo de modificación, ya que es el proxy de autenticación el encargado de controlar los accesos en este nivel.

Para mantener las cosas simples, imaginad que solo tenemos un número determinado de Wordpress que queremos controlar. De no ser así, esta parte también podría ser dinámica y programada sin mayor dificultad; en Nginx se puede usar Lua para elegir upstream.

upstream wordpress {
  ip_hash;
  server ip_wordpress;

Tendríamos una serie de location para gestionar el login, con sus métodos GET y POST, luego tendríamos las ventanas adicionales. Al final tendríamos otro location que haría el proxy_pass. Hay muchas formas de cifrar sesiones y cookies en Nginx. No trato de enseñarlas aquí o de hacer un bloque completo. Es solo una idea básica.

location = /wp-login.php {
  set $dominio 'example.com';

  access_by_lua_block {
    -- Que no se olvide la parte de autorizacion en base al certificado
    --
    -- Lo normal es que usasemos un POST para recibir el host al que redirigir, y que usasemos balancer_by_lua para elegir dinamicamente el upstream
    --
    if ngx.var.request_method == "GET" then
      return
    elseif ngx.var.request_method ~= "POST" then
      ngx.exit(403)
    end
    local ck = require "resty.cookie"
    local cookie, err = ck:new()
    if not cookie then
      ngx.exit(403)
    end

    -- Un usuarios validado con todo OK tendria una cookie AUTHSESSION (por ejemplo) cifrada que usariamos para verificar que el acceso esta permitido
    local authsession = cookie:get("AUTHSESSION")
    if not authsession then
      -- No permitimos si no hay cookie
      ngx.exit(403)
    end
    --
    -- Es un ejemplo basico de uso de cookies, pero hay otras alternativas
    -- Tenemos cookie AUTHSESSION, la descifrariamos y, si fuese ok, seguimos adelante
    -- Tambien hay muchas opciones para ver TTLs y confirmar que no ha expirado
    --
    -- Si llegase el host en un POST, podemos leerlo sin problemas
    ngx.req.read_body()
    local args, err = ngx.req.get_post_args()
    -- En args estan los parametros que han llegado en el POST
    -- Si todas las comprobaciones fuesen bien, hariamos el proxy_pass
    return
  }

  proxy_pass https://wordpress;
  proxy_set_header Host $dominio;
  proxy_set_header X-Real-IP $remote_addr;
}

location / {
  set $dominio 'example.com';

  proxy_pass https://wordpress;
  proxy_set_header Host $dominio;
  proxy_set_header X-Real-IP $remote_addr;
}

Falta mucho código, pero no quiero convertir esto en un post sobre Nginx/Lua. La idea que quiero transmitir es que podemos meter un proxy entre nuestro destino (nos centramos en HTTP en este caso) y el cliente. La única modificación que hay que hacer al Apache o lo que sea que gestione el Wordpress es limitar los accesos a wp-login.php, para que solo se pueda llegar desde el proxy de acceso. De esta manera, quien quiera administrarlo tendrá que pasar por todo el proceso de validación, pero sería transparente para el resto de usuarios.

Para las aplicaciones basadas en HTTP es fácil gestionar un proxy. Para el resto, este tipo de proxies pueden ser más complicados, aunque en este momento se está terminando el soporte Lua para el módulo stream que permitirá hacer proxies muy interesantes.

En cualquier caso, como he comentado al principio, es fácil complementar el control de accesos a, por ejemplo, SSH, usando la misma idea que hemos usado hasta ahora. Un usuario puede usar su navegador desde su portatil, y Nginx puede crear una petición a un servicio externo que sincronice la clave pública y cree una regla iptables que habilite el acceso. Otro proceso podría, vía cron por ejemplo, revocar ese acceso y esa regla llegado el momento.

Si optasemos por ansible sería muy sencillo hacer un pequeño servidor en flask o tornado que usasen el api python del propio ansible para lanzar las tareas que habilitan el acceso. En Nginx tendríamos un nuevo upstream, tipo:

upstream tornado {
  ip_hash;
  server 127.0.0.1:puerto;

y un location parecido al que hemos escrito para wp-login.php haría una llamada a ese tornado que lanzaría las tareas de ansible contra los módulos authorized_key e iptables. Con Nginx/Lua, crear una petición para un upstream es algo trivial. Aquí van unas pistas para los interesados:

location = /acceso_ssh.html {
  set $dominio 'example.com';

  access_by_lua_block {
    -- Que no se olvide la parte de autorizacion en base al certificado
    --
    -- En el POST recibiríamos el servidor destino, la IP origen, y
    -- cualquier otro dato necesario para ansible
    --
    -- Por supuesto, toda la parte de la sesion de navegador sigue
    -- siendo necesaria
    --
    -- Imaginemos que tenemos el host remoto en la variable hostremoto
    -- del formulario que nos llega en el POST
    -- El modulo Lua recibe la IP origen en la variable ngx.var.remote_addr
    -- Podriamos tener en inventario las claves publicas de los usuarios
    --
    ngx.req.read_body()
    if not args then
      ngx.exit(403)
    end
    local args, err = ngx.req.get_post_args()
    local iporigen = ngx.var.remote_addr
    local host_remoto = args["hostremoto"]
    local clave_ssh = args["clave_publica"]

    -- Simulemos que el servidor tornado recibe un json en el cuerpo, por cambiar

    local habilitar_acceso = {}
    habilitar_acceso["ip"] = iporigen
    habilitar_acceso["servidor"] = host_remoto
    habilitar_acceso["clave"] = clave_ssh

    ngx.req.set_body_data(cjson.encode(habilitar_acceso))

    res = ngx.location.capture("/habilitar_ssh", {method = ngx.HTTP_POST})

    -- Si tornado devuelve un codigo HTTP diferente a 200 es un error
    if res.status ~= 200 then
      ngx.exit(403)
    end

    return
  }

  # Si todo ha ido bien el acceso se habra creado (via tornado) y podremos mostrar un html
  # o lo que sea con un mensaje de OK. Podria ser un html estatico o generado
  # via content_by_lua
}

location = /habilitar_ssh {
  # A este location llega el POST con el cuerpo creado a partir
  # de la tabla habilitar_acceso, formateado como json

  internal;
  # Imaginemos que tenemos este endpoint en tornado donde se llama a ansible
  # Tendria que implementar POST, y leer y parsear el json
  # Devolveria un codigo HTTP 200 si todo hubiese ido bien
  proxy_pass http://tornado/habilitar_ssh;
}

Conclusiones

La verdad es que he dudado de si interesaba escribir código en este post. Evidentemente, no estamos hablando de un proyecto de fin de semana, así que, lo que he escrito, en realidad, no sirve para nada. Sin embargo, tampoco siempre se lee documentación con detalles concretos, así que esto podría dar alguna idea a alguien.

En cualquier caso, viniendo en cierta medida de Google (en realidad los conceptos no son nuevos, en absoluto), no sería raro que las palabras "Zero Trust" se vayan escuchando cada vez más, y que se hagan más desarrollos.

En definitiva, aunque la parte del código sea poco útil, espero que las ideas que hay detrás de todo esto hayan quedado claras. Se lo preguntaré a las tres personas que van a leer el post.