SciELO - Scientific Electronic Library Online

 
vol.40 número3Obtención de predicados difusos con un enfoque multiobjetivo: comparación de dos variantes índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Articulo

Indicadores

  • No hay articulos citadosCitado por SciELO

Links relacionados

  • No hay articulos similaresSimilares en SciELO

Compartir


Ingeniería Electrónica, Automática y Comunicaciones

versión On-line ISSN 1815-5928

EAC vol.40 no.3 La Habana sept.-dic. 2019  Epub 08-Sep-2019

 

Artículo Original

Nuevo modelo probabilístico en autenticación gráfica

New probabilistic model on graphical authentication

Carlos Miguel Legón1  , Raisa Socorro2  , Pedro Navarro1  , Osviel Rodríguez3  , Ernesto Borrego1 

1Instituto de Criptografía, La Habana, Cuba.

2Universidad Tecnológica de La Habana, La Habana, Cuba.

3Universidad de Ciencias Informáticas, La Habana, Cuba.

RESUMEN

La autenticación es esencial en la seguridad de los modernos servicios digitales de procesamiento de información. Las contraseñas alfanuméricas son las más empleadas, pero poseen debilidades que las hacen vulnerables a diversos ataques basados en modelos probabilísticos. Una de las alternativas es la autenticación gráfica. Los modelos probabilísticos en autenticación gráfica se aplican para estimar la clave más probable a seleccionar, en cada imagen, por el usuario que se va a registrar. En este trabajo se propone un nuevo modelo probabilístico de autenticación gráfica, su principal aporte consiste en que permite cuantificar el grado de autenticidad de cada usuario. Se confirma experimentalmente que el modelo propuesto es efectivo y permite medir en la práctica el nivel de autenticidad de los usuarios autenticados.

Palabras-clave: autenticación gráfica; modelo probabilístico; contraseñas

ABSTRACT

Authentication is essential in the security of modern digital information processing services. Alphanumeric passwords are the most used, but they have weaknesses that make them vulnerable to various attacks based on probabilistic models. One of the alternatives is graphical authentication. The probabilistic models in graphical authentication are applied to estimate the most likely key to be selected in each image by the user to be registered. In this work a new probabilistic model of graphic authentication is proposed, its main contribution is that it allows quantifying the degree of authenticity of each user. It is confirmed experimentally that the proposed model is effective and allows to measure in practice the authenticity level of authenticated users.

Key words: graphical authentication; probabilistic model; password

1.-INTRODUCCIÓN

La autenticación de un usuario para concederle acceso a un sistema o recurso es un aspecto esencial para la seguridad de la información [1]. Según la información que utilizan, los sistemas de autenticación suelen clasificarse en: sistemas basados en conocimiento (¿qué sabes?), en Tokens (¿qué tienes?) y en información Biométrica (¿quién eres?). Los basados en conocimiento emplean contraseñas, las que pueden ser alfanuméricas o gráficas [2].

Las contraseñas alfanuméricas son las más empleadas, a pesar de que poseen una contradicción entre su seguridad y su usabilidad, pues para ser seguras deben ser aleatorias, largas y no predecibles mientras que para ser usables deben ser memorizables, esta contradicción suele denotarse como the password problem [3]. Estas debilidades reducen el espacio de búsqueda y las hacen predecibles y vulnerables a diversos ataques basados en modelos probabilísticos [4].

Un interesante estudio sobre la aplicación de modelos probabilísticos para realizar ataques de diccionarios a las contraseñas alfanuméricas y también para evaluar su seguridad puede verse en [5]. Se profundiza en los dos modelos principales, los modelos de Márkov [6-7] y las gramáticas libres de contexto [8-10]. Existen otros modelos menos populares como la ley de zip [11-14], las redes neuronales [15] y técnicas de aprendizaje automático [16-17].

Para las contraseñas gráficas el empleo de modelos probabilísticos ha sido menos investigado y existen menos modelos. En su mayoría estos se basan en técnicas de tratamiento de imágenes digitales y en las características de la imagen [18-20]. Estos modelos permiten pronosticar, para cada imagen, la clave más probable a seleccionar por el usuario que se va a registrar. Se usan para escoger las imágenes más adecuadas a emplear en este tipo de autenticación y también para desarrollar ataques de diccionario.

En este trabajo se propone un nuevo modelo probabilístico de contraseñas gráfica, la novedad principal de este modelo consiste en que después que un usuario es autenticado, este modelo permite cuantificar la autenticidad de este usuario, asignándole una probabilidad de ser el usuario legítimo. Hasta donde saben los autores de este trabajo, no existen antecedentes de esto en los modelos de contraseñas gráficas. Se confirma experimentalmente que el modelo propuesto es efectivo y permite medir en la práctica el nivel de autenticidad de los usuarios autenticados.

Esta investigación se centra específicamente en los sistemas de autenticación gráfica del tipo Cued Recal [21-22].

2. PRELIMINARES

2.1. MODELOS PROBABILÍSTICOS: CONTRASEÑAS ALFANUMÉRICAS

Modelos Probabilísticos de contraseñas: Un modelo probabilístico de contraseñas [5], está determinado por cualquier función P, definida en el espacio de posibles contraseñas (S) en el intervalo [0,1], que asigna una probabilidad P(s) a cada contraseña de forma tal que:

  • P(s) ≥ 0, para toda contraseña s ∈ S.

  • i=1|S|P(si)=1

Estos modelos constituyen una herramienta fundamental para investigar la seguridad de las contraseñas [5]. La definición e interpretación de P(s), depende del modelo.

La existencia de grandes bases de datos de contraseñas alfa- numéricas disponibles en internet [23], ha permitido capturar experimentalmente sus características, las que son utilizadas para la definición de P(s). Las cadenas de Márkov y las gramáticas libres de contexto han sido los dos modelos más empleados para cuantificar mediante P(s) la probabilidad de que esa contraseña s sea seleccionada, por el usuario, en la fase de registro. Estos valores P(s) son la base de los ataques de diccionario y de algunas métricas de evaluación de la seguridad de las contraseñas ([8], [24], [26],[39]).

Existen diversas herramientas (consideradas software libre) para atacar contraseñas [23], las cuales hacen uso de diferentes modelos y de la información obtenida de las bases de datos. Entre estas herramientas para investigar la seguridad de las contraseñas alfanuméricas se destaca PARS [27], una plataforma propuesta en 2015 que contiene 12 algoritmos para atacar contraseñas, 15 sitios sobre métricas de fortaleza de contraseñas, 8 métricas académicas de fortaleza de contraseñas y 15 métricas comerciales de fortaleza de contraseñas. En [27] se propone una herramienta estadística, para clasificar en 3 clases los intentos de autenticación mediante contraseñas alfanuméricas, detectando los intentos sospechosos. Se emplean diferentes parámetros como: dirección IP, geolocalización, configuración del browser, hora, etc.

En [5] se clasifican las investigaciones sobre contraseñas atendiendo a su objetivo, esta clasificación debe ser ampliada para incluir investigaciones como [27] y la propuesta en este trabajo. En [21] se presenta un resumen muy completo hasta 2011 de los sistemas de autenticación basados en contraseñas gráficas, [22] se enfoca en los sistemas del tipo Cued click points. Una descripción y evaluación critica actualizada de la seguridad y usabilidad de los diferentes sistemas de autenticación

2.2. SISTEMAS DE AUTENTICACIÓN GRÁFICA CUED RECALL

En [21] se presenta un resumen muy completo hasta 2011 de los sistemas de autenticación basados en contraseñas gráficas, [22] se enfoca en los sistemas del tipo Cued click points. Una descripción y evaluación crítica actualizada de la seguridad y usabilidad de los diferentes sistemas de autenticación gráfica puede verse en [4]. Una propuesta de 2018 para implementar autenticación para computación en la nube mediante contraseñas gráficas, se propone en [28]. En [29] se comparan distintos sistemas de autenticación gráfica de acuerdo a los parámetros usabilidad, confiabilidad, funcionalidad, mantenibilidad, eficiencia y portabilidad como se definen en la norma ISO − 9126 [30].

En los Sistemas de Autenticación Gráfica del tipo Cued Recall, la contraseña del usuario consiste en k puntos (pixeles) que este selecciona, en la fase de registro, de una (o varias) imágenes, dada por el sistema o escogida por el usuario. Se espera que el usuario legítimo recuerde aproximadamente el orden y la posición de los k pixeles seleccionados en la fase de registro, pero realmente es muy poco probable que logre recordar de forma exacta la posición de cada pixel. Por esta razón la imagen se discretiza, definiéndose una región de tolerancia alrededor de cada punto. En la fase de registro, el sistema por cuestiones de seguridad, no almacena los k puntos, ni sus regiones de tolerancia, sino el valor del hash de la concatenación ordenada de las k regiones de tolerancia determinadas por la contraseña.

En estos sistemas se han empleado varios métodos de discretización para definir la región de tolerancia, la discretización robusta [31], la centrada [32] y la óptima [33]. La discretización robusta requiere una región de tolerancia mayor que las centrada y óptima. Una descripción detallada de estas tres discretizaciones y una discusión de sus limitaciones puede verse en [34].

Para autenticarse, el usuario debe escoger en el orden correcto, los mismos k puntos aproximadamente. Será autenticado sí y solo sí los puntos que escoge determinan un hash igual al que fue guardado por el sistema, es decir si los k puntos que escogió están dentro de las regiones de tolerancia (definidas por el método de discretización) de su correspondiente punto de la contraseña. Entre los sistemas de este tipo, destaca por sus ventajas el sistema Pass Point [35].

El espacio de claves queda determinado por 3 parámetros, el tamaño de la imagen, el tamaño de la región de tolerancia, y el numero k de puntos de la contraseña. Para cada tamaño de imagen se pueden escoger el número de k puntos y el tamaño de la región de tolerancia de forma que la dimensión del espacio de contraseñas sea mayor que para una contraseña alfanumérica de k puntos.

2.3. LIMITACIONES DE LOS MÉTODOS DE DISCRETIZACIÓN

Durante la autenticación entre las principales limitaciones detectadas se encuentran:

Primera: La distancia entre el punto de la contraseña y el punto escogido para la autenticación se tiene en cuenta para autenticar o no al usuario, pero no se tiene en cuenta entre los usuarios autenticados. La autenticación no hace distinción entre los puntos dentro de la región de tolerancia y le da el mismo tratamiento a todos los puntos dentro de esta región. Este enfoque tiene una limitación pues contradice el comportamiento esperado para un usuario legítimo, del cual intuitivamente se espera que escoja con mayor frecuencia a los puntos más cercanos al punto legítimo de la contraseña. Sorpresivamente, no se han encontrado reportes donde se discuta esta limitación de la autenticación gráfica, la cual se investigará usando el modelo propuesto en este trabajo.

Segunda: Existen algunas parejas de puntos situados ambos a la misma distancia del punto de la contraseña, sin embargo, unos quedan dentro de la región de tolerancia y otros quedan fuera. Estos puntos serian igualmente aceptables para el usuario legítimo, sin embargo, la discretización les da un tratamiento diferente.

Tercera: Existen algunas parejas de puntos, tales que ambos están situados a diferentes distancias del punto de la contraseña, pero uno es interno a la región de tolerancia y el otro es externo. La limitación de la discretización consiste en que el punto que queda fuera de la región de tolerancia está más cerca del punto de la contraseña que el que queda adentro.

Las limitaciones segunda y tercera se deben a que la región de tolerancia es cuadrada mientras la distancia define un círculo, una solución podría ser definir una región de tolerancia circular [34], [36].

Cuarta: Cada una de estas discretizaciones conserva cierta información necesaria para repetir la discretización de la imagen en la fase de autenticación. Esa información es aprovechada para aumentar la efectividad de los ataques de diccionario [37], [38].

2.4. MODELOS PROBABILÍSTICOS DE CONTRASEÑAS GRÁFICAS

En contraseñas gráficas, no existen bases de datos de contraseñas disponibles en internet, pero aun así se han aplicado modelos probabilísticos [18-20]. Las características de la función P(s) han sido extraídas de tres fuentes principales, en primer lugar, de la propia imagen propuesta para la autenticación usando técnicas de segmentación de imágenes para detectar las regiones más probables. En segundo lugar, de la información aportada por el método de discretización y tercero de las características personales del usuario. Estos modelos son aplicados en ataques de diccionario, pero hasta donde sabemos, en ningún caso se aplica un modelo para cuantificar el grado de autenticidad del usuario.

En [18] se propone un modelo que para cada punto de la imagen calcula la probabilidad de que, en la fase de registro, ese punto sea seleccionado por el usuario legítimo como punto de la contraseña. Emplean segmentación de imágenes para detectar las regiones más probables. Es aplicable en ataques de diccionario y también para evaluar si una imagen es apropiada para ser usada en este tipo de autenticación.

En [19] a partir de la información en claro que el sistema guarda en el proceso de discretización, se construyen diccionarios de contraseñas más probables que permiten realizar ataques de diccionarios, altamente efectivos. En [20] se demuestra que existe correlación estadística entre las características personales del usuario (edad, sexo, etnia, educación, etc.) y los patrones existentes en la contraseña que el selecciona. Se propone una métrica para medir la fortaleza de las contraseñas, a partir de los patrones que ella contiene, sin conocimiento previo de la imagen, ni estudios estadísticos de contraseñas previas.

En conclusión, los sistemas de autenticación gráfica del tipo cued recall, clasifican a los usuarios que tratan de autenticarse en dos clases: usuario legítimo o usuario ilegítimo, pero no son capaces de diferenciar a los usuarios dentro de una de estas clases. El resultado de [25] para contraseñas alfanuméricas nos motivó a investigar la forma de definir para contraseñas gráficas una función P(S) que sea capaz de separar a los usuarios según su grado de legitimidad. Los resultados se muestran en el siguiente epígrafe y constituyen el aporte principal de este trabajo.

3. RESULTADOS Y DISCUSIÓN

3.1. NOTACIONES, HIPÓTESIS Y TRANSFORMACIÓN DEL ESTADÍGRA-FO DE VEROSIMILITUD

Se denotará por Im × n a la imagen, por S*=(s1*,,sk*)   Im × nk a la contraseña, formada por k puntos/pixeles, seleccionada por el usuario legítimo en la fase de registro y por S=(s1,,sk)   Im × nk a la contraseña, seleccionada por un usuario que trata de autenticarse y por P(S)=P(S=S*) a la probabilidad de que S= S*. Para simplificar el modelo, se asume que los k puntos de la contraseña S=(s1,,sk) son seleccionados de forma independiente. Bajo esta hipótesis de independencia el estadígrafo L=P(S)=P(S=S*)  de verosimilitud para S será:

L(S) = πi=1kP(si) =πi=1kP(si=si*) (1)

A la contraseña S=S* más probable le corresponde el máximo valor de L(S) (max S Im × nkL(S) ) en toda la imagen. Aplicando el logaritmo a la ecuación (1) el estadígrafo quedaría como:

L1(S)=logL(S)=logP(S)=i=1klogP(si) (2)

Por propiedades del logaritmo, L1(S) ) toma valores negativos. Para trabajar con valores enteros positivos, por razones de implementación, se selecciona una constante CL  N* y se aplicará la siguiente transformación lineal propuesta en (3).

(3)

La transformación  L2(S) es una línea recta con pendiente negativa, por tanto L2(S) es función decreciente de L1(S) tal como se presenta en (4):

(4)

Para S Im × nk  se obtiene  L2(S)   0, . . . ,CL . A la contraseña S más probable le corresponde el mínimo valor L2(S)=0 y a la menos probable el máximo valor L2(S)=CL>0 .

El problema al calcular  L2(S) para una contraseña S Im × nk se reduce a definir la forma de calcular la probabilidad P(si ) de cada punto si . Para simplificar las notaciones se omitirán los subíndices y se denotara por s* a un solo punto de la contraseña legítima, por s el correspondiente punto escogido por el usuario que intenta autenticarse, por d(s, s*) a la distancia entre s y s*  , y por P(s)=P(s=s*) la probabilidad P(s) de que s sea el punto s* de la contraseña legítima.

La distancia d(s, s*) es un parámetro decisivo en el proceso de autenticación, pero debido a que no se conocen bases de datos de contraseñas, ni se conoce el comportamiento experimental de esas distancias, se aplicará un enfoque axiomático. A partir de la forma de discretización y autenticación, se determinan las condiciones esenciales que debe cumplir P(s)=P(s=s*) y se buscarán analíticamente funciones P(s) que satisfagan estas condiciones.

3.2. MODELACIÓN PROBABILÍSTICA DE LA AUTENTICACIÓN EN LOS SISTEMAS DE AUTENTICACIÓN GRÁFICA CUED RECALL

Denotando por RT=RT(s*) a la región de tolerancia alrededor del punto s* y por |RT(s*)| a su cardinal, entonces el proceso de autenticación en estos sistemas puede modelarse mediante una distribución uniforme dentro de la región de tolerancia. La probabilidad P1(s) de que el usuario legítimo seleccione el punto s durante la autenticación puede definirse como:

P1(s)=P1(s=s* )={1|RT(s*)|,  s  RT (s*)0,  s   RT (s*) (5)

Este modelo refleja mediante la región RT(s*) el conocimiento del usuario legítimo sobre s* .

  • Si el usuario escoge un punto s  RT(s*) este modelo le asigna P1(s=s* )=0 , lo cual refleja la decisión del sistema de rechazar la autenticación.

  • El modelo asigna la misma probabilidad |RT(s*)| a cada punto dentro de esa región, sin distinguir entre ellos tal como hacen los sistemas de autenticación que representa.

Cada una de las |RT(s*)|k contraseñas formadas por k puntos seleccionados dentro de la región de tolerancia (admitiendo repetición de puntos) tiene probabilidad P1(S)=1|RT(s*)|k . La probabilidad de la región de tolerancia será:

P1(RT(s*))=S[RT (s *)] kP1 (S)=1 (6)

En resumen, una característica de la autenticación en estos sistemas y de este modelo asociado es que no tienen en cuenta las diferencias de los valores d(s, s*) dentro de RT(s*) . Esta característica constituye una limitación pues no refleja adecuadamente el comportamiento real del usuario legítimo, que se modela en el siguiente epígrafe.

3.3. MODELACIÓN DEL USUARIO LEGÍTIMO

Condiciones sobre P(s). Las condiciones 1 y 2 son las comunes a cualquier modelo probabilístico, para garantizar que P(s) sea una distribución de probabilidades sobre todos los puntos de la imagen.

Condición 1: P(s)  0 , para todo punto s de la imagen.

Condición 2: sP(s)= 1  sumando sobre todos los puntos s de la imagen.

Se espera que el usuario legítimo escoja puntos s tales que s  RT(s *) y que los valores de d(s, s*) sean pequeños. Para reflejar ese comportamiento se impone la condición 3.

Condición 3: P(s)=P(s=s*)= P(d(s, s*)) debe ser una función estrictamente decreciente de la distancia d(s, s*) , por lo cual

  • P(s) alcanza su máximo en d(s, s*)=0 , para s=s*

  • P(s) alcanza su mínimo dentro de RT(s*)  en aquellos s tal que d(s, s*)=max s RT (s * )  d(s, s*)

  • P(s) alcanza su mínimo dentro de Im × n en aquellos s tales que d(s, s*)=max s Im × n d(s, s* )

En los sistemas actuales un usuario es autenticado si y solo si todos los puntos escogidos por ese usuario caen dentro de sus respectivas zonas de tolerancia, por eso P1 (RT(s*)) = 1 . En la práctica un usuario legítimo pueda escoger por error un punto s cercano s* , pero s ∉ RT(s*)  fuera de la región de tolerancia.

Para flexibilizar el proceso de autenticación y admitir esta posibilidad se introduce en el modelo un parámetro ε tal que P(RT (s*)) = 1ε . Por otra parte, para que el sistema de autenticación sea efectivo el usuario legítimo debe ser autenticado con alta probabilidad, por tanto, la suma de las probabilidades de todos los puntos que pertenecen a la zona de tolerancia debe ser "muy alta", por lo cual se impone la condición 4:

Condición 4: P(RT (s*))= 1  ε , pero con ε  0, ε > 0. Teniendo en cuenta los k puntos de la contraseña la probabilidad de que el usuario legítimo sea autenticado será:

P[s  RT(s*)] = [1  ε] k (7)

La probabilidad de error de autenticación para el usuario legítimo será igual a: 1[1  ε] k , lo cual reafirma que el valor ε debe ser "suficientemente pequeño”. Se tuvo en cuenta la hipótesis de independencia entre los puntos y además se asumió que P(RT (s*))=1ε es la misma para los k puntos.

3.4. MODELO PROBABILÍSTICO DE AUTENTICACIÓN GRÁFICA

Se propone una nueva función P2(s)=P2(s=s*) que tendrá en cuenta no solo la región  RT(s*) , sino además la distancia d(s, s* ) dentro de esa región. Para cada punto s de la imagen se calcula utilizando la ecuación (8):

P2(s)={P(d(s,s*)),  s  RT (s*)εd(s,s*),  s   RT (s*) (8)

Tal que εd(s,s*) es función decreciente de d(s,s*) y además se cumple que s ∉ RT(s*) ε d(s,s* )=ε=1P(RT (s* )) . Basta hallar una función P(d(s,s*)) que cumpla las condiciones 3 y 4. Estas condiciones establecen que un pequeño grupo de las menores distancias  d(s,s*)  debe tener asignada muy alta probabilidad.

Interpretación geométrica de P2(s) . En la región correspondiente a los menores valores d(s,s* ) , tales que sRT(s*) , el área bajo la curva de la función buscada P2 (s) debe ser igual a  P(RT (s* ))=1ε1 , mientras que en la región s ∉ RT(s*) que contiene a la mayoría de los puntos s  I m×n , la distribución P2 (s) debe tener una cola estrecha y muy larga a la derecha, el área bajo esa cola debe ser ε0 . Estas propiedades de  P2 (s) orientarán su búsqueda.

Propuesta de P(d(s,s*)) . Se propone utilizar en este caso la función P(d(s,s*))= lnx con x  ]0, 1] , pues es conocido que es una función cóncava, estrictamente decreciente en el valor de x tomando muy altos valores para cuando x0 y valor 0 para x=1 .

Para aplicar esta función se debe definir su argumento x como función de d(s,s*) . Como  ln 1=0 , y lim X0ln x= , el valor x=1 debe asignársele a el punto s de la imagen más alejado de s* . Es decir, por la condición 3 y las propiedades de  ln x el argumento x = x(d(s, s*)) debe definirse de forma tal que:

x(d(s, s*))={1,  d(s,s*)=MaxD0,  d(s,s*)=0

Donde MaxD=maxsM I m×n  d(sM , s*) es la distancia entre  s*  y el punto sM  más lejano a  s* en toda la imagen (uno de los 4 vértices). Esta exigencia sobre x(d(s, s*))  sugiere de inmediato tomar x=d(s,s*) MaxD y garantiza que a la distancia máxima se le asigna el argumento x=1 donde el logaritmo toma valor cero, mientras a las distancias más pequeñas, cercanas a cero se le asigna un alto valor de  ln x , cumpliéndose así las condiciones 3 y 4 exigidas al modelo. El resultado anterior permite definir P(s) como:

P(s)=P(s=s*) = P(d(s, s*))= ln d(s,s*)MaxD (9)

Esta elección de P(s) cumple que:

  • P(sM )= P(d(sM ,s*))= lnd(s,s*)MaxD=lnMaxDMaxD=0 . , lo cual se corresponde con la condición 3.

  • Si s=s* , queda d(sM ,s*)=0 P(s*,s*)= ln0MaxD   por lo que el logaritmo se indefine. Este punto s=s* se debe ver como un punto de discontinuidad, al cual debe asignársele un alto valor de P(s) , este puede tomarse cercano o igual al de los puntos, ss* más cercanos a s* , donde d(s, s*)=1.

Para garantizar la condición P(RT (s*))=1ε es necesario ser capaces de aumentar a conveniencia la probabilidad de la región de tolerancia y para lograrlo se introduce en el modelo un parámetro Cε=C(ε) 1 , cuya selección apropiada contribuye cumplir la condición 4. Para los puntos dentro de la región de tolerancia se multiplicará la expresión (9) por este valor Cε . Finalmente, se definirá P2(s) como se plantea en (10):

(10)

Para garantizar las condiciones 1 y 2 basta con dividir entre la suma de los valores de P2(s) en toda la imagen:

P3(s)=P2(s) s Im × nP2(s) (11)

Comparación de P3(s) y P1(s) . La autenticación de estos sistemas se modela por P1(s) (ecuación 5), mientras que P3(s) (ecuación 11) por su forma de construcción modela con más exactitud el comportamiento esperado intuitivamente para el usuario legítimo, por esta razón se propone introducir  P3(s) en los sistemas de autenticación, lo cual se discutirá en el epígrafe 5.

Sobre el parámetro Cε .Para comprender la influencia del parámetro Cε , debe tenerse en cuenta que:

P2 (RT (s*))=sRT(s*)P2(s) (12)

Sustituyendo (10) en (12) se obtiene:

P2(s)=ln1MaxD*Cε         +ss*y sRT(s*)lnd(s,s*)MaxD*Cε (13)

Por lo tanto, si analizamos el comportamiento del parámetro Cε en la ecuación (13), si se aumenta el valor de   Cε , aumentará la probabilidad P3(RT(s*)) (ecuación 11) de la región de tolerancia y disminuye ε como se presenta en la ecuación (14).

ε=1 P3(RT (s*)) (14)

Una forma de aumentar la influencia del parámetro Cε , en la diferencia de las probabilidades dentro de la región de tolerancia es tomar también a Cε como una función decreciente de la distancia d(s, s*). Se propone emplear la ecuación (15).

Cε=C(d(s, s* ),α)=10αd(s,s*)2 (15)

Al aumentar el valor del parámetro α aumentan C(d(s, s* ),α) , P2(RT (s*)) ,  P3(RT (s*)) y disminuye el valor de ε. Esto permitirá aumentar a conveniencia en el modelo el valor de P3(RT (s*)) para ajustarlo a los observados experimentalmente. Esta opción se aplicará en los experimentos del siguiente epígrafe.

4. VALIDACIÓN EXPERIMENTAL DEL MODELO

Se comprobará que la expresión P3 (s) , satisface las condiciones 3 y 4 exigidas al modelo. La dimensión de la imagen empleada es 441 × 331 . Se utilizaron 2 tamaños de región de tolerancia 9 × 9 y 21 × 21 pixeles, por ser la más pequeña y mayor respectivamente, encontradas en la bibliografía consultada. Se utilizó la ecuación (15) para calcular Cε y se halló experimentalmente que para α = 5 se cumple que C(d(s, s* ),α) 1  y además ε  0, ε > 0 .

Las probabilidades como función decreciente de las distancias. Para s*= (50, 50) , se calculó P3 (s) para todos los puntos s de la imagen. La Figura 1 muestra la distribución P3 (s) obtenida, se observa que P3 (s)=P3(d(s, s*)) decrece al aumentar d(s, s*) , con una cola muy larga a la derecha. Ese comportamiento se mantiene al cambiar s* , lo que confirma que P3 (s*) satisface la condición 3.

Alta Probabilidad de la pequeña región de tolerancia. En una imagen de 441 × 331 , las regiones de tolerancia de 9 × 9 y 21 × 21 tienen según P3(RT (s) ) una alta probabilidad P3(RT (s*)) = 1  ε igual a 0.95 y 0.99 respectivamente, a pesar de que contienen solo un pequeño porcentaje de los puntos de la imagen). Los resultados se presentan en la Tabla 1, confirmando así que P3(s*) cumple la condición 4. En trabajos futuros se debe comparar estos valores teóricos de la probabilidad de RT, con valores observados en la práctica y modificar si es necesario las probabilidades teóricas (mediante los parámetros del modelo) para lograr un buen ajuste.

A partir de las probabilidades P3(s) calculadas mediante el modelo propuesto, se empleará el estadígrafo L2(S) de verosimilitud para medir el nivel de autenticidad del usuario que intenta autenticarse con la contraseña S.

Diseño del experimento. Se empleó una imagen de dimensión 441×331  pixeles, una región de tolerancia de 21×21  pixeles. Con contraseña S*= (s1* , . . . ,s5*) 1. Se realizaron en total 4000 intentos de autenticación divididos en 4 grupos (1000 intentos en cada grupo). Los grupos intentan modelar tipos de usuarios tales que el nivel de autenticidad es homogéneo dentro de cada grupo, pero difiere entre los grupos.

Figura 1 Probabilidades P3 (s) , eje Y , como función decreciente de las distancias d(s, s*) , eje X , en toda la imagen. 

Tabla 1 Porcentaje de puntos en la región de tolerancia y su probabilidad en una imagen de 441 × 331 

|RT (s*)| 9 × 9 21 × 21
|RT (s*)||I|m ×n 0,05 0,302
P3(RT (s*)) 0.95=1-0,05 0,99 = 1 − 0,01

El objetivo del experimento es comprobar si los valores de L2(S) son homogéneos dentro de los grupos (pequeña varianza) y difieren entre ellos (diferentes valores esperados) pues en ese caso L2(S) podría emplearse para reconocer a que grupo pertenece un usuario.

Grupo G1: La contraseña S=(s1 , . . . ,s5) propuesta por el usuario que intenta autenticarse está formada por 5 puntos dentro de la región de tolerancia que además estarán todos muy cercanos al punto correspondiente de la contraseña S* , en particular d(s, s*) 5 . Este grupo simula a un usuario legítimo, que recuerda muy bien su contraseña.

Grupo G2: Los 5 puntos S=(s1 , . . . ,s5) estarán dentro de la región de tolerancia pero lejos del punto correspondiente de la contraseña S* , a una distancia 5d(s, s*)10 . Simula a un usuario legítimo, que no recuerda muy bien su contraseña.

Grupo G3: Modelación de un usuario ilegítimo con más información, al menos uno de los puntos está dentro de la región de tolerancia, con una distancia tal que 5d(s, s*)10 , y los restantes puntos fuera de la región de tolerancia, pero cercana a ella, a una distancia 15d(s, s*)20 .

Grupo G4: Los 5 puntos seleccionados por el usuario que intenta autenticarse están siempre fuera de la zona de tolerancia de 21 × 21 pixeles, pero muy cercanos a ella, a una distancia 15d(s, s*)20 . Usuario ilegítimo, que posee alguna información sobre la contraseña.

En cada grupo, los pixeles de la contraseña se escogieron aleatoriamente dentro del rango de distancias que caracterizan al grupo. Los métodos actuales de autenticación gráfica, autenticarán a los usuarios de los grupos 1 y 2, pero sin distinguir la diferencia entre ellos, mientras rechazan a usuarios de grupos 3 y 4.

Se espera que para las contraseñas S=(s1 , . . . ,sk) , de los 4 grupos, anteriores, el modelo propuesto les asigne valores distinguibles del estadígrafo L2(S)=P(S)=πik P(si ) lo cual justificará su empleo como una métrica que permite cuantificar el nivel de autenticidad del usuario, reconociendo a cuál grupo pertenece.

Para que el modelo sea efectivo, se espera que los valores de L2(S) tengan un comportamiento creciente entre los grupos G1 , G2, G3, G4 en ese orden. Los resultados del experimento se muestran en la Figura 2 y la tabla 2.

Figura 2 Valores de L2(s) en los grupos G1, G2, G3, G4. 

Discusión de los resultados. Se observa que el estadígrafo L2(S) aporta información sobre la autenticidad del usuario. A menor valor de L2(S) , más cerca están los puntos propuestos por el usuario de los puntos de la contraseña y por tanto más confiabilidad existe sobre la autenticidad del usuario.

El valor de L2(S) logra distinguir claramente los 4 tipos de usuarios correspondientes a los grupos G1, G2, G3, G4. Como se esperaba, los usuarios legítimos que recuerdan muy bien su contraseña (G1), muestran los menores valores de L2(S) . Los grupos 3 y 4 de usuarios ilegítimos se distinguen claramente de los grupos 1 y 2 de usuarios legítimos.

El grupo G3, a pesar de tener algunos puntos dentro de la región de tolerancia, es reconocido correctamente por el modelo la casi totalidad de las veces como un usuario ilegítimo, se observan algunos caso en que se confunde con un usuario del grupo 2. Lo más importante a destacar es que los valores de L2(S) se diferencian entre los grupos 1 y 2, a pesar de que ambos son igualmente autenticados e indistinguibles para los sistemas actuales de autenticación gráfica.

Estos resultados experimentales validan la efectividad práctica del modelo para cuantificar el nivel de autenticidad de los usuarios, significa que el modelo propuesto permite diferenciar a los usuarios que son autenticados por el sistema, asignándoles diferentes grados de autenticidad y sugiere que tal vez el modelo pueda ser empleado para detectar los ataques de diccionario que realizan un pronóstico de la contraseña, lo cual es un aspecto que debe ser investigado. Los resultados ilustrados en la Figura 2 se resumen en la Figura 3 y en la Tabla 2.

Figura 3 Comportamiento de L2(s) en los grupos G1, G2, G3, G4. 

Tabla 2 Valores máximo y mínimo de L2(s) , con sus frecuencias por grupo 

Grupo Máximo L2(s) Frecuencia Mínimo L2(s) Frecuencia
G1 8201503 1 1602158 1
G2 11453131 1 8735939 1
G3 26546809 1 10252333 1
G4 27743039 1 27568825 1
Ui=14Gi 27743039 1 1602158 1

En la Figura 3 se observa que los valores esperados de L2(S) difieren entre los grupos, además se aprecian diferencias notables entre la magnitud de las varianzas, siendo el grupo 3 el de mayor varianza, ya que corresponde a un usuario con cierta información sobre la clave legítima, que escoge algunos puntos dentro y otros fuera de la región de tolerancia. Los valores de media y varianza permiten distinguir el comportamiento medio en cada grupo, lo cual justifica el empleo de L2(S) para reconocer a que grupo pertenece un usuario, es decir como una métrica para evaluar su nivel de autenticidad.

Estos resultados sugieren definir 3 umbrales y 4 regiones en las que se puede clasificar a los usuarios autenticados según su nivel de autenticidad, los cuales se presentan en la Tabla 3.

Tabla 3 Umbrales para los valores de L2(s)  

Región L2(s) Nivel de Autenticidad
R1 0 L2(s)<8201503 Alto
R2 8201503 L2(s)< 11453131 Medio
R3 11453131 L2(s)< 26546809 Bajo
R4 26546809L2(s) Muy bajo

Los usuarios de la región R4 corresponden a los no autenticados y las regiones R1, R2 y R3 a los autenticados, se propone investigar la forma de aprovechar este nuevo conocimiento sobre su nivel de autenticidad, por ejemplo, a los de la región R3 se les puede exigir alguna información adicional antes de autenticarlo. Se requieren nuevos experimentos con mayor número de muestras y diversidad de usuarios para evaluar con más exactitud el nivel de precisión alcanzado por el modelo y la conveniencia de redefinir los umbrales. Esta es una dirección de trabajo futuro.

5. INTRODUCCIÓN PRÁCTICA DEL MODELO EN LOS SISTEMAS DE AUTENTICACIÓN GRÁFICA

Para obtener P3(s)=P3(s=s*)=P3(d(s,s*)) , es importante destacar que se requiere conocer S*= (s1* , . . . ,sk*) y S=(s1 , . . . ,sk) para calcular d(s, s ∗ ). La contraseña S=(s1 , . . . ,sk) es introducida por el usuario, pero los sistemas de autenticación gráfica no guardan directamente el valor S*= (s1* , . . . ,sk*) , su desconocimiento parece impedir la introducción práctica del modelo.

La dificultad anterior puede resolverse, en algunos casos, teniendo en cuenta las propiedades de los métodos de discretización. En discretización centrada y optima, una vez que un usuario es autenticado, se puede calcular, a cada uno de los puntos si  de la contraseña S=(s1 , . . . ,sk) propuesta por este usuario, su celda de discretización. Por la forma en que se realiza la discretización, el centro de esta celda es el punto si* de la contraseña S*= (s1* , . . . ,sk*) . Conociendo si* y el punto s1  seleccionado por el usuario, se puede calcular d(si ,si*)  i = 1, . . . , k y se calcula la probabilidad P3(si*) asociada a esa distancia. Con las k probabilidades se calcula el estadígrafo L2(S) que permite valorar el nivel de autenticidad del usuario.

El enfoque anterior no es aplicable en discretización robusta pues no se pueden recobrar los k puntos de la contraseña. Se propone para futuros trabajos, desarrollar una aplicación para incluir este criterio en sistemas de autenticación gráfica que emplean discretización óptima o centrada.

6. CONCLUSIONES Y TRABAJO FUTURO

Se obtuvo un nuevo modelo probabilístico que permite distinguir/clasificar a los usuarios asignándoles una probabilidad P3(S) de que su contraseña S sea seleccionada por el usuario legítimo. Además se comprobó experimentalmente que el modelo cumple las condiciones esperadas para el usuario legítimo y que el estadígrafo propuesto es capaz de distinguir a los usuarios según su nivel de autenticidad.

A los usuarios autenticados con baja probabilidad de ser legítimos, se les puede solicitar una autenticación adicional lo cual aumentaría la seguridad del sistema de autenticación. Este modelo es aplicable on-line en los sistemas de autenticación que emplean discretización centrada y óptima. No puede ser empleado en los sistemas que emplean discretización robusta pues la información que requiere no está disponible y es necesario hallar la forma de hacerla accesible sin comprometer la seguridad del sistema.

Algunas direcciones de trabajos futuros son:

  • Desarrollar una aplicación que implemente el modelo y pueda incorporarse en sistemas de autenticación gráfica aumentando su seguridad.

  • Obtener valoraciones sobre la eficiencia de esta aplicación para evaluar la afectación a la usabilidad de los sistemas en que se utilice.

  • Evaluar el modelo en escenarios más complejos, por ejemplo, simulando a usuarios ilegítimos que tratan de pronosticar la contraseña por ataques de diccionarios, los cuales pueden llegar a tener varios puntos dentro de la región de tolerancia y hasta cerca del punto de la contraseña.

  • Caracterizar el comportamiento de L2(S) en esos nuevos escenarios y evaluar si puede detectar esos ataques.

  • Usar el modelo para calcular k distribuciones de probabilidades, una por cada punto de la contraseña y cada una definidas sobre todos los puntos de la imagen, considerando la dependencia entre los k puntos.

  • Explorar el empleo de otros tipos de funciones P(s) que cumplan las condiciones impuestas.

  • Cambiar el enfoque axiomático, para estimar la distribución a partir de muestras de las distancias d(s, sk* ) , en particular investigar el ajuste de la distribución de las distancias d(s, sk* ) para los usuarios legítimos, mediante alguna ley de potencia como la Ley de Zipf-Mandelbrot.

REFERENCIAS

1.  Burr W. E., Dodson D. F., Newton E. M., Perlner R. A., Polk W. T., Gupta S., and Nabbus E. A.. Electronic authentication guideline: Recommendations of the national Institute of Standards and Technology -. Technical report, U.S. Department of Commerce and National Institute of Standards and Technology, USA, 2012. [ Links ]

2.  Legón C.M., Navarro P.E.,. Borrego E.A, Rodríguez O., and Socorro R. Modelos probabilísticos de contraseñas alfanuméricas. In IV Seminario Científico Nacional de Criptografía. Universidad de la Habana, Noviembre 2018. [ Links ]

3.  Walkup E.. The password problem. Technical report, Sandia National Laboratories, Albuquerque, United States, 2016. [ Links ]

4.  Rodríguez O., Legón C.M., and Socorro R.. Seguridad y usabilidad de los esquemas y técnicas de autenticación gráfica. Revista Cubana de Ciencias Informáticas, 12(Especial UCIENCIA):13-27, Sept, 2018. [ Links ]

5.  Ma J., Yang W., Luo M., and Li N.. A study of probabilistic password models. In IEEE Symposium on Security and Privacy, 2014, 1: 689-704. [ Links ]

6.  Castelluccia C., DÃŒrmuth M., and Perito D.. Adaptive password-strength meters from markov models. In 19th Annual Network & Distributed System Security Symposium, 2012, San Diego, United States. [ Links ]

7.  Golla M. and DÃŒrmuth M.. On the accuracy of password strength meters. In Conference on Computer and Communications Security, 2018, Toronto, Canada. [ Links ]

8.  Weir M., Aggarwal S., de Medeiros B., and Glodek B., Password cracking using probabilistic contex-free grammars. In IEEE Symposium on Security and Privacy, 2009, pp. 391-405. [ Links ]

9.  HouGlodek B. and Aggarwal S.. Building better passwords using probabilistic techniques. In Proceedings of the 28th Annual Computer Security Applications Conference, 2012, pp. 109-118, New York, USA. [ Links ]

10.  Blocki J., Benjamin H., and Samson Z. On the economics of offline password cracking. In IEEE Symposium on Security and Privacy, 2018, 1: FALTAN PAGINAS. [ Links ]

11.  Malone D. and Maher K.. Investigating the distribution of password choices. In Proceedings of the 21st International Conference on World Wide Web, 2012, pp. 301-310, New York, NY, USA, [ Links ]

12.  Ding D., Haibom C., Wang P., Huang X., and Jian G., .Zipfs law in passwords. IEEE Transactions on Information Forensics and Security, 2017; 12(11):2776 - 2791. [ Links ]

13.  Wang D. and Wang P.. On the implications of zipfs law in passwords. In European Symposium on Research in Computer Security 2016, pp. 11-131. [ Links ]

14.  Malone D. and Maher K.. Investigating the distribution of password choices. WWW’12 Proceedings of the 21st14.  International Conference on World Wide Web, 2012, pp. 301-310, Lyon, France. [ Links ]

15.  Melicher W., Ur B., Segreti S.M., Komanduri S., Bauer L., Christin N., and Cranor L.F.. Fast, lean, and accurate: Modeling password guessability using neural networks. In Proceedings of the 25th USENIX Security Symposium,, 2016, pp. 10-12. [ Links ]

16.  Todd M.N. . An investigation of machine learning for password evaluation. Master’s thesis, Arizona State University, 2016. [ Links ]

17.  Chou H.C., Lee H.C., Yu H. J., Lai F.P., Huang K. H. , and Hsueh C. W.. Password cracking based on learned patterns from disclosed passwords. International Journal of Innovative Computing, Information and Control, 2013; 9(2):821-839. [ Links ]

18.  Dirik A.E. , Cranor L.F., and Birget J.C.. Modeling user choice in the passpoints graphical password scheme. In Proceedings of the 3rd Symposium on Usable Privacy and Security, 2007, pp. 20-28, New York, NY, USA. [ Links ]

19.  Zhu B., Wei D., Yang M., and Yan J.. Security implications of password discretization for click-based graphical passwords. In Proceedings of the 22nd International Conference on World Wide Web, 2013, pp. 1581-1591, New York, USA. [ Links ]

20.  Devlin M., Nurse J.R. , Hodges D., Goldsmith M., and Creese S.. Predicting graphical passwords. In Proceedings of the Third International Conference on Human Aspects of Information Security, Privacy, and Trust , 2015, 9190: 23-35, New York, NY, USA, Springer-Verlag New York, Inc. [ Links ]

21.  Biddle R., Chiasson S., and Van Oorschot P.C.. Graphical passwords: Learning from the first twelve years. ACM Computer Survey, 2012; 44(4):19:41. [ Links ]

22.  Shendage S. , Dhainje P., and Ramesh S.. Cued click points: Graphical password authentication technique for security. International Journal of Computer Science and Information Technologies, 2014, 5(2):1073-1075 [ Links ]

23.  de Carnavalet X.C. and Mannan M.. From very weak to very strong: Analyzing password-strength meters. In 21st Annual Network and Distributed System Security Symposium. The Internet Society, 2014, San Diego, CA, USA. [ Links ]

24.  Morales L.L. and Legón C.M.. Estimación de la fortaleza de las contraseñas. Technical report, Facultad de Ingeniería Informática. Universidad Tecnológica de la Habana, 2014, La Habana, Cuba. [ Links ]

25.  Toledo A., García M. , Legón C. M. and Morales J. L.. Caracterización de un atacante a sistemas de autenticación por contraseña. In Segurmática, 2014, La Habana, Cuba. [ Links ]

26.  Chrysanthou Y.. Modern password cracking: A hands-on approach to creating an optimised and versatile attack. Technical report, 2013, University of London. [ Links ]

27.  Shouling J., Shukun Y., Ting W., Changchang L., WeiHan L., and Raheem B.. Pars: A uniform and open-source password analysis and research system. In Proceedings of the 31st Annual Computer Security Applications Conference, 2015, pp. 321-330, New York, USA. [ Links ]

28.  Shaikh A., Pathan R. , Patel R., and S. Rukaiya S.. Implementation of authentication using graphical password cloud computing. International Research Journal of Engineering and Technology, 2018, 5(5):3293-3297 . [ Links ]

29.  Jue Min L., Yong Hao L., Huey Wen N., Soon Guan T., Li Ho Y., Azman A., and Siong Hoe L.. Comparison of graphical password using iso 9126. Advanced Science Letters, 2016, 4:400-407. [ Links ]

30.  ISO-9126 evaluation characteristics and guidlines for their use. J.C. Birget, D. Hong, and N Memon. Graphical pass-words based on robust discretization. IEEE Transactions on Information Forensics and Security , 1(3), Sep 2006. [ Links ]

31.  Birget J.C., Hong D., and Memon N. Graphical passwords based on robust discretization. IEEE Transactions on Information Forensics and Security , 2006,1(3):395-399. [ Links ]

32.  Chiasson S., Srinivasan J., Biddle R., and van Oorschot P.C.. Centered discretization with application to graphical passwords. In UPSEC’08 Proceedings of the 1st32.  Conference on Usability, Psycology, and Security,2008, San Francisco, CA, USA. [ Links ]

33.  Bicakci K.. Optimal Discretization for High-Entropy Graphical Passwords. T. PhD thesis, OBB University of Economics and Technology, Ankara, Turkey, 2007 [ Links ]

34.  Borrego E.B., Navarro P.E., and Legón C.M.. Debilidades de los métodos de discretización para contraseñas gráficas. In Instituto de Criptografía. Sociedad Cubana de Matemática y Computación., editor, IV Seminario Científico Nacional de Criptografía. Universidad de la Habana, 2018. [ Links ]

35.  Wiedenbeck S., Waters J., Birget J., Brodskiy A., and Memon N.. Passpoints: design and longitudinal evaluation of a graphical password system. International Journal of Human Computers Studies, 2005,63(1):102-127. [ Links ]

36.  Karmajit P. , Bhushan N., Prasad-Mishra D., and Priyadarsini-Satapathy P.. Cued-click point graphical password using circular tolerance to increase password space and persuasive features. In Proceedings of International Conference on Communication, Computing and Virtualization, 2016, 79:561 - 568. [ Links ]

37.  Bin B., Zhu D.W., Yang M., and Yan J.. Security implications of password discretization for click-based graphical passwords. In Proceedings of the 22nd37.  International Conference on World Wide Web, 2013, Rio de Janeiro, Brazil. [ Links ]

38.  Salehi-Abari S., Thorpe J., and van Oorschot P.C.. On purely automated attacks and click-based graphical password. Annual Computer Security Applications Conference, 2008, Anaheim, CA, USA. [ Links ]

39.  Freeman D., Jain S., Dürmuth M., Biggio B., and Giacinto G.. Who are you? A statistical approach to measuring user authenticity. In NDSS’16. The Internet Society, 2016, San Diego, CA, USA. [ Links ]

1 S*=((50; 50), (100; 00), (150; 150), (200; 200), (250; 250)

Recibido: 27 de Febrero de 2019; Aprobado: 30 de Junio de 2019

Carlos Miguel Legón, Licenciado en Matemáticas, Dr., Instituto de Criptografía, La Habana, Cuba. Sus principales intereses de investigación se encuentran en el área de seguridad informática. E-mail: clegon58@gmail.com

Raisa Socorro, Ingeniera Informática, Dra, Universidad Tecnológica de La Habana, La Habana, Cuba. Sus principales intereses de investigación se encuentran en el área de minería de datos y reconocimiento de patrones. E-mail: raisa@ceis.cujae.edu.cu

Pedro Navarro, Ingeniero Informático, Instituto de Criptografía, La Habana, Cuba. Sus principales intereses de investigación se encuentran en el área de seguridad informática. E-mail: pedropepe3437@gmail.com

Osviel Rodríguez, Ingeniero en Ciencias Informáticas, Universidad de Ciencias Informáticas, La Habana, Cuba. Sus principales intereses de investigación se encuentran en el área de seguridad informática. E-mail: osviel@uci.cu

Ernesto Borrego, Licenciado en Matemáticas, Instituto de Criptografía, La Habana, Cuba. Sus principales intereses de investigación se encuentran en el área de seguridad informática. E-mail: ernesto.borrego@matcom.uh.cu

Creative Commons License