Archivos de la categoría ‘Datamining’

Os contábamos hace un par de semanas que Google estaría barajando la posibilidad de cifrar por completo todos los datos que sus usuarios almacenan en su servicio en su nube, Google Drive, con el objeto de recuperar un poco la confianza perdida tras el escándalo de PRISM y todo lo que ha coleado el asunto. Lo haga o no, ya existen servicios en la actualidad que se encargan de ello. Boxcryptor es uno bastante interesante.

Google Drive, SkyDrive, Dropbox y otras tantas nubes de usuario tienen un grave problema: no crifran los datos en lado del cliente, por lo que esos datos pueden ser accedidos por los técnicos de la compañía. Hay alternativas 100% seguras, como SpiderOak o Wuala, pero si ya tienes cuenta en alguno de los anteriores servicios o en varios de ellos a la vez, puedes sacarle provecho al a herramienta que te presentamos hoy. Aunque tiene sus limitaciones.

Tal y como indican en la página web de Boxcryptor, “Boxcryptor protege tus archivos en la nube que uses Dropbox, Google Drive, Microsoft SkyDrive, SugarSync, Box.net, o cualquier otro principal proveedor de almacenamiento en la nube. También es compatible con todas las nubes que utilizan el estándar WebDAV como Cubby, Strato HiDrive y ownCloud”. No solo eso, sino que permite gestionar cuantas cuentas quieras, siempre que pagues. He ahí, tal vez, su mayor hándicap, aunque es comprensible que su modelo de negocio sea por suscripción.

El cifrado que utiliza Boxcryptor es AES-256 y RSA, dispone de compartición de archivos de forma segura, aplicaciones para PC y dispositivos móviles, entre otras características. De manera gratuita Boxcryptor solo se puede utilizar con fines no comerciales, y solo es posible utilizar un único servicio a la vez.

http://jmgomezh…

Publicado: junio 23, 2013 en Datamining

http://jmgomezhidalgo.blogspot.com.es/2013/06/sample-code-for-text-indexing-with-weka.html

Sample Code for Text Indexing with WEKA
Following the example in which I demonstrated how to develop your own classifier in Java based on WEKA, I propose an additional example on how to index a collection of texts in you Java code. This post is inspired and supported by the WEKA “Use WEKA in your Java code” wiki page. http://jmgomezhidalgo.blogspot.com.es/2013/06/sample-code-for-text-indexing-with-weka.html

El imparable crecimiento de internet en el mundo, y la integración de los diversos sistemas informáticos conectados a la red de Internet han hecho que la Seguridad de la Información alcance un papel de suma importancia actualmente. Desde el momento en que un equipo (bien un ordenador, una tableta o un “smartphone”) se conecta a Internet, se abren toda una serie de posibilidades; sin embargo, éstas traen consigo nuevos y en ocasiones complejos tipos de ataques. Para que  las informaciones sean protegidas de acciones maliciosas, es necesario hacer uso de herramientas especializadas en la protección de datos e informaciones, como antivirus, antispam, firewall, IDS, IPS, balanceadores de cargas, control de accesos, sistemas criptográficos tipos VPN y entre otras. Un sistema que auxilia y automatiza la protección de las informaciones es el sistema de detección de intrusos (IDS) que  tiene como intensión de detectar el uso no autorizado, ataques en ordenadores o en redes de ordenadores. Sin embargo, algunas funcionalidades de esos sistemas son limitadas, tales como la detección, el análisis y la respuesta instantánea de un nuevo ataque (Zero day attack).
La aplicación de técnicas basadas en Inteligencia Artificial para la detección de intrusos (IDS) fundamentalmente las redes neuronales artificiales (ANN), están demostrando ser un enfoque muy adecuado para paliar muchos de los problemas que se dan en esta área. Sin embargo, gran volumen de información que se requiere cada día para entrenar estos sistemas, junto con la necesidad exponencial de tiempo que requieren para asimilarlos, dificulta enormemente su puesta en marcha en escenarios reales.
Ante esta situación me propuse diseñar un sistema capaz de detectar situaciones anómalas en la red, basado en modelos de inteligencia computacional e instrumento complementario para visualizar la estructura interior de un conjunto de datos asociados al tráfico de redes, se aplicarán diversas técnicas EPP (Exploratory Proyection Pursuit) como PCA (Principal Component Analysis), MLHL (Maximum Likelihood Hebbian Learning) y CMLH (Cooperative Maximum Likelihood Hebian Learning), para analizar la estructura interna del conjunto de datos y de este modo identificar comportamiento anómalos asociados a situaciones de riesgo en la red (CORCHADO, HERRERO, 2013).
 
       Una vez definida la propuesta: “modelos de inteligencia computacional aplicados al diseño e investigación de sistema de detección de intrusos”; procedí a la realización de la fase de experimentación y de análisis de los resultados, por tal motivo me centré en la fase de análisis, debido a que la mencionada experimentación está igualmente orientada hacia dicha cuestión. Para las mencionadas pruebas, el autor en lo posible ha tratado de considerar un escenario real donde nuestro análisis no sólo se centrará en conocidos puertos, protocolos, direcciones IPV4, etc. sino que analizaremos todo el tráfico de datos generados por la red (los datos capturados fueron de 6 semanas llegando acumular un aproximado de 600 gb de tráfico de red), en donde se han hecho un sin número de pruebas de ataques tanto internos como externos suplantando inclusive algunas IP de los equipos de la red (señuelos), pero el mayor énfasis de estas pruebas cayó en los ataques internos (localmente) en vista que con las pruebas realizadas hemos podido ver que muchos de estos ataques son más difíciles de detectar y se confunden dentro del tráfico normal de la red lo cual muchas veces pasan desapercibidas por el administrador de redes. En la séptima edición del informe anual de seguridad en entidades financieras realizado por Deloitte[84], en la que han participado más de 350 entidades financieras de todo el mundo, 19 de ellas españolas y que analiza el estado de estas compañías en materia de seguridad de la información; concluyen que los “ataques internos” y “las “fugas de información” son, por tanto los problemas más detectados en las entidades. Las proyecciones de PCA, MLHL y en especial la de CMLHL permiten identificar situaciones anómalas, muchas de estas situaciones dependiendo de dónde proceda el ataque tendrán una particularidad que se diferenciará al del tráfico normal pudiendo ser la concentración de paquetes, direcciones no paralelas, el distanciamiento que tienen con el conjunto de paquetes y muchas más particularidades que se reflejaron en la experimentación y análisis nos dan indicios de situaciones anómalas, lo cual nos permite su identificación.
          En la Figura 1.1 se puede apreciar el scatter plot generado por la PCA, enfrentando las m (número de neuronas de salida) primeras componentes (columnas) del conjunto de datos entre sí. Dicha visualización representa el tráfico normal de la red por un tiempo de 10 minutos.
Figura 1.1 Scatter Plot, del tráfico normal.
 

            En la Figura 1.2  apreciamos el tráfico normal de la red en 3 dimensiones.

Figura 1.2 Tráfico normal de la red en 3D.
 
      En la Figura 1.3 apreciamos la proyección PCA en 2 dimensiones, del segmento simple(S1) conteniendo situaciones no anómalas (tráfico normal de la red)
Figura 1.3 Visualización del Segmento  simple-S1.(PCA)
 
 
 
 
A continuación visualizaremos el segmento simple (S9), en total tienen una duración de 10 minutos aproximadamente, donde el tipo de ataque fue una denegación de servicio que consistió en la inundación de paquetes UDP flags por un tiempo de sólo 8 segundos. Apreciaremos la proyección 2D del  PCA, MLHL y CMLHL respectivamente. El tamaño de los paquetes, que son diferenciados con el color magenta (S9) del tráfico normal; vemos que toman un direccionamiento  continuo contrario al del tráfico normal y es debido a que dicho ataque es del tipo spoofing en la cual la identidad del atacante es suplantada por un sin número de direcciones IPs (direcciones no locales).
Figura 1.4  Visualización del Segmento simple-S9. (PCA)
 Figura 1.5  Visualización del Segmento simple-S9. (MLHL)
 
 
Figura 1.6  Visualización del Segmento simple-S9. (CMLHL)
         De todos los experimentos presentados anteriormente, se ha podido ver que los ataques realizados localmente muchas veces se confunden con el del tráfico normal, pero la dirección,  la dimensión y la localización de los paquetes las distinguen de lo normal. Así mismo aquellos ataques realizados desde el exterior de nuestra red son representados como líneas no paralelas a la dirección en la cual el tráfico normal se desarrolla. Por lo tanto no es fácil el establecer exactamente que ocurre en un momento dado; es en este preciso instante donde el análisis cumple un papel sumamente importante por tal motivo nos apoyamos en uno de los paradigmas del presente estudio, que es el estudio de casos (CBR), donde el análisis incorpora dos comportamientos diferentes que son: “aprendiendo” y la “explotación”.
      Los resultados del estudio de pruebas demuestran la capacidad de  generalización, porque muestra “el modelo visual” de ataques nuevos incluso si el modelo neuronal no ha afrontado tales ataques antes. Debería ser notado que los atacantes emplean estrategias muy diferentes para poder pasar inadvertidos en la red haciendo uso de diversas técnicas como: la extensión de los paquetes de ataque con el tiempo o reduciendo la cantidad de paquetes en un ataque, el empleo de señuelos, etc; harán que  se visualicen menos claramente dichos ataques, pero con el empleo del CMLHL se pueden identificar dichos ataques con mayor efectividad como ha sido mostrado en las figuras anteriormente mostradas.
         Comparando CMLHL con otros  modelos no supervisados, podemos concluir que PCA y MLHL en la identificación de situaciones anómalas son menos eficientes y eficaces. Por tal motivo CMLHL será el modelo a ser utilizado para próximos proyectos de investigación relacionados al campo de ID. Próximamente en: http://peromatech.com, https://peromatech.wordpress.com
referencias:
[1] CORCHADO, Emilio; HERRERO, Álvaro. RT-MOVICAB-IDS: Addressing real-time intrusion detection. Spain, 2013. University of Salamanca.
[2] Proyecto de tesis :Modelos de inteligencia computacional aplicados al diseño e investigación de detección de intrusos, Autor: Arthur Huamani Cuba, Bilbao -España