Descubrimiento de la anomalía

El descubrimiento de la anomalía, también mandado a como outlier descubrimiento se refiere al descubrimiento de modelos en un conjunto de datos dado que no se conforman con un comportamiento normal establecido.

Los modelos así descubiertos se llaman anomalías y a menudo traducen a la información crítica y procesable en varias esferas de aplicación. Las anomalías también se mandan a como outliers, cambio, desviación, sorpresa, aberrante, particularidad, intrusión, etc.

En particular en el contexto de abuso y descubrimiento de intrusión de la red, los objetos interesantes no son a menudo objetos raros, pero estallidos inesperados en la actividad. Este modelo no se adhiere a la definición estadística común de un outlier como un objeto raro, y muchos métodos de descubrimiento outlier (en métodos no supervisados particulares) fallarán en tales datos, a menos que se haya agregado apropiadamente. En cambio, un algoritmo de análisis del racimo puede ser capaz de descubrir los racimos micro formados por estos modelos.

Existen tres amplias categorías de técnicas de descubrimiento de la anomalía. Las técnicas de descubrimiento de la anomalía no supervisadas descubren anomalías en un juego de datos de las pruebas no marcado bajo la asunción que la mayoría de los casos en el conjunto de datos es normal buscando casos que parecen caber lo menos al resto del conjunto de datos. Las técnicas de descubrimiento de la anomalía supervisadas requieren un conjunto de datos que se ha marcado como "normal" y "anormal" e implica la formación un clasificador (la diferencia clave a muchos otros problemas de la clasificación estadísticos es la naturaleza desequilibrada inherente del descubrimiento outlier). Las técnicas de descubrimiento de la anomalía semisupervisadas construyen un modelo que representa el comportamiento normal de un conjunto de datos de formación normal dado, y luego prueba la probabilidad de un caso de prueba para ser generado por el modelo aprendido.

Aplicaciones

El descubrimiento de la anomalía es aplicable en una variedad de esferas, como descubrimiento de intrusión, descubrimiento de fraude, descubrimiento de la falta, escucha de la salud del sistema, descubrimiento del acontecimiento en redes del sensor y descubrimiento de perturbaciones del ecosistema. A menudo se usa en el proceso previo para quitar datos anómalos del dataset. En el aprendizaje supervisado, quitando los datos anómalos del dataset a menudo causa un aumento según las estadísticas significativo de la exactitud.

Técnicas populares

Varias técnicas de descubrimiento de la anomalía se han propuesto en la literatura. Algunas técnicas populares son:

Aplicación a seguridad de los datos

El descubrimiento de la anomalía fue propuesto para Sistemas de descubrimiento de intrusión (IDS) por Dorothy Denning en 1986. El descubrimiento de la anomalía para IDS normalmente se lleva a cabo con umbrales y estadística, pero también se puede hacer con informática Suave y aprendizaje inductivo. Los tipos de la estadística propuesta hacia 1999 incluyeron perfiles de usuarios, estaciones de trabajo, redes, anfitriones remotos, grupos de usuarios y programas basados en frecuencias, medios, desacuerdos, covariancias y desviaciones estándares. El equivalente del descubrimiento de la Anomalía en el descubrimiento de Intrusión es el Descubrimiento del Mal uso.

Serie de tiempo descubrimiento de Outlier

Las pruebas paramétricas para encontrar outliers en la serie de tiempo se ponen en práctica en casi todos los paquetes estadísticos: Demetra +, por ejemplo, usa más popular.

Una manera de descubrir anomalías en la serie de tiempo es un simple no método paramétrico llamado la arandela.

Usa un no prueba paramétrica para encontrar uno o varios outliers en un grupo de hasta serie del muy poco tiempo. El grupo debe tener un comportamiento similar, como explicado más totalmente abajo. Un ejemplo es el de municipatities citados con el trabajo de Dahlberg y Johanssen (2000).. Los gastos de municipalidades suecos entre 1979 y 1987 representan 256 series de tiempo. Si considera tres años tal como, por ejemplo, 1981,1982 y 1983, tiene 256 cadenas polygonal simples hechas de dos segmentos de líneas. Cada pareja del segmento puede acercarse una línea recta o un hacia abajo convexo (o convexo ascendente) cadena polygonal simple. La idea es encontrar outliers entre las parejas de segmentos que funciona de demasiado modo diferente de las otras parejas. En el procedimiento de la arandela cada pareja de segmentos es representada por un índice y un no la prueba paramétrica (prueba de Sprent) se aplica a la distribución desconocida de aquellos índices.

Para poner en práctica la metodología de la arandela puede descargar una fuente abierta R (lenguaje de programación) función con un ejemplo numérico simple.

Véase también



Buscar