Minería de Datos en Trading

¿Qué es la Minería de Datos?

La minería de datos o data mining es un proceso estadístico con el que se intenta descubrir patrones en grandes series de datos.

Para lograr esto, se utilizan modelos de inteligencia artificial (o inteligencia sintética), aprendizaje automático y estadística. Este concepto suele ser conocido por el público debido al aumento de popularidad de las redes neuronales (ANN) y máquinas de soporte vectorial (SVM).

Debido a esta reciente popularidad, el concepto de data mining no siempre está correctamente asociado a su verdadera naturaleza.

¿Qué es el Data Mining desde un punto de vista práctico?

Es el proceso de descubrimiento de patrones que no suelen ser visibles al ojo humano en series de grandes datos, como puede ser la detección de anomalías, algo que suele ser utilizado para detectar posibles fraudes con tarjetas de crédito entre otros usos diversos.

Normalmente este proceso tiene unas fases estándar que son utilizadas a la hora de resolver un problema con datos:

  1. Selección del set de datos.
  2. Análisis de las propiedades de los datos.
  3. Transformación de datos de entrada.
  4. Técnica de minería de datos.
  5. Modelo de conocimiento, patrones observados.
  6. Interpretación y evaluación de datos.

Minería de Datos para Trading Automático

En el campo financiero el concepto de data mining ha crecido en popularidad entre minoristas en los últimos años debido a la implementación de este por parte de grandes fondos de inversión.

Pese a su popularidad, es un terreno bastante opaco a la hora de buscar información sobre la aplicación de estas técnicas en los mercados financieros.

Como implica en su definición estas técnicas son utilizadas para extraer patrones en activos financieros los cuales no son fácilmente extraíbles por el ojo humano o por técnicas tradicionales. Es lo que llamamos trading inteligente

El trading inteligente tiene varias diferencias sobre el trading sistemático, aunque ambos están basados en el uso y análisis de datos. 

Cuando hablamos del aspecto sistemático suele ser propiciado por el análisis humano respecto a una característica, y normalmente suele estar realizado por alguien que entiende de trading, por lo que normalmente tendrá asociados un tipo determinado de sesgos. 

En técnicas de minería de datos no existe ningún tipo de sesgo, ya que la aplicación del modelo a emplear lo que hace es extraer una serie de características en base a su poder predictivo. 

Esta es la evolución natural del trading sistemático, como este último lo ha sido respecto al discrecional, en un entorno regentado por constantes cambios propiciados nuevas tecnologías, sean físicas o relacionadas al software.

Ley de Moore en la mejora de capacidad de computación

El aumento de la potencia de computación y el desarrollo de nuevos algoritmos de minado de datos son ejemplos de los cambios que afectan al mercado.

Debido a este aumento de capacidad, un equipo informático doméstico en la actualidad puede analizar una cantidad muy superior de datos respecto a un ser humano. Estudiando cientos de cálculos y características de series temporales.

 Datos alternativos, Minado de Datos y Entorno Profesional

Hay muchos motivos por los que en las finanzas institucionales las técnicas de minado de datos han ganado tanta popularidad, no es solamente la capacidad de computación la que ha propiciado el avance, también influye la cantidad de datos que nos rodea.

Hace treinta años, los datos disponibles no solo al público, si no a las instituciones, eran muchísimo menores, el auge de las tecnologías de comunicación, captación de imagen y sonido, sensores e incluso satélites, han creado una auténtica revolución.

Existen varios ejemplos, para poner en contexto esta situación, pero, hay uno que refleja muy bien la evolución de estos datos.

La empresa CME, casa de intercambio mercantil de Chicago, donde cotizan diversos futuros, entre ellos materias primas agrarias, publican reportes semanales sobre el estado de los cultivos, y de la mano con los pronósticos climáticos, se pueden realizar estimaciones sobre la oferta total de estos cultivos.

Actualmente, mediante imágenes de satélite proveídas por empresas externas, se puede observar el estado de estos cultivos a tiempo real para determinar la oferta de la materia prima aplicando estas técnicas de data mining.

Lo cierto es que no hace falta llegar tan lejos para obtener beneficios utilizando estas técnicas de data mining, pero muestra un punto interesante en relación a la teoría del mercado eficiente y la búsqueda incesante de generar alpha en un mercado altamente competitivo.

Técnicas de Minería de Datos para Trading

Bajo el objetivo de la obtención de nuevos patrones, utilizando dentro de la rama de inteligencia artificial el aprendizaje por máquina o Machine Learning existen ciertos caminos habituales a la hora de enfocar estas técnicas de aprendizaje.

Redes Neuronales (ANN)

Una de las más comunes y ya mencionadas son las redes neuronales artificiales.

Las redes neuronales artificiales, cuyo nombre viene de una vaga inspiración a su homólogo biológico, consiste en un conjunto de unidades llamadas neuronas artificiales.

Cuando hablamos de estas neuronas, están conectadas unas a otras y utilizarán los datos de entrada con un peso asignado, para comprobar de esta manera la validez de cada dato y su poder predictivo.

Funcionamiento de una Red Neuronal Artificial

Replicando a su contraparte biológica, estos sistemas aprenden por su cuenta, y se consideran técnicas de machine learning no supervisadas, dado que crearán desde cero un modelo ajustando todos los pesos de la información recibida para dar una solución.

Explicado de una forma sencilla, imaginemos que tenemos varios datos de un mercado financiero como podría ser Forex, tengo la cotización de un par y varios indicadores técnicos.

No tengo ni idea de cómo emplear estos datos, ya que una red neuronal artificial empieza sin conocimiento, lo único que sé, es que mi función objetivo será predecir cuándo subirá o bajará.

Entonces lo primero que haré será estudiar las variaciones de precio. ¿Ayudan a predecir? ¿Cuánto peso deberían tener? Una vez determinada su validez y utilidad continuaré.

Ahora voy con indicadores, ¿Junto al precio tienen validez? ¿Y solos? En base a eso ajustaré nuevos pesos a este concepto y los anteriores, es lo que se conoce como backpropagation. 

Conforme vaya conociendo el conjunto de mercado cada variable tiene mayor o menor importancia, y en base a eso estudiaré su comportamiento.

El resultado final será un modelo predictivo una vez sean estudiados de esta forma todos los datos implicados.

Máquinas de soporte vectorial (SVM)

Esta técnica de minado de datos, constituida por varios algoritmos de aprendizaje supervisado, nos ayudará a catalogar un problema, del cual, para su entrenamiento le hemos dado previamente la solución.

Las máquinas de soporte vectorial están ligadas a los problemas de clasificación y regresión.

Dado un conjunto de muestras para el entrenamiento del modelo, el cual estará dividido por clases, habitualmente conjuntos bajistas y conjuntos alcistas, nos ayudará a crear una catalogación para nuevas muestras no etiquetadas.

Es decir, este tipo de algoritmos necesitan una supervisión en su proceso de aprendizaje mediante la preparación de datos.

A la hora de enfocar el aprendizaje de estos datos, como ya hemos mentado, son dos las técnicas utilizadas, por un lado tenemos la clasificación.

Habitualmente, en una SVM será utilizada una clasificación lineal, la cual constituye una agrupación de todas las características presentadas (pesos) bajo su correspondiente formulación, para extraer un patrón del resultado final.

Y, por otro lado, usará los conceptos de regresión, una vez tenemos creada nuestra clasificación, este concepto nos será de utilidad para estudiar la relación entre la variable dependiente y aquellas con capacidad predictiva para establecer la clasificación del modelo.

De esta forma tenemos un conjunto de técnicas que nos permitirán clasificar instancias, extrayendo las variables que mayor poder predictivo tienen y realizando una clasificación y conjunto de estas.

Clasificadores

Dentro de las técnicas de clasificación tenemos incontables modelos, e incluso, como podemos ver, las máquinas de soporte vectorial incluyen a este concepto.

No obstante, cuando hablamos de clasificadores puros, nos referimos a instancias que nos ayuden a resolver un problema separando los datos más relevantes para su predicción.

Pongamos un ejemplo, no relacionado con el trading, pero que nos ayudará a entender este concepto de una forma simple.

Nos encontramos en los años noventa, y el problema del Correo No Deseado o Spam cada vez es mayor, los anunciantes, a falta de leyes que protejan los datos de los usuarios. A la hora de resolver este problema se propuso una de las soluciones más sencillas.

¿Usan la mayoría de correos no deseados las mismas palabras? Sí

¿Usan algún tipo de dirección especial? Sí

Entonces, en base a las palabras utilizadas dentro del mensaje, y según la dirección del destinatario, clasificaremos con ayuda de una muestra previa, creada por los usuarios.

Clasificación Naive Bayes – Fórmula

Recordad las cadenas de correo electrónico tan populares hace veinte años, “reenvía esta cadena a 10 contactos o algo muy malo te pasará”.

Posiblemente esta sea la única frase que no es mal sonante que sea clasificada como spam inmediatamente, y que, en todos los tipos de mensajes en cadena suele incluir, primera pista para ser catalogada como spam.

En base a estos conceptos descubrimos una clasificación bayesiana, catalogando las probabilidades de que, en base a las características de un objeto, sea spam o no.

¿Y qué tiene que ver esto con el trading?

Ahora que entendemos el concepto del Spam es muy sencillo explicar cómo funciona en trading. 

¿Qué características han acompañado a la subida de estos activos?

Imaginemos que tenemos 199 subidas, y en 165 de ellas están presentes la media móvil de 100 periodos y el indicador Awesome Oscillator.

Por ende, entenderemos que puede existir y debemos de comprobar si hay un poder predictivo en estos indicadores.

Este tipo de algoritmos son explicados en el campus de la Escuela de Trading Inteligente.

Cómo aplicar Minería de Datos a nuestro Trading

Lo cierto es que no existe una oferta amplia de software propietario a nivel minorista, y tampoco de librerías públicas a excepción de unas pocas, ya que este tipo de tecnología suele estar asociada a grandes operadores.

Desde Sistemas Inversores ofrecemos Alphadvisor como solución para la implementación de minería de datos en tu trading, en una solución todo-en-uno.

Desde la extracción de características relevantes hasta el uso de algoritmos propietarios de Machine Learning mediante el uso de Genbox.

La principal ventaja de utilizar un software como Alphadvisor es tener un entorno en el que podemos estudiar estas pautas sin abandonar el mismo software, además de tener distintos mecanismos para evitar la sobreoptimización de sistemas de trading.

De esta forma, tenemos una herramienta apta para el público, que combina varias técnicas de minería de datos para el trader minorista.

Espero que este artículo pueda ayudar a mejorar tu trading y hacerte descubrir el interesante mundo de la minería de datos.

Sistemas Inversores.

Deja un comentario