Los primeros 20 años de este siglo, se enfocaron en desarrollar tecnologías para administración y utilización de información estructurada
¡Información que suele estar en bases de datos relacionales, se diferencias las variables de las unidades de análisis, en otras palabras, información que típicamente analizamos en Excel!
Entramos a la década de los datos no estructurados, aquellos como videos, imágenes, sonidos y textos. Parte importante de esta información proviene de seres humanos escribiendo o hablando, es decir usando el lenguaje.
Desde la psicología del consumidor, el lenguaje es la forma más eficiente para acceder a los pensamientos y procesos internos del ser humano. Es con el lenguaje como podemos detectar tensiones inconscientes y necesidades no resueltas que desde marketing podemos cubrir con estrategia de producto, comunicación y servicio.
Desde la antropología del consumo, el lenguaje es un vehículo para trasmitir la cultura. Mediante el lenguaje se crean mitos y ritos que condicionan hábitos y ocasiones de consumo.
Desde la semiótica, el lenguaje es un sistema de signos que adquieren significado dependiendo del contexto y condicionan la forma de pensar e interpretar la realidad. Las marcas pueden lograr una mayor adopción de mensaje en el consumidor si se enfocan en usar caminos semióticos ya establecidos, orgánicamente en su mente.
La producción de texto ha crecido cerca de un 78% en redes sociales, blogs, noticias, referencias, comentarios de usuarios en comercios electrónicos, chats entre otros. Detrás de esta información existen enormes aprendizajes y ventajas competitivas ocultas.
De unos 10 años a la fecha, se ha fortalecido una disciplina denominada Procesamiento de Lenguaje Natural o NLP por sus siglas en inglés. Se trata de un esfuerzo conjunto entre la lingüística, las ciencias computacionales y la estadística para crear modelos que permitan a las maquinas entender, procesar y producir lenguaje.
Un proyecto de NLP requiere un proceso científico con los siguientes pasos:
Análisis textual:
- Parsing: Tomar los textos y fragmentarlos en sus unidades sintácticas y semánticas. Separando el texto entre verbos, adverbios, entidades etc.
- Filtring: Consiste en eliminar aquellas unidades de texto que no aportan al significado global. Se cuantifica el texto en función de su probabilidad de aparición eliminando aquellos textos de baja probabilidad.
Análisis contextual:
- Secuencia: El texto tiene significado en función del contexto, este se detecta en función de la secuencia de las palabras. En un mar de textos, detectar secuencias probables es el primer paso para crear contexto.
- Lógica de predicados: Usar las reglas del lenguaje para darle complemento a los verbos es clave en la dinámica de entender el
Modelamiento
5. Aprendizaje no supervisado: Clasificar textos según su similaridad, estilística y narrativa.
6. Aprendizaje supervisado: Encontrar los elementos comunes entre diferentes grupos de textos, diferenciar entre autores, temas, momentos de tiempo etc.