Te contamos cómo avanza internet

Leemos mucho para seguir aprendiendo y aquí lo compartimos contigo.

¿QUÉ ES EL NLP?
03 Nov 2020 03 Nov

¿QUÉ ES EL NLP?

03 Nov 2020 03 Nov

En esta serie de artículos presentaremos diferentes casos de uso de NLP en diversos sectores, como el sector de seguros, el sector salud o el sector industrial. Pero antes de presentar los casos prácticos dedicaremos el primer artículo a realizar una introducción sobre el NLP para entender un poco mejor qué es y cuál es la situación dentro del campo.

El Procesamiento del Lenguaje Natural o NLP (de sus siglas en inglés, Natural Language Processing) es el campo de las ciencias de computación y de la lingüística que estudia las interacciones entre las máquinas y nuestro lenguaje. Aunque quizás muchos no hayáis oído hablar de él, las tecnologías basadas en modelos de NLP están entre nosotros en nuestro día a día. Por ejemplo el traductor de Google, la escritura predictiva de Gmail, los filtros de Spam de los correos o los asistentes virtuales como Siri, Alexa o Google Home hacen uso de ellos.

La idea detrás del NLP es simple: hacer que una computadora entienda lenguaje natural y sea capaz de realizar tareas que realizaría una persona entendiendo ese lenguaje. En la práctica resulta un poco más complicado, ya que como veremos a continuación, las computadoras trabajan con números, y comprender frases mediante esos números no es tan simple.

Los primeros modelos de NLP estaban basados en reglas, así, por ejemplo, si una frase contenía palabras como “buena”, “estupenda”, etc. podríamos clasificarla como frase “positiva”. En cambio, si contenía palabras como “mala”, “horrible”, etc. la clasificaríamos como “negativa”. Como podréis intuir estos modelos tienen muchas limitaciones, ya que tendremos que programar a mano todas las opciones, las posibles negaciones en frases y demás. 

Los modelos más avanzados en la actualidad son los basados en Machine Learning y Deep Learning. En estos dos casos los modelos aprenden automáticamente de los ejemplos que les damos para aprender, es decir, solo tendríamos que dar al modelo 1000 ejemplos de frases positivas y otros 1000 de negativas, y el modelo aprendería a clasificar frases positivas y negativas “automáticamente”. El problema con estos modelos es el mencionado al inicio de este post, esto es, que al ser modelos matemáticos, necesitamos introducirles números, no letras.

Estos dos enfoques se enmarcan dentro de los dos tipos de aproximaciones de la Ciencia de Datos. Top-Down serían los primeros basados en conocimiento y reglas aplicadas al dato y Bottom-up serían los segundos que ya son generados por el propio dato y se enmarcan dentro de los modelos conocidos como “data driven”.

Como algunos habréis apreciado, estos últimos modelos data driven basados en la aproximación bottom-up que aprenden automáticamente de los datos existentes tienen la ventaja de que no hay que programar miles de reglas complejas, aunque sí que es necesario preparar ejemplos de los diferentes casos que queremos clasificar. Sin embargo, aunque parezca una tarea más simple, la selección de los datos a utilizar como su preparación es clave para evitar sesgos o discriminación por parte de los sistemas que aprenden de los mismos.

Basados en este enfoque, en los últimos dos años el campo de los modelos de machine learning y especialmente del Deep Learning han revolucionado la capacidad de los sistemas NLP de tal forma que ya no es únicamente más accesible generar estos modelos, sino que además apenas se necesitan ejemplos para aprender (few-shot learning) o ni siquiera necesitemos ejemplos (zero-shot learning). Todo ello gracias a los modelos pre-entrenados que se conocen como modelos de lenguaje. Estos modelos son entrenados por grandes corporaciones (Google, Facebook, OpenAI) que disponen de ingentes cantidad de datos y capacidad de computación, por lo que los modelos que generan difícilmente se podrían generar por pequeñas y medianas empresas. De esta forma, estos modelos de lenguaje nos permiten tener modelos de NLP muy avanzados con los que podemos trabajar directamente sin necesidad de realizar ningún entrenamiento previo (zero-shot learning) o realizando un entrenamiento adicional con pocos ejemplos para adecuarlo a nuestro campo de aplicación (few-shot learning).

Todo esto quiere decir que podemos, por ejemplo, clasificar texto en las diferentes categorías que queramos sin antes haber enseñado al modelo ni un solo ejemplo. Estos modelos pre-entrenados o modelos de lenguaje están suponiendo una revolución en el campo del NLP y su implantación en diferentes sectores gracias a su impacto, su potencial y su implicación de reducción de costes de desarrollo, validación y puesta en producción.

En Datu(a) Smart Digital ponemos el dato al servicio del negocio, prestando servicios integrales de Big Data Analytics & Data Science enfocado al tratamiento y análisis de datos mediante técnicas de Data Mining, Text Mining, Machine Learning e Inteligencia Artificial. Formamos parte de Merkatu Group, y desde Datu(a), acompañamos a nuestros clientes en sus procesos de transformación digital relacionados con la explotación y obtención de valor a partir de sus datos.

Si quieres saber más de cómo estas nuevas tecnologías pueden ayudar a tu empresa no dudes en ponerte en contacto con nosotros, estaremos encantados de atenderte y asesorarte.

 

Comparte este contenido

Dejanos tu opinión

Security code Refresh

Certificados como:

Nuestros partners:

Súbete a la ola de la Transformación Digital
Recibe las últimas novedades en tu email y no navegues a contracorriente.
No es un email valido
Acepte los terminos
Entrada no válida
 
¿Necesitas nuestra ayuda?
Déjanos tu número de teléfono y nosotros te llamamos.
Número de teléfono no válido
Entrada no válida
Acepte los terminos

Copyright © 2016 Merkatu Interactiva S.L.