- Rocket Letter
- Posts
- Aplicación de LLM, más allá de la caja negra
Aplicación de LLM, más allá de la caja negra
Una vistazo a la tecnología que hay por dentro y la aplicación de IA hoy.
Gran día! 🚀
Gran día para aprender sobre todo eso llamado IA y LLM, queda claro que sale demasiada información todos los días y esto es en parte del porqué del éxito de ChatGPT, dotado con la capacidad de sintetizar muchísima información en segundos, ahorrándonos horas de infelicidad frente a una pantalla en muchos casos. Seguro oíste también de Grandes Modelos Leguaje (LLM), ahora Modelos Multimodales, Inteligencia Artificial (IA) y todo tipo de tecnologías asociadas a estas.
Muy bien.
Este Newsletter nace con el objetivo de facilitar el entendimiento de nuevas tecnologías para su correcta aplicación en diferentes áreas de negocio. Desde las entrañas de los modelos hasta el Business Case.
Hoy desciframos los LLM y algunas de sus aplicaciones más relevantes. Primero, es crucial entender algunos conceptos clave:
No pases de frente, leer estos breves conceptos te ayudará a entender el mundo que se está construyendo.
IA: es la capacidad de una máquina de imitar la inteligencia humana, y es también un modelo matemático/estadístico entrenado con datos.
Entrenamiento: el entrenamiento de un modelo hace referencia al proceso mediante el cual un modelo aprende de los datos.
Entrenamiento autosupervisado: en modelos de lenguaje implica la tarea de predecir partes de un texto a partir de otras, de modo que ya no se requiere una etiqueta que indique por ejemplo el sentido del texto.
Dot CSV
Hiperparámetros: estas son variables de entrada del modelo que pueden cambiar su comportamiento, se ajustan de acuerdo al objetivo de predicción.
LLM: es un tipo de IA entrenada para entender el lenguaje natural humano y generar respuestas a partir de esto. Se entrenan con enormes cantidades de texto. ChatGTP y Bard son LLMs.
IA generativa: un tipo de IA capaz de generar contenido: texto, código, imágenes, videos, etc. Todos los LLM son IAs generativas.
Modelos multimodales: modelos capaces de entender y producir respuestas de distintos tipos: texto, imágenes, audio, video, .
Prompt: entrada de texto para dar instrucciones a un LLM.
Fenomenal, estamos a un paso de entender el presente y futuro, continuemos…
¿Qué es un LLM?
Un LLM es la aplicación específica de un modelo base, el modelo base es pre entrenado de forma auto supervisada con un gran número de datos no etiquetados. Esto significa que el modelo base aprende patrones de los datos para producir respuestas genéricas y adaptables. Con esto el modelo puede codificar o escribir.
Cuando hablamos de Grandes Modelos de Lenguaje es porque estos pueden pesar decenas de GBs, se entrenan con enormes cantidades de datos y tienen muchos parámetros que permiten el aprendizaje del modelo.
GPT3 fue entrenado con 45 TBs, lo que son 45 mil de GBs, es un modelo con 175 mil millones de parámetros.
¿Cómo funciona un LLM?
Podemos pensar en un LLM como la suma de 3 partes:
IBM Technology/Flaticon
Ya hablamos de los datos anteriormente, y de la enorme cantidad que se requiere para entrenar un LLM.
Veamos la arquitectura, un LLM tiene varias partes, desde capas que transforman el texto a números para ser procesables matemáticamente hasta redes neuronales capaces de capturar patrones en el texto. Pero, la parte más importante son los conocidos TRANSFORMERS, redes neuronales que permiten procesar secuencias de datos como oraciones o código, diferente a como se procesaba antes, palabra por palabra. Estás redes neuronales fueron diseñadas para entender el contexto de cada palabra en una oración, esto lo hace puntuando las relaciones entre palabra y palabra en la oración.
StatQuest
Con esto el modelo construye un entendimiento de la estructura de la oración y del significado de cada palabra dentro de ella.
En el entrenamiento el modelo aprende a predecir la siguiente palabra en una oración, ajustando sus parámetros para reducir la diferencia entre lo que predice y la verdadera palabra, forma que termina produciendo oraciones coherentes.
Bing
En este proceso el modelo termina aprendiendo más que solo a predicir la siguiente palabra. Aprende a a realizar todo tipo de tareas relacionadas con los datos con los que se entenó, no es preciso, pero adquiere un conocimieto general.
Ahora, el modelo puede ser afinado (Fine Tuning) con una base de datos más pequeña y específica, y es en esta etapa que el modelo refina su entendimiento para ejecutar una tarea específica de forma más precisa.
Aplicación en los negocios
Llegamos al final, no somos nada sin aplicación y por eso te traigo un gran set de aplicaciones específicas de LLM a negocios y de IA en general aplicada a diferentes sectores.
Increíble, lo logramos, con esto ya tenemos una base para hablar de IA y LLMs.
Gracias por leer, espera mucho más pronto 😎.
Reply