Computación en la Nube

Conceptos básicos de IA

Tres personajes del elenco frente a una pantalla CRT con tokens flotando

Esta unidad sale del territorio estricto de infraestructura para mirar de cerca al gran consumidor actual de esa infraestructura: la inteligencia artificial generativa. Vamos a ordenar el vocabulario que circula desordenado en cualquier conversación sobre IA, bajar al detalle técnico de cómo funcionan los modelos grandes de lenguaje, repasar a los tres laboratorios que dominan el mercado occidental y terminar con los modelos de negocio que están naciendo alrededor de todo esto. La motivación, además, es práctica: hoy una parte enorme del cómputo en la nube se va a entrenar e inferir modelos de IA, y entender el vocabulario es la mitad del trabajo para entender la economía.

1. La pirámide conceptual

En la conversación pública los términos inteligencia artificial, machine learning, deep learning y LLM suelen usarse como sinónimos, pero describen niveles distintos de una misma jerarquía. La forma más limpia de ordenarlos es como círculos concéntricos: el de afuera contiene a todos los demás, y cada uno hacia adentro es un subconjunto más específico del anterior. Tenerlos separados ayuda a discutir con precisión: no toda IA es machine learning, no todo ML es deep learning, y no todo deep learning produce un LLM.

En el círculo más amplio está la Inteligencia Artificial (IA): todo el campo que estudia cómo construir sistemas que realicen tareas asociadas a la inteligencia humana, ya sea razonar, percibir o decidir. Un motor de ajedrez basado en reglas y un asistente conversacional moderno son ambos IA, pero técnicamente tienen muy poco en común. Adentro de IA aparece el Machine Learning (ML), que es el subconjunto donde el sistema aprende patrones a partir de datos en lugar de seguir reglas escritas a mano. Adentro de ML está el Deep Learning (DL), que es el ML basado en redes neuronales con muchas capas —de ahí lo de "profundo"—. Y dentro del DL aparece la familia de los modelos generativos, una aplicación específica del DL enfocada en producir contenido nuevo: texto, imágenes, audio, código. Los LLMs (large language models) son la variante de modelos generativos especializada en texto.

Concepto clave

IA > ML > DL > LLMs: una jerarquía de subconjuntos, no de sinónimos.

Analogía didáctica

La IA es como la medicina; el ML es como la cardiología; el deep learning es una técnica quirúrgica específica; los LLMs son una operación particular que aprendiste a hacer. Permite mostrar que un médico no es necesariamente cardiólogo, y un cardiólogo no necesariamente opera.

Cómo se relacionan los niveles

IACampo amplio, incluye sistemas basados en reglas y en aprendizaje.

MLSubconjunto de IA donde el sistema aprende patrones de datos.

DLSubconjunto del ML basado en redes neuronales con muchas capas.

LLMsAplicación del DL para generar texto nuevo a partir de un prompt.

Para tener en cuenta

Confundir los niveles lleva a discusiones torcidas: "¿esto es IA?" suele ser una pregunta mal planteada; mejor preguntar a qué nivel pertenece.
Existen sistemas de IA que no son ML (motores de reglas) y sistemas de ML que no son DL (regresión lineal, árboles de decisión).

Personaje del elenco vestido de profesor explicando una jerarquía de círculos concéntricos graduados

2. Tipos de aprendizaje

Dentro del machine learning hay varias maneras de que un modelo aprenda, y cada una se elige según qué tipo de datos tenemos y qué problema queremos resolver. La división clásica reconoce cuatro grandes familias: aprendizaje supervisado, no supervisado, por refuerzo y, más recientemente, auto-supervisado. Esta última categoría es relativamente nueva en el discurso público y es, sin embargo, la que sostiene a los LLMs modernos.

En el aprendizaje supervisado entrenamos al modelo con pares input → output conocidos. Un clasificador de spam recibe miles de mails ya etiquetados como "spam" o "no spam" y aprende a generalizar. Lo mismo ocurre con un clasificador de imágenes médicas que aprende a separar tumores malignos de benignos a partir de un conjunto de imágenes etiquetadas por médicos. El costo principal acá es el etiquetado: necesita personas (o procesos) que digan cuál es la respuesta correcta para cada ejemplo.

En el aprendizaje no supervisado el modelo encuentra estructura en datos sin etiquetas. Lo típico es la segmentación de clientes —agrupar usuarios por comportamiento similar sin decirle al modelo qué grupos esperar— y la detección de anomalías, donde el sistema aprende qué es "normal" y marca lo que se desvía. Es la herramienta natural cuando no sabemos a priori qué buscar.

El aprendizaje por refuerzo entrena al modelo a través de recompensas. El agente toma una acción, recibe una señal positiva o negativa, y ajusta su política. AlphaGo aprendió a jugar Go ganando y perdiendo partidas contra sí mismo; los robots de control aprenden a caminar cayéndose miles de veces. En los LLMs aparece bajo la sigla RLHF (reinforcement learning from human feedback), donde humanos puntúan respuestas del modelo y ese feedback se usa para refinarlo después del pre-entrenamiento.

Finalmente, el aprendizaje auto-supervisado es el truco central del pre-entrenamiento de los LLMs modernos: el modelo genera sus propias etiquetas a partir de los datos crudos. La tarea típica es "predecir la siguiente palabra de un texto dado el contexto anterior". Internet entera es el conjunto de entrenamiento, y la etiqueta de cada fragmento es, literalmente, la palabra que aparece a continuación. No requiere etiquetadores humanos, lo que permite escalar a billones de palabras de manera viable.

Los cuatro tipos de aprendizaje, lado a lado

Supervisado

Datos etiquetados (input → output conocido).
Ejemplos: detección de spam, clasificación de imágenes médicas.
Caro: el etiquetado humano no escala bien.

No supervisado

Encuentra estructura sin etiquetas.
Ejemplos: segmentación de clientes, detección de anomalías.
Difícil de evaluar: ¿el clúster encontrado es útil?

Por refuerzo

Aprende por recompensas tras cada acción.
Ejemplos: AlphaGo, robots, RLHF en LLMs.
Diseñar la función de recompensa es la parte difícil.

Auto-supervisado

El modelo genera sus propias etiquetas (predecir la siguiente palabra).
Ejemplos: pre-entrenamiento de GPT, Claude, Gemini.
Requiere cantidades masivas de datos y cómputo.

3. Conceptos clave para entender LLMs

Si vas a leer documentación, papers o pricing pages de modelos de lenguaje, hay un puñado de términos que aparecen una y otra vez. Vale dedicarles dos párrafos a cada uno: con esos siete u ocho conceptos ya podés conversar técnicamente sobre cualquier LLM moderno y entender por qué cuesta lo que cuesta.

Un token es la unidad mínima que procesa el modelo. No es exactamente una palabra: puede ser una sílaba, un signo de puntuación o una secuencia de caracteres frecuente. Como regla práctica, 1.000 tokens equivalen aproximadamente a 750 palabras en inglés; en español la proporción es algo peor por la riqueza morfológica del idioma, alrededor de 600 palabras por 1.000 tokens. Todo se factura en tokens —entrada y salida— y todos los límites del modelo se expresan en tokens, así que conviene tener la noción internalizada.

Los parámetros son los pesos numéricos que componen la red neuronal. Más parámetros generalmente implican más capacidad pero también más costo de entrenamiento e inferencia. Los modelos frontera actuales tienen cientos de miles de millones (e incluso billones) de parámetros; cada uno es un número flotante, así que el solo hecho de cargar uno de estos modelos en memoria requiere terabytes de RAM repartidos en clústeres de GPUs o TPUs.

La ventana de contexto (context window) es la cantidad máxima de tokens que el modelo puede "ver" simultáneamente: incluye el prompt del usuario, las instrucciones del sistema, el historial de la conversación y la respuesta que está generando. Hoy los modelos top manejan entre 200.000 y 2.000.000 de tokens, lo que permite poner libros enteros o repositorios completos como contexto antes de hacer una pregunta.

Una distinción central a la hora de pensar costos es la de inferencia versus entrenamiento. Entrenar un modelo frontera cuesta decenas o cientos de millones de dólares y consume meses de cómputo en clústeres dedicados. Ejecutarlo después —responder a un prompt, lo que se llama inferencia— cuesta fracciones de centavo por consulta. Esta asimetría es la clave para entender los modelos de negocio: quien entrena modelos juega un juego de capital intensivo de pocos jugadores; quien los consume vía API juega un juego de costo marginal bajísimo y volumen alto.

El fine-tuning es la práctica de re-entrenar un modelo base con datos específicos de una tarea o dominio. Si tu empresa tiene miles de tickets de soporte resueltos, podés afinar un modelo para que responda con el tono y la jerga propios; si tu dominio es legal, podés afinarlo sobre jurisprudencia. Es más caro que usar el modelo base como está, pero menos que entrenar desde cero.

Los embeddings son la representación numérica —en forma de vector de cientos o miles de dimensiones— de un texto, una imagen u otro dato. Su propiedad clave es que contenidos semánticamente similares producen vectores cercanos, lo que permite buscar "por significado" en lugar de "por palabra exacta". Son la base de los buscadores semánticos modernos y, como vamos a ver enseguida, de RAG.

Token: unidad mínima que procesa el modelo; 1.000 tokens ≈ 750 palabras en inglés.

Parámetros: los pesos numéricos de la red neuronal; los modelos frontera tienen cientos de miles de millones.

Ventana de contexto: máximo de tokens que el modelo puede ver a la vez; hoy entre 200.000 y 2.000.000.

Inferencia: ejecutar el modelo para responder un prompt; cuesta fracciones de centavo por consulta.

Fine-tuning: re-entrenar un modelo base con datos específicos para adaptarlo a una tarea o dominio.

Embeddings: vectores numéricos que representan un texto o imagen; contenidos similares producen vectores cercanos.

4. RAG en profundidad

De todos los conceptos anteriores, RAG (Retrieval Augmented Generation) merece una sección propia porque es, lejos, la técnica más usada hoy para que los LLMs respondan con información específica que no estaba en su entrenamiento: documentación interna de una empresa, apuntes de clase, manuales técnicos, jurisprudencia, historia clínica. Es también el primer proyecto serio que cualquier estudiante puede armar en un fin de semana y entender de punta a punta.

Por qué existe RAG

Los LLMs tienen tres limitaciones inherentes que RAG ayuda a resolver. La primera es el conocimiento desactualizado: el modelo solo sabe lo que vio durante el entrenamiento; todo lo posterior a su knowledge cutoff es invisible. La segunda es la falta de información privada: no conoce los documentos internos de tu empresa, tus apuntes, ni nada que no esté en internet público. La tercera son las alucinaciones: cuando no sabe algo, los LLMs tienden a inventar respuestas plausibles antes que admitir ignorancia. RAG mitiga las tres porque le entrega al modelo el contexto relevante antes de pedirle que responda.

Cómo funciona, paso a paso

RAG tiene dos fases bien diferenciadas: una de indexación, que se hace una sola vez por cada documento, y otra de consulta, que se ejecuta cada vez que el usuario hace una pregunta. La fase de indexación es la inversión inicial; la fase de consulta es la que se ejecuta en tiempo real.

Fase 1 — Indexación (offline, una sola vez)

Cargar los documentos. PDFs, páginas web, transcripciones, lo que sea relevante para el dominio.
Chunking. Partir cada documento en fragmentos pequeños (típicamente 200 a 1.000 tokens). Demasiado grandes y la búsqueda pierde precisión; demasiado chicos y se pierde contexto.
Generar embeddings. Convertir cada fragmento en un vector numérico usando un modelo de embeddings (text-embedding-3 de OpenAI, voyage-3 de Voyage AI, gemini-embedding de Google).
Guardar en una base vectorial. Almacenar los vectores junto con el texto original en pgvector, Pinecone, Qdrant, Chroma o equivalentes.

Fase 2 — Consulta (online, en cada pregunta)

Embedding de la pregunta. Convertir la pregunta del usuario en un vector usando el mismo modelo de embeddings que se usó en la indexación.
Búsqueda por similitud. Encontrar los N fragmentos más cercanos al vector de la pregunta (típicamente entre 3 y 10).
Construcción del prompt. Armar un prompt que le pase al LLM la pregunta junto con los fragmentos recuperados como contexto adicional.
Generación. El LLM responde basándose en los fragmentos recibidos, idealmente citando las fuentes para que el usuario pueda verificar.

Concepto clave

RAG es como darle al modelo un examen a libro abierto.

El LLM es el estudiante —sabe razonar y escribir bien— y el sistema de recuperación es quien le pasa el libro abierto en la página correcta antes de cada pregunta. Sin RAG, el estudiante tiene que responder de memoria; con RAG, responde con la fuente delante.

Para tener en cuenta

RAG no le enseña nada nuevo al modelo: solo le entrega información en el prompt. Si querés que el modelo "absorba" conocimiento, lo que buscás es fine-tuning, no RAG.
La calidad del RAG depende más del retrieval que del LLM: con un LLM mediocre y buen retrieval podés tener respuestas excelentes; con un LLM top y mal retrieval, respuestas elegantes pero equivocadas.

Personaje del elenco vestido de bibliotecario entregando una carpeta a otro vestido de estudiante con examen

Caso concreto: RAG sobre apuntes y bibliografía

Es un proyecto ideal para construir en un fin de semana y entender el pipeline completo. La idea: armar un asistente que responda preguntas sobre los PDFs de las materias, citando la página exacta de cada respuesta. Los materiales de entrada son los que cualquier estudiante tiene a mano: PDFs de la bibliografía obligatoria, apuntes propios y de compañeros en Word, Markdown o Google Docs, diapositivas de clase en PPTX, transcripciones de grabaciones si las hay, y exámenes y guías de ejercicios anteriores.

Stack mínimo recomendado para un RAG casero

Opción simple (gratis o casi)

Lectura de PDFs: PyPDF o pdfplumber.
Chunking: RecursiveCharacterTextSplitter de LangChain.
Embeddings: text-embedding-3-small de OpenAI (~$0.02 por 1M tokens).
Base vectorial: Chroma local, file-based, sin servidor.
LLM: Claude Haiku, Gemini Flash o GPT-5 Mini.
Interfaz: Streamlit en ~50 líneas de Python.

Opción robusta

Lectura de PDFs: Unstructured.io o LlamaParse.
Chunking: chunking semántico con LlamaIndex.
Embeddings: voyage-3-large, mejor calidad.
Base vectorial: pgvector en Supabase o Pinecone gestionado.
LLM: Claude Sonnet, Gemini Pro o GPT-5.
Interfaz: Next.js + Vercel AI SDK.

Tip

Empezá con el stack simple completo antes de optimizar cualquier parte. Es mucho mejor tener un pipeline end-to-end funcionando con Chroma + Streamlit + Haiku, y después reemplazar pieza por pieza, que pasar tres semanas eligiendo "la mejor base vectorial" antes de tener un solo embedding generado.

5. Los tres jugadores: ChatGPT, Gemini y Claude

Tres laboratorios dominan hoy el mercado occidental de modelos frontera, y conviene presentarlos en paralelo porque cada uno persigue una estrategia distinta. Las tres compañías compiten por los mismos benchmarks y, en apariencia, por los mismos clientes, pero el contexto institucional, las alianzas y los productos donde se diferencian son sorprendentemente distintos.

ChatGPT (OpenAI)

OpenAI fue fundada en 2015 con una estructura institucional poco común: una organización sin fines de lucro controla a una con fines de lucro "capeada" (capped-profit), donde los retornos a inversores tienen un techo definido. Sus modelos actuales son la familia GPT-5, con el flagship GPT-5.5 lanzado en abril de 2026, junto con variantes Mini y Nano para casos de menor complejidad. El diferenciador histórico de OpenAI es el first mover advantage: ChatGPT, lanzado en noviembre de 2022, fue el producto que masificó la IA generativa y todavía hoy es la referencia de mercado en cantidad de usuarios. Su alianza estratégica más importante es con Microsoft, que invirtió alrededor de 13 mil millones de dólares e integra los modelos en Azure, Copilot y Office. Los productos principales son ChatGPT para el consumidor final y la API de OpenAI para developers, complementados con Codex, Sora (video) y herramientas para agentes.

Gemini (Google / DeepMind)

Google DeepMind es la división de IA de Alphabet, formada por la fusión de Google Brain y DeepMind en 2023. Sus modelos actuales son Gemini 3 Pro y Gemini 3.1 Pro como flagships, junto con Flash y Flash-Lite para casos más simples y de menor costo. El diferenciador es la integración profunda con el ecosistema Google —Search, Workspace, Android, Chrome— y la mayor ventana de contexto del mercado (hasta 2 millones de tokens), apoyada en el acceso privilegiado a TPUs propios. Los productos principales son la app Gemini, las integraciones en Workspace (Docs, Gmail, Sheets) y Vertex AI para empresas. La ventaja estructural es triple: chips propios (TPUs), datos propios (Search, YouTube) y distribución propia (Android está en miles de millones de dispositivos).

Claude (Anthropic)

Anthropic fue fundada en 2021 por ex-empleados de OpenAI, los hermanos Dario y Daniela Amodei. Sus modelos actuales son Claude Opus 4.7 (lanzado en abril de 2026) como flagship, junto con Sonnet 4.6 y Haiku 4.5 para distintos balances entre capacidad y costo. El diferenciador es el foco fuerte en AI safety y en alineamiento usando una técnica propia llamada Constitutional AI; además, Claude se posicionó muy bien en tareas de programación, agentes de larga duración y trabajo profesional. Las alianzas incluyen inversiones de Amazon (~8 mil millones de dólares) y Google, lo que se traduce en disponibilidad tanto en AWS Bedrock como en Google Vertex AI. Los productos principales son Claude.ai para el consumidor, la API de Anthropic, Claude Code (CLI para desarrollo) y extensiones como Claude para Excel y Chrome.

Comparación lado a lado

Una tabla resumen ayuda a tener el panorama en una sola pantalla. Los números cambian rápido —cada laboratorio re-precia varias veces por año—, pero la forma del posicionamiento es razonablemente estable.

Precios y modelos referencia al 2026-04-01. Cambian varias veces por año: verificar en las páginas oficiales antes de citar.

Dimensión	ChatGPT (OpenAI)	Gemini (Google)	Claude (Anthropic)
Modelo flagship 2026	GPT-5.5	Gemini 3.1 Pro	Claude Opus 4.7
Precio API (in/out por 1M tokens)	$5 / $30	$2 / $12	$5 / $25
Ventana de contexto	1M tokens	Hasta 2M tokens	1M tokens
Aliado cloud	Microsoft Azure	Google Cloud (propio)	AWS + Google Cloud
Hardware preferido	NVIDIA GPUs	TPUs propios + GPUs	AWS Trainium + NVIDIA
Foco diferencial	Producto masivo, tooling para agentes	Multimodalidad, ecosistema Google	Seguridad, código y agentes empresariales
Suscripción consumer	ChatGPT Plus (~USD 20/mes)	Google AI Pro / Ultra	Claude Pro (~USD 20/mes)

Tip

Los precios y modelos cambian rápido. Antes de dar la clase o tomar una decisión técnica, verificá las cifras abriendo las páginas oficiales (openai.com/api/pricing, ai.google.dev/pricing, anthropic.com/pricing). El rate card es solo una parte: prompt caching, batch processing y elección de modelo pueden cambiar el costo real en un orden de magnitud.

6. Modelos de negocio en IA

Alrededor de estos modelos creció un ecosistema con varios patrones de monetización conviviendo al mismo tiempo. Conviene presentarlos como una taxonomía y discutir los trade-offs: cada modelo de negocio refleja una posición distinta en la cadena de valor, desde quien entrena los pesos hasta quien arma una experiencia de usuario sobre la API de un tercero. Para el listado de proveedores que exponen modelos vía API gestionada (Bedrock, Vertex AI, Azure OpenAI, Claude API, OpenAI, Gemini) y cuándo conviene cada uno, ver el recurso integración con IA.

Modelos directos (los grandes laboratorios)

El primer grupo son los modelos que aplican los laboratorios mismos sobre sus propios productos. El más visible es la API as a Service en formato pay-per-token: se cobra por consumo, con precios distintos para input y output (por ejemplo, GPT-5.5 a 5 dólares de input y 30 de output por millón de tokens). Es el modelo dominante de OpenAI, Anthropic y Google para developers. Para el consumidor existe la suscripción consumer: acceso "ilimitado" (con límites razonables) por una mensualidad fija, normalmente alrededor de USD 20 al mes; ahí entran ChatGPT Plus, Claude Pro y Google AI Pro. Para empresas grandes hay planes enterprise con seguridad, auditoría, mayores límites y SSO. Y atravesando todos los segmentos aparecen los tiered models: ofrecer el mismo producto con modelos de distintas capacidades a distintos precios —Pro, Pro+, Ultra—.

Modelos sobre infraestructura

El segundo grupo monetiza el cómputo necesario para entrenar e inferir. El cloud + IA bundling es la jugada de los hyperscalers: AWS Bedrock, Google Vertex AI y Azure AI Foundry venden los modelos como parte de su oferta cloud y capturan margen sobre el cómputo además del modelo en sí. El GPU as a Service es la jugada de empresas como CoreWeave, Lambda Labs o Crusoe, que alquilan capacidad de cómputo a startups que no pueden firmar contratos de largo plazo con NVIDIA. Y una jugada particular es la de open weights + servicios: Meta libera Llama gratis, pero se beneficia indirectamente de la adopción y de tener una IA optimizada para sus propios productos (Instagram, WhatsApp).

Modelos de producto sobre IA (la capa de aplicación)

El tercer grupo es donde nace la mayor cantidad de startups: productos cuyo core es IA pero que no entrenan modelos propios. AI-native SaaS agrupa a productos como Cursor (programación), Perplexity (búsqueda), Notion AI o Granola (notas de reuniones); suelen cobrar por usuario por mes con tiers según uso. Las AI features sobre SaaS existente son la jugada inversa: incumbents que agregan IA a productos consolidados como upsell —Salesforce Einstein, HubSpot AI, Atlassian Intelligence—. El outcome-based pricing es el modelo más emergente y polémico: se cobra por resultado, no por uso (agentes de soporte que cobran por ticket resuelto, por ejemplo); alinea incentivos pero es difícil de medir. Finalmente, los marketplaces y agregadores —OpenRouter, Replicate— agrupan modelos de distintos proveedores y capturan margen por ruteo, comparación y conveniencia.

Concepto clave

El stack de IA tiene tres capas y cada una tiene su propia economía.

Quien entrena modelos juega un juego de capital intensivo, pocos jugadores y márgenes inciertos. Quien provee la infraestructura juega el viejo juego del cloud, con márgenes conocidos y volumen. Quien construye productos sobre las APIs juega un juego de innovación rápida, costo marginal bajo y diferenciación basada en producto, no en pesos del modelo.

Para tener en cuenta

Las tres capas pueden coexistir en una misma empresa (Google y Microsoft juegan en las tres), pero rara vez con la misma estrategia: cada capa exige una operación distinta.
Como desarrollador, la pregunta práctica suele ser en qué capa querés competir: armar un wrapper sobre la API es barato pero defendible solo por producto; entrenar un modelo es defendible por el modelo pero carísimo.

Hasta acá vimos cómo se compone un sistema con IA generativa cuando el modelo se limita a responder: recibe prompt, devuelve texto. La próxima generación de productos da un paso más y construye agentes: LLMs equipados con herramientas (tools) que actúan en el mundo —leen archivos, consultan bases, llaman APIs, mandan mensajes—. La forma estándar de exponer esas herramientas se llama MCP (Model Context Protocol), publicado por Anthropic a fines de 2024. La Unidad 6 retoma este hilo con foco en cómo se construyen agentes IA en producción y cuándo conviene usar MCP frente a tool calling directo.

7. Errores comunes

El vocabulario de IA es nuevo y se presta a confusiones que vale anticipar. Estos son los dos errores que aparecen con más frecuencia cuando alguien empieza a integrar LLMs en un sistema real.

Confundir RAG con fine-tuning

Qué suele pasar

El equipo decide que necesita "que el modelo aprenda nuestra documentación" y arranca un proyecto de fine-tuning costoso y largo, cuando en realidad un RAG con la misma documentación habría resuelto el 90% del problema en una semana.

Por qué

Suena intuitivo que "enseñarle al modelo" sea mejor que "darle contexto". En la práctica es al revés: el fine-tuning ajusta estilo y tono, no incorpora hechos nuevos de forma confiable. RAG entrega los hechos verificables en cada consulta.

Cómo evitarlo

Probá RAG primero, siempre. Solo considerá fine-tuning cuando RAG funcione bien y necesites mejorar el tono, el formato o casos de uso muy repetitivos donde el contexto es siempre el mismo.

Calcular costos por usuario, no por token

Qué suele pasar

Se asume que "cada usuario nos cuesta X" cuando en realidad un usuario que abre una conversación larga con contexto de un millón de tokens cuesta diez veces más que uno que hace tres preguntas cortas. Los costos reales se descubren cuando llega la primera factura mensual de la API y triplica el estimado.

Por qué

El pricing es por token, no por usuario, y el output suele costar entre 3 y 6 veces más que el input. La variabilidad de uso entre usuarios es enorme y se concentra en una long tail que distorsiona el promedio.

Cómo evitarlo

Instrumentá desde el día uno tokens de input y output por usuario, por endpoint y por modelo. Aplicá prompt caching y elegí el modelo más chico que cumpla la tarea antes de optimizar precio del modelo grande.

Personaje del elenco vestido de contador en pánico ante una factura interminable

8. Para profundizar

Google · 2017 · ~15 páginas

El paper que introdujo la arquitectura Transformer, base de prácticamente todos los LLMs modernos. Denso pero corto; si vas a leer un solo paper de IA, leé este.

Ir al recurso

Meta AI · 2020 · ~20 páginas

El paper que dio nombre a RAG y formalizó la combinación de retrieval + generación. Útil para entender de dónde viene la técnica antes de mirar implementaciones modernas.

Ir al recurso

Anthropic · 2022 · ~30 páginas

Describe la técnica propia de Anthropic para alinear modelos sin etiquetado humano masivo. Útil para entender en qué se diferencia Claude del resto a nivel de método de entrenamiento.

Ir al recurso

OpenAI · Google · Anthropic

El precio cambia varias veces por año. Volvé a estas páginas antes de hacer un cálculo de costos serio o de tomar una decisión de proveedor.

OpenAI Google Anthropic

Computación en la Nube — Unidad 5

Conceptos básicos de IA

1. La pirámide conceptual

2. Tipos de aprendizaje

Supervisado

No supervisado

Por refuerzo

Auto-supervisado

3. Conceptos clave para entender LLMs

4. RAG en profundidad

Por qué existe RAG

Cómo funciona, paso a paso

Caso concreto: RAG sobre apuntes y bibliografía

Opción simple (gratis o casi)

Opción robusta

5. Los tres jugadores: ChatGPT, Gemini y Claude

ChatGPT (OpenAI)

Gemini (Google / DeepMind)

Claude (Anthropic)

Comparación lado a lado

6. Modelos de negocio en IA

Modelos directos (los grandes laboratorios)

Modelos sobre infraestructura

Modelos de producto sobre IA (la capa de aplicación)

7. Errores comunes

8. Para profundizar

Attention is All You Need — Vaswani et al. Paper fundacional

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks Paper original de RAG

Constitutional AI — Anthropic Paper técnico

Páginas oficiales de pricing de los tres laboratorios Referencia viva