Bilateria

Blog sobre educación

Página 2 de 22

Guía básica para usar la inteligencia artificial desde la terminal (parte I)

Desde hace poco tiempo, Gemini, ChatGPT , Qwen y Claude han lanzado versiones CLI (Command Line Interface) de sus modelos de IA. A diferencia de las versiones web, estos modelos se instalan en el ordenador y se utilizan desde ventanas de texto (llamadas terminales o consolas). No es necesario disponer de un ordenador potente ni con mucha memoria, ya que el programa se limita a poner en contacto a nuestro ordenador con los servicios correspondientes en Internet. Por lo tanto, un modesto portátil es más que suficiente.

En el entorno CLI se utiliza la IA como en un chat tradicional, escribiendo nuestras peticiones y recibiendo allí mismo las respuestas de la IA.

Pros y contras de la consola frente al chat web

Contras

La principal desventaja de la consola frente a la web es el no poder pegar directamente en el chat imágenes y no disponer de lienzo para editar o previsualizar el resultado allí mismo. Sin embargo, sí las podemos arrastrar para que las visualice.

Pros

  • La IA en terminal se puede utilizar exactamente igual que en la web, aunque no podremos pegar imágenes, se las podemos proporcionar junto con otro tipo de archivos.
  • Pueden ejecutar comandos en nuestro ordenador, lo que les permite leer y escribir directamente en él. Por lo tanto, es posible llevar a cabo acciones imposibles desde el chat web, como:
    • Manipular archivos y carpetas, para leeros, reorganizarlos, borrarlos, crearlos, etc.
    • Ordenar archivos automáticamente en subcarpetas por fecha o por nombre.
    • Renombrar varios archivos siguiendo un mismo criterio (ejemplo: “tema1_01”, “tema1_02”…).
    • Realizar operaciones directas sobre el sistema operativo, como lanzar programas, consultar el estado de la memoria, el espacio libre que tenemos, etc.
    • Convertir todos los .wav a .mp3, generar subtítulos y crear un índice.
    • Convertir documentos en Word a PDF.
    • Convertir audios a texto para obtener transcripciones y traducciones.
  • El entorno CLI destaca en tareas de vibe coding, es decir, hacer programas y aplicaciones dándole instrucciones a la IA. Especialmente si nuestra aplicación tiene más de un archivo. Basta con abrir la consola desde la carpeta en la que trabajaremos (ver más adelante) y pedirle una explicación sobre el contenido, que solucione un error o que cree un programa a partir de cero. La capacidad de ver, abrir y manipular cualquier archivo que contenga permite a la IA ser mucho más eficiente que en la web, donde también puede trabajar con varios archivos, pero los debemos subir y después bajar uno a uno.

Qué son las consolas de IA

Estamos acostumbrados a utilizar los chatbots desde su página web, escribiendo sobre un campo de texto, obtenemos la respuesta de la IA a nuestra petición.

Pero existe otra forma de utilizarlos y es a través de consolas (o terminales) que no son más que ventanas de texto donde podemos escribir instrucciones directamente al ordenador. En Windows se llaman Símbolo del sistema o PowerShell.

Cómo abrir la consola del sistema operativo

  • Windows: pulsar la tecla de Windows, escribir cmd o PowerShell y abrir el programa.
  • Mac: abrir Launchpad (el icono de cohete), escribir Terminal y hacer clic en la aplicación.
  • Linux: buscar Terminal en el menú principal de aplicaciones o presionar CTRL + ALT + T.

Cómo abrir la consola del sistema operativo en una carpeta determinada

Hay que evitar abrir la consola IA en la carpeta raíz del sistema o donde pueda tener acceso a información personal o confidencial. Es importante abrir la IA en la carpeta donde vayamos a trabajar.

  • Para abrir una terminal desde una carpeta en Linux, navega hasta la carpeta en tu gestor de archivos y haz clic derecho en un espacio vacío para seleccionar la opción «abrir en un terminal».
  • En Mac, puedes hacerlo desde Finder navegando a la carpeta y seleccionando «nuevas ventanas de la terminal en la carpeta», o arrastrando la carpeta a una ventana de terminal ya abierta tras escribir «cd «.
  • En Windows, la forma más rápida es abrir la carpeta en el explorador de archivos, hacer clic en la barra de direcciones superior y escribir «cmd» o «powershell» para abrir la terminal en esa ubicación. Si no podemos escribir en la barra de direcciones, pulsar CRL+L antes.

Particularidades de la consola

Cuando trabajemos en la consola, deberemos dejar el ratón y utilizar casi exclusivamente el teclado. Debemos tener en cuenta que una consola es un medio estrictamente de texto, por lo que el ratón no servirá para ir a un punto anterior del texto que estamos escribiendo, por ejemplo. Si queremos rectificar una parte que hemos escrito antes, no quedará más remedio que desplazarse con las flechas del teclado.

Podemos arrastrar imágenes y otro tipo de archivos a la consola para que sean visualizados o leídos por la IA.

Copiar y pegar en la consola

En las consolas y terminales, las combinaciones de teclas habituales Ctrl+C y Ctrl+V no siempre sirven para copiar y pegar, ya que Ctrl+C suele interrumpir procesos. Dependiendo del sistema operativo, los atajos son diferentes:

  • Linux (terminal GNOME, KDE, etc.):
    • Copiar: Ctrl+Shift+C
    • Pegar: Ctrl+Shift+V
  • macOS (Terminal o iTerm2):
    • Copiar: Cmd+C
    • Pegar: Cmd+V
  • Windows (símbolo del sistema o PowerShell moderno):
    • Copiar: Ctrl+C
    • Pegar: Ctrl+V

Además, en los tres sistemas también se puede usar el ratón: seleccionar el texto, pulsar con el botón derecho y elegir copiar o pegar. En Linux, en muchos entornos, el botón central pega directamente lo que se haya seleccionado.

Cómo abrir el entorno CLI de las IA

Una vez hemos abierto una consola, será suficiente con teclear gemini (para abrir la IA de Google), codex (para abrir la IA de OpenAI, ChatGPT) o claude (para abrir la IA de Anthropic).

Las siguientes imágenes muestran las consolas de IA en un entorno Linux:

Consola de Gemini (Gemini CLI)
Consola de ChatGPT (Codex)
Consola de Claude (Claude Code)

Instalación de las consolas de IA en el ordenador

En esta parte se explica cómo instalar tres herramientas de inteligencia artificial que se utilizan desde la consola del sistema operativo (Windows, Mac o Linux). Las herramientas son Gemini, Codex y Claude. Una vez instaladas, también se ejecutan desde la consola, pero en este caso hablamos de la consola de la aplicación (cuando escribes el nombre del programa, como gemini, codex o claude, para usarlas).

Antes de empezar

Necesitas tener instalado Node.js, que es el programa base que permite usar estas herramientas.

  • Si no está instalado, al intentar ejecutar algunos de los comandos en la consola del sistema operativo verás un mensaje de error indicando que node o npm no se reconocen como comandos.
  • En ese caso, descárgalo en nodejs.org. Descarga la versión recomendada para tu sistema operativo y sigue las instrucciones de instalación o sigue las instrucciones que te dará la consola.

Recomendamos utilizar nuestra IA favorita para consultarle cualquier problema o duda que surja en esta parte (y también en las posteriores).

Instalación de Gemini (Google)

(Repositorio oficial en GitHub)

Métodos de instalación (elige solo uno y hazlo en la consola del sistema operativo):

  • Método 1 (recomendado, cualquier sistema con Node.js): npm install -g @google/gemini-cli.
  • Método 2 (solo Mac/Linux con Homebrew): brew install gemini-cli.
  • Método 3 (probar sin instalar): npx https://github.com/google-gemini/gemini-cli. Este método descarga la aplicación cada vez que la uses.

Después de instalar:

  • Abre la consola del sistema operativo.
  • Escribe gemini y pulsa Enter.
  • Te pedirá iniciar sesión con tu cuenta de Google o usar una clave de aistudio.google.com/apikey.

Instalación de Codex (OpenAI)

(Repositorio en GitHub)

Métodos de instalación (elige solo uno y hazlo en la consola del sistema operativo):

  • Método 1 (recomendado, cualquier sistema con Node.js): npm install -g @openai/codex@latest.
  • Método 2 (solo Mac con Homebrew): brew install codex.
  • Método 3 (descarga manual): en la sección «Releases» de GitHub descarga el archivo correspondiente, descomprímelo y renómbralo como «codex».

Después de instalar:

  • Abre la consola del sistema operativo.
  • Escribe codex y pulsa Enter.
  • Podrás iniciar sesión con tu cuenta de ChatGPT o configurar tu clave de OpenAI.

Instalación de Claude (Anthropic)

(Repositorio en GitHub)

Métodos de instalación (elige el que corresponda a tu sistema operativo y hazlo en la consola del sistema operativo):

  • Mac/Linux (con Node.js): npm install -g @anthropic-ai/claude-code.
  • Mac/Linux (instalador rápido): curl -fsSL https://claude.ai/install.sh | bash.
  • Windows: abre PowerShell y escribe irm https://claude.ai/install.ps1 | iex.

Después de instalar:

  • Abre la consola del sistema operativo.
  • Escribe claude doctor para comprobar que funciona.
  • Escribe claude para usar la aplicación.
  • Inicia sesión con tu cuenta de Claude.

Instalación de Qwen

  • Escribe desde una consola: npm install -g @qwen-code/qwen-code
  • Abre la consola, escribe qwen y elige el método de inicio de sesión.

Importante: Solo hemos probado las versiones para Linux. Las instrucciones proporcionadas para Windows y Mac han sido redactadas por Grok basándose en las referencias que hay más adelante. Por lo tanto, no podemos asegurar que sean correctas.

Modo de uso

Una vez hemos entrado, abriendo una consola y tecleando el nombre de la IA deseada, todas nos darán la oportunidad de entrar en nuestra cuenta a través de la web. Una vez introducidas nuestras credenciales, el programa se acabará de iniciar normalmente. Si deseamos cambiar las opciones de inicio de sesión, podemos eliminar la carpeta de configuración que se detalla a continuación.

Cuando hayamos iniciado sesión, hablaremos con la IA de la forma habitual, escribiendo en la caja de texto que tenemos para ello.

Todas las IA tienen comandos que realizan acciones específicas. Destacamos un par de ellos comunes a todas.

  • /quit. Escribiendo este comando, cerraremos la consola de la IA. Se puede conseguir el mismo efecto pulsando dos veces seguidas CTRL +C.
  • /init. Esa instrucción hace que la IA analice la carpeta actual y escriba un archivo en formado Markdown, donde coloca una descripción del contenido en la misma carpeta. Hay que tener en cuenta que si tenemos archivos de texto con información sensible, estos serán leídos por la IA, por lo que hay que tener precaución en este sentido. Si utilizamos la consola por primera vez en una carpeta que ya tiene archivos, conviene ejecutar este comando antes de empezar. Gemini creará el archivo GEMINI.md, Codex creará el archivo AGENTS.md y Claude hará el archivo CLAUDE.md. Podemos abrirlos y añadir allí información extra que deseamos que tengan en cuenta.

Cuando deba realizar acciones que afecten a nuestro ordenador (leer archivos, escribir, eliminar, acceder a un programa, etc.) nos pedirán permiso. Podemos dárselo cada vez, es la opción 1 o, si estamos seguros, darles permiso para el resto de la sesión con la opción 2, aunque alguna vez esta opción sirve para cancelar.

Carpetas y archivos importantes

La configuración de cada programa (datos de inicio de sesión, instrucciones iniciales, etc.) se encuentra en las carpetas indicadas a continuación. Allí crearán archivos Markdown (.md) con la información que crean relevante.

ServicioCarpeta de configuración en WindowsCarpeta de configuración en Linux / MacOSArchivo de instrucciones
Gemini CLI%USERPROFILE%\.gemini~/.geminiGEMINI.md
OpenAI Codex%USERPROFILE%\.codex~/.codexAGENTS.md
Claude Code%USERPROFILE%\.claude~/.claudeCLAUDE.md

En cualquier momento podemos borrar estas carpetas y la próxima vez que entremos en el programa se crearán de nuevo y nos volverán a pedir el inicio de sesión.

También podemos crear los archivos de instrucciones en estas carpetas con instrucciones específicas sobre su comportamiento, quienes somos, etc. Estos archivos pueden estar en la carpeta de configuración, con lo que serán leídos cada vez que iniciemos la IA, y se pueden colocar también en la carpeta actual, la IA los puede generar también de forma automática con el comando /init.

En el caso de Gemini, podemos iniciar sesión con otra cuenta eliminando el archivo config.json de la carpeta .gemini. Esto hará que nos pregunte el método para iniciar sesión la próxima vez que entremos, lo que podremos utilizar para indicar una cuenta de Google diferente a la anterior, en el caso de que hayamos llegado al límite.

Límites de uso, modelos y ventanas de contexto

  • Gemini CLI
    Es gratuito. Permite 60 mensajes por minuto y un máximo diario de 1 000. Utiliza por defecto Gemini 2.5 Pro, con una ventana de contexto de 1 000 000 tokens. Google ha anunciado que se ampliará a 2 000 000, aunque aún no está disponible para todos. Cuando alcanza el límite de uso, cambia a Gemini 2.5 Flash.
  • Qwen Code CLI
    Es gratuito. Admite 60 solicitudes por minuto y 2000 por día.
  • Codex (ChatGPT CLI)
    Funciona con una cuenta Plus de ChatGPT y aplica un límite de uso cada 5 horas y otro semanal, aunque no se han dado cifras concretas. Utiliza por defecto GPT-5, con una ventana de contexto de 200 000 tokens.
  • Claude Code
    Con una suscripción Pro, permite entre 10 y 40 mensajes cada 5 horas. A partir del 28 de agosto de 2025, también habrá un límite semanal. Utiliza Claude 4 Sonnet, con una ventana de contexto de 200 000 tokens.

Resumen de políticas de privacidad para versiones CLI de herramientas de IA

Este resumen se basa en las políticas oficiales actualizadas al 17 de agosto de 2025, extraídas de las fuentes de cada proveedor. Las políticas pueden cambiar con el tiempo.

Recomendamos especial precaución con Gemini CLI donde, por defecto, en las cuentas personales, los datos se usan para entrenar sus modelos y pueden ser leídos por humanos. Véase en el texto cómo desactivarlo.

Gemini CLI (versión gratuita para individuos)

Los datos (prompts, outputs, código) se usan por defecto para mejorar productos y entrenar modelos de machine learning, con opción de opt-out mediante la desactivación de Gemini Apps Activity. El término opt-out se refiere a la posibilidad de excluirse voluntariamente de un uso que está activo por defecto. En el caso de Gemini CLI para cuentas personales, los datos (prompts, salidas de código, etc.) pueden usarse para entrenar modelos si no se desactiva esta opción en la configuración de la cuenta de Google, en el apartado Controles de actividadGemini Apps Activity. Los contenidos pueden ser revisados por humanos para control de calidad, se guardan de forma desconectada de la cuenta y se retienen hasta 18 meses. Se recomienda no enviar información confidencial.
Política de privacidad para Gemini Code Assist (individuales)

Gemini CLI (versiones de pago, como Gemini Advanced/Pro)

El tratamiento de datos es equivalente al de la versión gratuita: pueden usarse para mejorar servicios y entrenar modelos, con posibilidad de opt-out desactivando Gemini Apps Activity. Si está activada, Google puede realizar revisión humana de chats con datos desvinculados de la cuenta, y en caso de ser revisados, pueden conservarse hasta 3 años.
Hub de privacidad de Gemini Apps

Gemini (versiones corporativas: Vertex AI y Workspace empresarial)

En entornos corporativos, los datos de clientes no se usan para entrenar modelos ni para mejorar servicios sin permiso. No existe revisión humana rutinaria; solo puede haber acceso limitado en casos de soporte, cumplimiento legal o investigación de abuso. En Vertex AI se ofrecen opciones avanzadas de gobernanza de datos, incluida la configuración de zero data retention (ZDR), que evita el almacenamiento incluso temporal. De forma predeterminada puede existir caché técnica de hasta 24 horas o registros mínimos de auditoría.
Gobernanza de datos en Vertex AI Generative AI

Gemini (versiones educativas: Workspace for Education)

En dominios educativos, los datos no se usan para entrenar modelos, ni para mostrar anuncios, ni son revisados por humanos. Desde junio de 2025, estas protecciones se aplican a todas las edades en cuentas de educación. Se ofrecen protecciones de nivel empresarial, sin coste adicional y con controles de administrador. El contenido no se comparte fuera del dominio escolar.
Política de privacidad de Google Workspace for Education

OpenAI API (versiones CLI o API)

En la API de OpenAI, los datos no se usan para entrenar modelos por defecto, salvo en caso de consentimiento expreso. Se conservan hasta 30 días para monitorizar abusos y resolver incidencias técnicas, con posibilidad de solicitar Zero Data Retention en contextos empresariales. La revisión humana está limitada a casos de seguridad o abuso.
Uso de datos en la API de OpenAI

Claude Code (API/CLI, versión gratuita)

Los datos no se usan para entrenar modelos por defecto, salvo en caso de consentimiento voluntario o cuando un contenido se marca como feedback para trust & safety. Puede haber revisión humana o automática en situaciones de abuso, y en esos casos las retenciones pueden extenderse hasta 2 años para prompts/respuestas y hasta 7 años para métricas de seguridad. En la aplicación Claude Code local, las sesiones pueden conservarse hasta 30 días, configurable, y en organizaciones con Zero Data Retention no se guardan en servidores.
Uso de datos personales en entrenamiento de modelos (Anthropic)
Privacidad en Claude Code

Diferencias entre Gemini CLI, Codex y Claude Code

CaracterísticaGemini CLICodex (ChatGPT)Claude CodeQwen
Instalaciónnpm install -g @google/gemini-clinpm install -g @openai/codex@latestnpm install -g @anthropic-ai/claude-codenpm install -g @qwen-code/qwen-code
Carpeta y archivo de configuración~/.gemini / GEMINI.md~/.codex / AGENTS.md~/.claude / CLAUDE.md~/.qwen / QWEN.md
Modelo utilizadoGemini 2.5 Pro (cambia a Flash al límite)GPT-5-codexClaude 4 Sonnetqwen3-coder-plus
Límites de uso60 mensajes/min, 1000 diariosLímites cada 5h y semanales (detalles no públicos)10-40 prompts/5h, límite semanal desde ago 202560 solicitudes por minuto, 2000 por día.
Ventana de contexto en tokens1 000 000200 000200 000256 000
Versión gratuitaNoNo
Política de privacidadDatos usados para entrenamiento por defecto; revisión humana posible; retención hasta 18 mesesNo entrenan por defecto; retención 30 días; revisión solo en casos de abusoNo entrenan por defecto; retención 30 días (configurable)Los datos de las conversaciones serán usados para entrenamiento

Uso de IA en consola frente a la versión web

AspectoVersiones CLIVersiones web
AccesoDesde consola/terminal del sistema (cmd, PowerShell, Terminal).Desde un navegador web.
RequisitosNecesita Node.js.Solo conexión a Internet y un navegador.
MultimediaNo admite pegar imágenes en el chat; solo como archivos. Sin lienzo de previsualización.Admite copiar/pegar imágenes y elementos multimedia. En algunos casos, lienzo integrado.
Acceso a archivos localesSí. Puede leer, escribir, organizar, renombrar, convertir formatos, etc. Requiere permisos explícitos.No. Los archivos deben subirse y descargarse manualmente.
Operaciones sobre el sistemaPuede lanzar programas, consultar memoria, espacio libre, ejecutar conversiones o transcripciones.No tiene acceso directo al sistema operativo.
Versatilidad en tareasIdeal para automatizar procesos, manipular lotes de archivos, programar proyectos completos y convertir formatos directamente desde el ordenador.Más adecuada para consultas rápidas, interacción visual, compartir elementos multimedia y uso general sin instalación.
Uso en programación (vibe coding)Muy eficiente para proyectos con múltiples archivos; puede ver y manipularlos directamente.Menos eficiente: se deben subir/bajar o copiar archivos individualmente.
InterfazExclusivamente texto, sin ratón; navegación con teclado.Interfaz gráfica con botones, menús y edición más visual.

Mi experiencia personal, a modo de conclusión

Después de haber usado de forma intensiva los tres modelos durante un tiempo, he podido comprobar que tango ChatGPT como Claude son superiores en programación a Gemini por lo que si deseamos crear recursos educativos (páginas web, programas, etc.) los dos primeros son recomendables.

Sin embargo, la enorme ventana de contexto de Gemini (5 veces más que la de los otros dos), unido a su gratuidad, lo hacen ideal para tareas masivas (donde hay que realizar una gran cantidad de trabajo como convertir documentos, traducirlos, etc.) y, por lo tanto, es el CLI recomendable a nivel general.

Una buena técnica es utilizar Gemini por defecto y, si tenemos una cuenta Plus de ChatGPT o Pro de Claude, acudir a ellos cuando Gemini se queda atascado en una tarea que no puede resolver.

Advertencia: Este artículo tiene nivel 3 en el Marco para la integración de la IA generativa.

Lee también la segunda parte de la Guía básica para usar la inteligencia artificial desde la terminal.

Pódcast (creado con NotebookLM)

FAQ creado con NotebookLM

¿Qué son las consolas de IA y en qué se diferencian de las versiones web?

Las consolas de IA, como las versiones CLI (Command Line Interface) de Gemini, ChatGPT (Codex), Qwen y Claude, son programas que se instalan directamente en tu ordenador y se utilizan a través de ventanas de texto, conocidas como terminales o consolas. A diferencia de las versiones web, que se acceden mediante un navegador, las consolas de IA ofrecen una interacción más directa y profunda con el sistema operativo. No requieren un ordenador potente, ya que la comunicación se realiza a través de internet con los servicios de IA. La principal diferencia radica en que las consolas pueden ejecutar comandos directamente en tu ordenador, permitiéndoles leer, escribir, manipular archivos y carpetas, y realizar operaciones directas sobre el sistema operativo, acciones que no son posibles con los chats web.

¿Cuáles son las principales ventajas de usar una consola de IA en comparación con la versión web?

Las consolas de IA ofrecen varias ventajas significativas sobre las versiones web. Permiten manipular archivos y carpetas directamente en el ordenador, como reorganizar, borrar, crear o renombrar archivos masivamente (ej. renombrar varios archivos con un mismo criterio o convertir documentos de Word a PDF). También pueden realizar operaciones sobre el sistema operativo, como lanzar programas, consultar el estado de la memoria o el espacio libre, y convertir audios a texto para obtener transcripciones y traducciones. Son especialmente útiles para tareas de «vibe coding» (programación asistida por IA) en proyectos con múltiples archivos, ya que la IA puede ver, abrir y manipular todos ellos de manera eficiente. Aunque no admiten pegar imágenes directamente en el chat, se les pueden proporcionar como archivos.

¿Qué se necesita para instalar y usar una consola de IA como Gemini, Codex, Claude o Qwen?

Para instalar y usar estas consolas de IA, primero necesitas tener Node.js instalado en tu sistema operativo (Windows, Mac o Linux), ya que es el programa base que permite que estas herramientas funcionen. Si Node.js no está instalado, al intentar ejecutar los comandos verás un mensaje de error. Una vez que Node.js está instalado, puedes proceder a instalar la IA deseada utilizando comandos específicos en la consola del sistema (por ejemplo, npm install -g @google/gemini-cli para Gemini). Después de la instalación, simplemente escribes el nombre de la IA (ej. gemini, codex, claude, qwen) en la consola para iniciarla. Al principio, te pedirá iniciar sesión con tu cuenta correspondiente o introducir una clave API.

¿Cómo se gestionan la privacidad y el uso de datos en las versiones CLI de estas IA?

La gestión de la privacidad varía significativamente entre los diferentes proveedores y tipos de cuenta. En Gemini CLI para cuentas personales, los datos (prompts, outputs, código) se usan por defecto para entrenar modelos y pueden ser revisados por humanos, aunque esta opción puede desactivarse (opt-out) en la configuración de la cuenta de Google. Para las versiones empresariales y educativas de Gemini, así como para OpenAI API (Codex) y Claude Code, los datos no se usan para entrenar modelos por defecto, salvo consentimiento explícito o en casos específicos de seguridad y abuso. La retención de datos también varía: 30 días para monitorear abusos (OpenAI, Claude), hasta 18 meses para Gemini personal con revisión humana, y opciones de Zero Data Retention (ZDR) para entornos empresariales. Se recomienda precaución al enviar información confidencial, especialmente con Gemini CLI si no se ha configurado la opción de exclusión.

¿Cuáles son las principales diferencias entre Gemini CLI, Codex (ChatGPT CLI), Claude Code y Qwen en términos de características y límites de uso?

Existen diferencias notables entre las cuatro consolas de IA:

  • Gemini CLI: Ofrece una versión gratuita para uso individual, con un límite de 60 mensajes por minuto y 1000 diarios. Utiliza Gemini 2.5 Pro (cambiando a Flash al límite) con la ventana de contexto más grande: 1.000.000 de tokens. Por defecto, usa datos para entrenamiento.
  • Codex (ChatGPT CLI): Requiere una cuenta ChatGPT Plus, utiliza GPT-5 con una ventana de contexto de 200.000 tokens y tiene límites de uso por hora y semanales no especificados públicamente. No usa datos para entrenamiento por defecto.
  • Claude Code: Con una suscripción Pro, permite entre 10 y 40 mensajes cada 5 horas (con un límite semanal desde agosto de 2025). Usa Claude 4 Sonnet y tiene una ventana de contexto de 200.000 tokens. No usa datos para entrenamiento por defecto.
  • Qwen: Ofrece una versión gratuita con 60 solicitudes por minuto y 2000 diarias. Utiliza qwen3-coder-plus con una ventana de contexto de 256.000 tokens. Sus políticas de privacidad indican que los datos de las conversaciones serán usados para entrenamiento.

¿Cómo puedo abrir la consola del sistema operativo en una carpeta específica y por qué es importante?

Es fundamental abrir la consola de IA en la carpeta donde planeas trabajar para evitar que la IA tenga acceso a información personal o confidencial en otras partes de tu sistema. Los métodos para abrirla en una carpeta específica son:

  • Windows: Abre la carpeta en el Explorador de Archivos, haz clic en la barra de direcciones superior y escribe cmd o powershell, luego presiona Enter.
  • Mac: En Finder, navega a la carpeta y selecciona «Nuevas ventanas de la terminal en la carpeta» o arrastra la carpeta a una ventana de Terminal ya abierta después de escribir cd.
  • Linux: Navega hasta la carpeta en tu gestor de archivos y haz clic derecho en un espacio vacío para seleccionar la opción «abrir en un terminal».

¿Qué son los comandos /quit y /init y qué hacen en la consola de IA?

Los comandos /quit y /init son acciones específicas comunes a todas las consolas de IA:

  • /quit: Este comando cierra la sesión de la IA. También se puede lograr el mismo efecto pulsando CTRL + C dos veces seguidas.
  • /init: Esta instrucción le pide a la IA que analice el contenido de la carpeta actual y genere un archivo en formato Markdown (GEMINI.md, AGENTS.md, CLAUDE.md o QWEN.md según la IA) que contiene una descripción de su contenido. Es importante tener precaución, ya que si hay archivos de texto con información sensible en esa carpeta, serán leídos por la IA. Es conveniente ejecutar este comando antes de empezar si la consola se abre en una carpeta con archivos.

¿Dónde se guarda la configuración de las consolas de IA y cómo se puede gestionar?

La configuración de cada programa de IA (como los datos de inicio de sesión o las instrucciones iniciales) se guarda en carpetas específicas en tu sistema:

  • Gemini CLI: ~/.gemini (Linux/macOS) o %USERPROFILE%\.gemini (Windows). Archivo de instrucciones: GEMINI.md. Para cambiar de cuenta, puedes eliminar el archivo config.json de esta carpeta.
  • OpenAI Codex: ~/.codex (Linux/macOS) o %USERPROFILE%\.codex (Windows). Archivo de instrucciones: AGENTS.md.
  • Claude Code: ~/.claude (Linux/macOS) o %USERPROFILE%\.claude (Windows). Archivo de instrucciones: CLAUDE.md.
  • Qwen: ~/.qwen (Linux/macOS) o %USERPROFILE%\.qwen (Windows). Archivo de instrucciones: QWEN.md.

Puedes borrar estas carpetas en cualquier momento para que el programa las cree de nuevo la próxima vez que inicies la IA, lo cual puede ser útil para cambiar las opciones de inicio de sesión. También puedes crear archivos de instrucciones personalizados en estas carpetas de configuración (o en la carpeta actual de trabajo) para especificar el comportamiento o las instrucciones iniciales de la IA.

Glosario de términos

  • CLI (Command Line Interface): Son versiones de programas de inteligencia artificial que se instalan en tu ordenador y se usan escribiendo texto en ventanas especiales (llamadas terminales o consolas), en lugar de usar un navegador web y hacer clic. Es como usar el ordenador solo con el teclado, escribiendo tus instrucciones y recibiendo las respuestas ahí mismo.
  • Terminal o Consola: Es una ventana de texto en la que puedes escribir instrucciones directamente a tu ordenador. En Windows, se conocen como «Símbolo del sistema» o «PowerShell».
  • Chat web: Es la forma habitual de usar los chatbots de IA a través de su página web, donde escribes en un recuadro y recibes la respuesta.
  • Multimedia: En el contexto de las consolas de IA, se refiere a que no puedes pegar directamente imágenes u otros elementos visuales en el chat, aunque sí puedes proporcionarlos como archivos.
  • Lienzo: Se refiere a un espacio donde podrías editar o previsualizar resultados directamente en el chat, algo que no está disponible en las versiones de consola.
  • Comandos (en el ordenador): Son instrucciones que la inteligencia artificial puede ejecutar directamente en tu ordenador, permitiéndole leer y escribir archivos. Esto le da la capacidad de hacer cosas que no se pueden hacer desde una versión web, como manipular archivos, lanzar programas o consultar el estado de tu sistema.
  • Manipular archivos y carpetas: Se refiere a realizar acciones como leer, reorganizar, borrar o crear archivos y carpetas en tu ordenador.
  • Sistema operativo: Es el programa principal que controla todas las funciones de tu ordenador, como Windows, macOS o Linux. Las consolas de IA pueden interactuar con él para, por ejemplo, iniciar programas o ver cuánta memoria tienes disponible.
  • Vibe coding: Es la tarea de crear programas y aplicaciones dándole instrucciones a la inteligencia artificial. Es muy eficiente en el entorno de consola, especialmente para proyectos con varios archivos, ya que la IA puede ver, abrir y manejar esos archivos directamente.
  • Carpeta raíz del sistema: Es la carpeta principal y más básica de tu ordenador, de la que derivan todas las demás carpetas. Se recomienda evitar abrir la consola de IA en esta carpeta para proteger tu información personal y confidencial.
  • Node.js: Es un programa esencial que necesitas tener instalado en tu ordenador para poder usar las consolas de IA como Gemini, Codex o Claude. Si no lo tienes, verás un mensaje de error.
  • npm: Es una herramienta que se usa junto con Node.js para instalar y gestionar paquetes (programas) de JavaScript. Se menciona en las instrucciones de instalación de las IA.
  • Homebrew: Es un gestor de paquetes para sistemas operativos Mac y Linux, una forma alternativa de instalar programas de manera sencilla.
  • npx: Es un comando que te permite ejecutar un paquete (programa) sin necesidad de instalarlo de forma permanente. La aplicación se descarga cada vez que la usas.
  • GitHub (Repositorio oficial): Es una plataforma muy popular donde los desarrolladores de software almacenan y gestionan el código de sus proyectos. Los «repositorios oficiales» son donde se encuentra el código original y más actualizado de las IA.
  • WSL (Windows Subsystem for Linux): Es una característica de Windows que permite ejecutar un entorno Linux (otro sistema operativo) dentro de Windows, lo que puede ser útil para ciertos programas o si tienes dificultades en Windows.
  • Markdown: Es un formato de texto simple que se usa para escribir documentos. La IA puede generar un archivo en este formato con una descripción del contenido de la carpeta actual.
  • Tokens: Son las unidades en las que la inteligencia artificial procesa el texto (pueden ser palabras, partes de palabras o incluso caracteres).
  • Ventana de contexto: Se refiere a la cantidad máxima de «tokens» que una IA puede procesar o «recordar» en una conversación o tarea. Una ventana más grande significa que la IA puede manejar textos más largos o recordar más información de la conversación.
  • Opt-out: Significa la opción de poder desactivar voluntariamente una función que viene activada por defecto. Por ejemplo, en Gemini CLI, la opción de que tus datos se usen para entrenar el modelo está activada por defecto, pero puedes desactivarla.
  • Prompts: Son las instrucciones, preguntas o peticiones que tú le escribes a la inteligencia artificial.
  • Outputs: Son las respuestas o los resultados que genera la inteligencia artificial en base a tus «prompts».
  • Machine learning (aprendizaje automático): Es una rama de la inteligencia artificial que permite a los sistemas aprender de los datos para mejorar su rendimiento en tareas específicas, como entender lo que pides o generar respuestas.
  • Zero Data Retention (ZDR): Es una configuración avanzada que impide que tus datos sean almacenados, incluso temporalmente, en los servidores del proveedor de la IA. Se ofrece en versiones corporativas o para APIs específicas.
  • API (Application Programming Interface): Es un conjunto de reglas y herramientas que permiten a diferentes programas de software comunicarse entre sí. Cuando se menciona «OpenAI API», se refiere a usar los servicios de OpenAI (como ChatGPT) a través de una conexión directa de programa a programa, en lugar de la interfaz web.
  • Feedback para trust & safety: Se refiere a cuando un usuario marca un contenido como problemático o inadecuado para que sea revisado por motivos de seguridad o confianza.
  • Caché técnica: Es un almacenamiento temporal de datos que se guarda para que los programas funcionen más rápido.
  • Registros mínimos de auditoría: Son pequeños registros que se guardan para hacer un seguimiento básico de las operaciones, por ejemplo, quién accedió a qué sistema y cuándo, con fines de seguridad o cumplimiento normativo.

Referencias:

Prompts JSON: Instrucciones secretas para la IA

En los últimos años, los prompts han pasado de ser frases improvisadas a convertirse en auténticas instrucciones de trabajo para sistemas de inteligencia artificial. Lo que empezó como una conversación informal con un modelo de lenguaje ha dado paso, en algunos casos, a una forma más estructurada: los prompts en formato JSON.

Este artículo explica qué son, por qué se usan y en qué casos vale la pena adoptarlos. No es un manual técnico, sino una guía práctica para docentes y creadores de recursos que trabajan con IA.

Qué es un prompt en JSON

Un prompt en JSON no es más que una instrucción escrita como un objeto estructurado. En lugar de redactar:

Explícame el principio de Arquímedes con un ejemplo sencillo para alumnado de secundaria.

se escribe:

{
  "tarea": "explicar",
  "tema": "principio de Arquímedes",
  "nivel": "secundaria",
  "formato": "ejemplo sencillo"
}

En este prompt en formato JSON hay cuatro claves, cada una con su valor correspondiente:

  • "tarea" indica qué se le pide a la IA (en este caso, que explique).
  • "tema" señala el contenido sobre el que debe trabajar.
  • "nivel" marca el público destinatario o nivel educativo al que se dirige la respuesta.
  • "formato" define el tipo de salida esperada, aquí una explicación acompañada de un ejemplo sencillo.

Cada clave representa un aspecto específico de la instrucción, y su valor concreta cómo debe actuar la IA. Esta forma estructurada facilita la edición, reduce ambigüedades y permite reutilizar o automatizar la tarea con pequeñas modificaciones.

Ventajas

  • Claridad. Cada parte de la tarea se define por separado: qué se pide, a quién va dirigido, en qué formato debe responder la IA.
  • Reutilización. Cambiar solo un valor permite adaptar el prompt a otros contenidos o niveles educativos.
  • Compatibilidad. Muchos sistemas y plataformas de IA entienden este formato y permiten integrarlo en flujos más complejos.

¿Quién escribe estos JSON? No las personas

Conviene aclararlo: no se espera que los docentes redacten estos prompts a mano. Lo que se hace es pedirle a la propia IA que los genere. Por ejemplo:

Quiero un prompt en JSON para que otro modelo genere 5 preguntas tipo test sobre la célula eucariota para alumnado de 2.º de ESO.

Y la IA responde:

{
  "rol": "Asistente educativo experto en biología",
  "tarea": "crear ejercicio de tipo test",
  "tema": "la célula eucariota",
  "nivel": "2.º de ESO",
  "número_de_preguntas": 5,
  "formato_salida": "CSV con pregunta, cuatro opciones, respuesta correcta",
  "tono": "claro, directo, adaptado al nivel del alumnado"
}

Este resultado puede guardarse y usarse muchas veces con ligeras variaciones. Eso es lo que lo hace potente: no es solo una instrucción, sino una plantilla. Por eso conviene almacenarlos en un archivo, en una hoja o donde sea fácil acceder a ellos. La clave no es escribir JSON, sino pedirlo bien y conservarlo.

Podemos editarlo manualmente de una forma sencilla utilizando el siguiente editor JSON en el que podemos pegar el contenido o abrirlo desde un archivo.

Podemos hacer prompts más elaborados con uno como este:

Quiero que hagas un prompt en formato JSON. Antes de empezar, pregúntame el tema o tarea para el prompt. Tu tarea es la siguiente:

  1. Analiza el tema: Primero, entiende el objetivo principal del tema que te he dado. Por ejemplo, si el tema es «planificar una unidad didáctica», el objetivo es guiar a un profesor para estructurar el contenido y las actividades de un tema educativo.
  2. Descompón el proceso: Divide el objetivo principal en una serie de pasos lógicos y secuenciales. Piensa en las preguntas que le harías a una persona para ayudarla con esa tarea. Para «planificar una unidad didáctica», los pasos podrían ser:
    • Preguntar por la materia, el curso y el tema central.
    • Definir los objetivos de aprendizaje (qué deben saber o poder hacer los alumnos al final).
    • Secuenciar las actividades (introducción, desarrollo, práctica, proyecto).
    • Determinar los métodos de evaluación.
  3. Estructura el JSON: Crea un único bloque de código en formato JSON que organice esas instrucciones. Este JSON no es para mí, sino para que otra IA lo ejecute. Debe contener:
    • Un rol para la IA que ejecutará el proceso (ej: «Asistente de diseño curricular»).
    • Un objetivo que describa la meta final (ej: «Generar un borrador detallado de la unidad didáctica»).
    • Una lista de pasos o acciones. Cada paso debe ser un objeto que indique claramente qué debe hacer o preguntar la IA en ese momento.
    • Una descripción del resultado final que la IA debe entregar al usuario una vez completados los pasos (ej: «Un documento estructurado con los apartados de la unidad didáctica: objetivos, contenidos, secuencia de actividades y evaluación»).

Tu respuesta final debe ser únicamente el código JSON, sin explicaciones adicionales.

Lo importante es que una vez tengamos un prompt a nuestra medida, lo guardemos para reutilizarlo las veces que hagan falta, simplemente modificando los valores necesarios.

¿Cuándo conviene usarlo?

Cuando se necesita precisión, repetición o integración con otros sistemas. También cuando se trabaja en equipo, es útil compartir instrucciones claras.

No tiene sentido para tareas simples o abiertas, donde una frase en lenguaje natural basta.

El caso educativo

En educación, estos prompts son útiles para generar preguntas, resúmenes, explicaciones, esquemas y más. Definir el nivel del alumnado, el tipo de tarea y el formato de salida, evita respuestas vagas o fuera de contexto.

Ejemplo:

{
  "rol": "Asistente educativo especializado en biología",
  "tono": "claro y adaptado a estudiantes de secundaria",
  "tarea": "crear una pregunta tipo test",
  "tema": "la fotosíntesis",
  "nivel": "2.º ESO",
  "formato_salida": "CSV con cuatro opciones y respuesta correcta"
}

Este prompt se puede copiar, adaptar a otro tema, o integrar en una hoja de cálculo que automatice la creación de ejercicios.

No hay que limitarse a una lista de claves, también podemos tener subclaves que añade claridad al prompt:

{
  "rol": "Asistente educativo especializado en biología",
  "tono": "claro y adaptado a estudiantes de secundaria",
  "tarea": "crear una pregunta tipo test",
  "contenido": {
    "tema": "la fotosíntesis",
    "nivel": "2.º ESO"
  },
  "salida": {
    "formato": "CSV",
    "estructura": ["pregunta", "opción_a", "opción_b", "opción_c", "opción_d", "respuesta_correcta"]
  },
  "instrucciones": [
    "Usa un lenguaje accesible para alumnado de 13-14 años",
    "Evita tecnicismos innecesarios",
    "Incluye una breve explicación tras la respuesta correcta"
  ]
}

Con el editor JSON podremos pegar nuestro prompt y acabar de pulirlo.

Conclusión

El JSON no reemplaza al lenguaje natural, pero lo complementa cuando se necesita orden, fiabilidad o estructura. Un buen prompt en JSON es claro, modificable y reutilizable. Y lo más importante: no hay que escribirlo a mano. Hay que saber cuándo pedirlo, cómo pedirlo y dónde guardarlo.

Vídeo explicativo creado por NotebookLM

FAQ creado por NotebookLM

¿Qué es un «prompt en JSON»?

Un «prompt en JSON» es una instrucción para un sistema de inteligencia artificial que está escrita como un objeto estructurado. A diferencia de una frase simple en lenguaje natural, esta instrucción desglosa la tarea en partes específicas utilizando un formato JSON (JavaScript Object Notation), donde cada «clave» representa un aspecto de la instrucción (como «tarea», «tema», «nivel», «formato») y su «valor» especifica cómo debe actuar la IA en relación a ese aspecto.

¿Cuáles son las ventajas principales de usar prompts en JSON?

Las principales ventajas son:

  • Claridad: Permite definir cada parte de la tarea de forma separada, eliminando ambigüedades.
  • Reutilización: Facilitan la adaptación de prompts existentes a nuevos contextos simplemente cambiando los valores de las claves, lo que los convierte en plantillas potentes.
  • Compatibilidad: Muchos sistemas y plataformas de IA pueden entender e integrar este formato, permitiendo flujos de trabajo más complejos y automatizados.

¿Se espera que los usuarios, como los docentes, escriban estos prompts en JSON manualmente?

No, no se espera que los usuarios escriban estos prompts en JSON a mano. La práctica común y recomendada es pedirle a la propia IA que los genere. Una vez generados, estos prompts pueden guardarse y reutilizarse, modificando solo los valores necesarios para adaptarlos a diferentes tareas o contextos. Lo crucial es saber cómo pedir el JSON y dónde almacenarlo para futuras referencias.

¿Cuándo es más conveniente usar un prompt en JSON en lugar de una instrucción en lenguaje natural?

Es más conveniente usar un prompt en JSON cuando se requiere:

  • Precisión: Para asegurar que la IA entienda exactamente qué se espera.
  • Repetición: Cuando la misma estructura de tarea se necesita varias veces con pequeñas variaciones.
  • Integración: Al trabajar con otros sistemas o plataformas de IA.
  • Trabajo en equipo: Para compartir instrucciones claras y uniformes.

No tiene sentido para tareas muy simples o abiertas donde una frase en lenguaje natural es suficiente.

¿Cómo pueden los prompts en JSON ser útiles en el ámbito educativo?

En el ámbito educativo, los prompts en JSON son muy útiles para generar contenido específico y adaptado. Permiten crear preguntas, resúmenes, explicaciones, esquemas, etc., definiendo con precisión el nivel del alumnado, el tipo de tarea y el formato de salida deseado. Esto evita respuestas vagas o fuera de contexto, y facilita la automatización de la creación de materiales didácticos, como ejercicios adaptados a diferentes temas o grados.

¿Pueden los prompts en JSON tener una estructura más compleja, como subclaves o listas de instrucciones?

Sí, los prompts en JSON pueden tener una estructura más compleja que una simple lista de claves y valores. Pueden incluir subclaves para organizar mejor la información (por ejemplo, agrupar «tema» y «nivel» dentro de una clave «contenido») y listas de instrucciones detalladas para la IA. Esta flexibilidad permite un control aún mayor sobre el comportamiento de la IA y la forma de la salida esperada.

¿Cuál es la idea central detrás de «JSON Prompting» según las fuentes?

La idea central de «JSON Prompting» es la práctica de comunicarse con un modelo de IA utilizando entradas estructuradas y esperando salidas igualmente estructuradas. Se trata de pasar de una conversación informal con la IA a una forma más organizada y fiable de interacción, donde tanto la instrucción como la respuesta del modelo tienen un formato predefinido, lo que mejora la claridad y la capacidad de procesamiento automático.

¿Qué implica la «reutilización» de los prompts en JSON y por qué es importante?

La «reutilización» de los prompts en JSON implica la capacidad de guardar una plantilla de instrucción estructurada y usarla múltiples veces, simplemente modificando los valores de algunas claves. Por ejemplo, un prompt diseñado para generar preguntas sobre el «Principio de Arquímedes» para «secundaria» puede reutilizarse para «La célula eucariota» en «2.º de ESO» cambiando solo los valores de «tema» y «nivel». Esta característica es importante porque ahorra tiempo, asegura la coherencia en las instrucciones y permite automatizar la creación de contenido a gran escala.

Fuentes

Este artículo tiene nivel 4 en el Marco para la integración de la IA generativa en las tareas educativas.

Inteligencia artificial y matemáticas: cálculo y formato

Recientemente y hablando de matemáticas, he visto comentarios acerca de que los chatbots son incapaces de resolver problemas matemáticos donde hay algún tipo de cálculo o que no pueden comprender lo que se les sube, por ejemplo, en PDF.

Estas críticas entroncan directamente con dos capacidades matemáticas importantes: la capacidad de realizar operaciones matemáticas y, una más genérica, que es el formato con el que leen mejor los datos.

Chatbots con capacidad de cálculo

El primer error que suele cometer el docente inexperto consiste en pensar que da igual usar un chatbot u otro, pongamos, por ejemplo, Copilot o ChatGPT, para resolver un problema. Nada más lejos de la realidad, porque las diferencias en las capacidades matemáticas entre chatbots son abismales. Como veremos a continuación, los chatbots dan resultados incorrectos porque intentan hacer los cálculos «de cabeza» y se equivocan. Son muy pocos los que pueden utilizar herramientas informáticas de cálculo (programación).

Veamos un ejemplo donde les pedimos la media de 39 números. Hemos utilizado tres prompts en el mismo chat. El primero ha sido:

El segundo ha sido:

Y, por último:

En la siguiente tabla podemos ver los resultados obtenidos con cada uno de los chatbots.

ChatbotResultados de los prompts:
1 / 2 / 3
¿Resultado correcto?
Claude53.5 / 53.5 / 53.5✅ / ✅ / ✅
ChatGPT53.8 / 53.5 / 53.5❌ / ✅ / ✅
Gemini53.4 / 53.4 / 53.5❌ / ❌ / ✅
DeepSeek51.3 / 51.3 / 53.5❌ / ❌ / ✅
Grok53.6 / 53.6 / 53.5❌ / ❌ / ✅
Copilot57.4 / 57.4 / –❌ / ❌ / ❌
Perplexity52.0* / 52.0 / –❌ / ❌ / ❌

* Perplexity da un primer resultado válido, pero no los siguientes. El motivo es que, en la versión gratuita, la opción Pro Search se desactiva automáticamente, por lo tanto se considera un resultado negativo.

  • Claude ha utilizado programación desde el primer momento (hizo un programa en JavaScript), por lo que su resultado ha sido exacto desde el principio. De hecho, cuando se le puso el segundo prompt se «quejó» diciendo que ya lo había hecho antes.
  • ChatGPT confió en sus capacidades de cálculo y lo resolvió en un primer momento sin usar programación; el resultado fue, lógicamente, erróneo. ChatGPT no siempre hace esto, cuando ve operaciones complejas, suele utilizar programación desde un primer momento (hace programas en Python). Para asegurarnos de que siempre lo hará así, lo mejor es decirle desde el principio que use programación para los cálculos, de este modo su resultado será siempre acertado.
  • Gemini, DeepSeek y Grok dan un resultado erróneo en un primer momento. Cuando se les pide que usen programación en el chat con el segundo prompt, los tres hacen un programa que no ejecutan, por lo que tampoco dan el resultado correcto. Se limitan a decir que con ese programa el usuario podrá comprobar que el primer resultado era válido. Cuando se les pide un programa en HTML, los tres lo hacen, lo permiten ejecutar desde el mismo chat y se obtiene el resultado correcto.
  • Copilot y Perplexity no dan el resultado correcto en ningún caso, ya que no pueden ejecutar programas en el chat y tampoco son capaces de ejecutar los programas que crean en HTML, por lo que no es posible comprobar sin salir del chat, si los programas realmente funcionan.

Como conclusión, podemos decir que, cuando hay implicados cálculos matemáticos, debemos limitarnos a utilizar Claude y ChatGPT. Por seguridad, siempre es preferible decirles desde el principio que usen programación para calcular los resultados.

Podemos utilizar Gemini, DeepSeek o Grok (aquí también entraría el chatbot Qwen) siempre que les hagamos hacer programas en HTML para poder ejecutarlos una vez que los hayan creado.

Bajo ningún concepto deberíamos usar Copilot o Perplexity, ya que los resultados tienen una alta probabilidad de ser erróneos.

Debemos tener en cuenta que tanto ChatGPT como Claude pueden utilizar librerías como SymPy o mathjs con las que se puede hacer cálculo simbólico como, por ejemplo, derivadas de funciones y también librerías gráficas con las que podremos tener gráficos en el transcurso de nuestra conversación en el chat. Estos dos chatbots están muy por delante de cualquiera de sus competidores.

ChatGPT hace los programas en Python y Claude en JavaScript, dado que Python es más potente para la manipulación y cálculo matemático, ChatGPT se presenta como el chatbot más potente en matemáticas, no obstante, para las tareas habituales ambos nos irán igualmente bien.

En el artículo ¿Qué IA me conviene? hay una tabla, que se actualiza periódicamente, donde se indica la capacidad de las diferentes IA para hacer cálculos (fila 7). En el caso de que otros chatbots adquieran posteriormente la capacidad de hacer cálculos matemáticos, se indicará puntualmente allí.

El formato matemático desde la perspectiva de los chatbots

El formato que mejor manejan los chatbots es el de texto puro. Todos ellos utilizan para sus respuestas el formato Markdown, que es texto puro, pero con ciertas marcas que definen formatos, listas de viñetas o fórmulas. Cuando usamos el botón copiar del chat, lo que estamos copiando es el texto en formato Markdown.

Aunque podemos escribir una fracción como: (x+1)/(3x+2), hay expresiones que pueden ser más complicadas de representar y la recomendación es usar LaTeX. La fórmula anterior se escribiría como \frac{x+1}{3x+2} que se vería como \(\frac{x+1}{3x+2}\). No se trata ahora de aprender LaTeX, aunque recomiendo muy encarecidamente conocer lo más básico que son unas pocas expresiones como la de la fracción anterior (en esta página tienes lo más usado).

Documentos

Para convertir un texto en formato DOCX o PDF a Markdown podemos utilizar Gemini, ya que hace una conversión más que aceptable. Podemos usar un prompt como este:

La coletilla «no añadas citas» es para evitar que nos añada enlaces al documento con la localización del texto, aunque si las pone tampoco supondrá un problema.

El texto producido hay que copiarlo con el botón que hay en la base del chat (nunca seleccionando con el ratón) y lo podremos pegar directamente en ChatGPT o Claude. También lo podemos guardar en un archivo de texto, utilizando un programa como el bloc de notas de Windows, con la extensión: md. Por ejemplo: mi_examen.md o guardándolo como texto sin formato en Word o Google Docs. No debemos guardarlo con el formato por defecto de estos procesadores de texto.

Si actuamos de este modo, los chatbots entenderán perfectamente el texto que les estamos proporcionando y ya no tendremos la impresión de que la IA no nos entiende cuando le pedimos algo (cuando, en realidad, lo que no entiende son los datos que le subimos).

Utilidades para las fórmulas

Estos programas son de utilidad para el que trabaja habitualmente con fórmulas. El primero es para reutilizar las conversaciones con los chatbots y el segundo para hacer fórmulas.

MDAITex. Con este programa podremos hacer el paso inverso al explicado antes: el resultado proporcionado por el chatbot (la solución de un examen, ejercicios, etc.) lo podremos pasar a nuestro procesador de textos favorito.

EdiCuaTeX. Es un editor de fórmulas gráfico con el que podemos hacer fórmulas que obtendremos en LaTeX y que también podremos descargar como imagen.

Imágenes

Aunque no es tan preciso como lo anterior, todos los chatbots pueden descifrar las imágenes, por lo que si subimos fotos no debería haber ningún problema, incluso si el texto y las fórmulas están escritas a mano.

Conclusiones

Los mejores chatbots para usar en matemáticas y otras asignaturas científicas, son ChatGPT y Claude. En las conversaciones conviene indicarles que hagan los cálculos mediante programación. Para pasarles documentos hay que pedirle a Gemini que los transcriba a formato Markdown y se los proporcionaremos en este formato.

Pódcast creado con NotebookLM

FAQ del artículo

1. ¿Son todos los chatbots igualmente capaces de resolver problemas matemáticos?

No, las diferencias en las capacidades matemáticas entre los chatbots son abismales. Muchos chatbots cometen errores al intentar realizar cálculos «de cabeza» y no pueden utilizar herramientas de programación. Solo unos pocos chatbots, como Claude y ChatGPT, son fiables para cálculos matemáticos complejos, ya que pueden usar programación.

2. ¿Por qué algunos chatbots dan resultados incorrectos en matemáticas y cómo se puede mejorar su precisión?

Los chatbots dan resultados incorrectos cuando intentan hacer los cálculos sin usar programación. Para asegurar resultados precisos, es fundamental pedirles que usen programación desde el principio. Por ejemplo, al solicitar a ChatGPT que use programación (Python), sus resultados son consistentemente correctos. Otros chatbots como Gemini, DeepSeek, y Grok, aunque pueden generar código, no lo ejecutan internamente, requiriendo que el usuario ejecute el programa (por ejemplo, en HTML) para obtener la respuesta correcta.

3. ¿Cuáles son los chatbots más recomendados para tareas matemáticas y científicas?

Los mejores chatbots para usar en matemáticas y otras asignaturas científicas son ChatGPT y Claude. Claude utiliza JavaScript para su programación interna, mientras que ChatGPT usa Python. Aunque ambos son muy competentes, Python ofrece una mayor potencia para la manipulación y el cálculo matemático, lo que posiciona a ChatGPT como el más potente en matemáticas. Ambos pueden integrar librerías de cálculo simbólico (como SymPy o mathjs) y gráficas.

4. ¿Qué formato de datos es el más efectivo para que los chatbots entiendan la información, especialmente en matemáticas?

El formato que mejor manejan los chatbots es el de texto puro, específicamente Markdown. Markdown permite incluir ciertas marcas para definir formatos, listas o fórmulas. Para expresiones matemáticas complejas, se recomienda usar LaTeX, ya que los chatbots lo interpretan sin problemas. Es crucial copiar el texto directamente con el botón de copiar del chat para asegurar que el formato Markdown se preserve.

5. ¿Cómo se pueden transcribir documentos como DOCX o PDF para que los chatbots los procesen eficazmente?

Para transcribir documentos en formatos como DOCX o PDF a un formato legible para los chatbots, se puede utilizar Gemini. Se le puede pedir a Gemini que transcriba el documento a formato Markdown con un prompt como: «Transcribe el siguiente documento al formato Markdown, no añadas citas». Una vez transcrito, el texto resultante debe copiarse utilizando el botón de copiar del chat y pegarse directamente en chatbots como ChatGPT o Claude, o guardarse como un archivo .md.

6. ¿Es posible que los chatbots entiendan texto y fórmulas escritas a mano en imágenes?

Sí, aunque no con la misma precisión que con texto puro o LaTeX, todos los chatbots pueden descifrar imágenes. Esto significa que si se suben fotos con texto y fórmulas, incluso si están escritas a mano, los chatbots deberían poder procesarlas sin mayores problemas.

7. ¿Qué herramientas externas pueden complementar el uso de chatbots para trabajar con fórmulas matemáticas?

Existen utilidades que facilitan el trabajo con fórmulas. MDAITex es un programa que permite convertir los resultados proporcionados por los chatbots (en Markdown) a un formato compatible con procesadores de texto, invirtiendo el proceso de transcripción. EdiCuaTeX es un editor gráfico de fórmulas que permite crear expresiones en LaTeX y descargarlas como imagen, facilitando la creación de contenido matemático.

8. ¿Qué precauciones deben tomarse al usar chatbots para cálculos matemáticos?

Es crucial indicar a los chatbots (especialmente a Claude y ChatGPT) que realicen los cálculos mediante programación para asegurar la exactitud de los resultados. Además, para proporcionar documentos a los chatbots, se recomienda transcribirlos previamente a formato Markdown usando Gemini. Se desaconseja el uso de chatbots como Copilot o Perplexity para cálculos matemáticos, ya que sus resultados son propensos a errores y no pueden ejecutar programas internamente. Las capacidades mencionadas corresponden a las versiones gratuitas de los chatbots.

Notas

Las versiones de las que hablamos en este artículo son las gratuitas para cada uno de los chatbots, las que aparecen por defecto al abrir su enlace.

Este artículo tiene nivel 0 en el marco para la integración de la IA generativa en las tareas educativas. Excepto las FAQ y el pódcast que ha sido creado por NotebookLM.

Cómo crear un chatbot en Gemini con canvas

Gemini permite realizar programas y páginas web utilizando canvas (o lienzo) que es un espacio separado del chat, pero integrado en él, donde tanto Gemini como el usuario pueden escribir.

Para ilustrar el proceso, haremos una aplicación que será un chatbot que admita texto y el programa nos haga preguntas sobre él para ver si lo hemos comprendido.

Pasos previos

Es muy importante seleccionar el modelo más potente, que en este momento es 2.5 Pro (preview).

y marcar la opción Canvas:

Las cuentas corporativas normalmente no tienen la opción para compartir el programa, lo cual será necesario más adelante para que otros lo puedan usar. Por lo tanto, asegúrate de que tu cuenta permita compartir el programa que hagas o tendrás que empezar de cero. Para ello, pídele cualquier programa que haga rápidamente (por ejemplo, un programa que muestre la hora actual) y asegúrate de que el botón compartir está activado:

Objetivo del chatbot y su creación

En primer lugar, debemos tener muy claro lo que queremos y, si no lo tenemos, trabajar hasta obtener una descripción que lo sea.

Para hacer el prompt ejemplo de este artículo he utilizado Claude, pero podemos usar el mismo Gemini o cualquier otra que queramos. Con la idea en mente de hacer un programa que sirviese para saber si hemos comprendido determinado texto de una materia, le he pedido a Claude tipos de preguntas que podríamos hacer y después he añadido que fuese un método socrático. La conversación completa hasta obtener el prompt final está aquí y este ha sido:

Aquí tenemos una captura de pantalla después de pegar el prompt y de que Gemini haya trabajado un rato:

Depuración del chatbot

Lo siguiente que hay que hacer es probarlo en profundidad para encontrar errores o aspectos que no nos gusten. Cuando queramos cambiar algo, simplemente le explicamos a Gemini lo que queremos hacer y por qué, esto último ayuda a que la IA se haga una idea de lo que perseguimos realmente.

Un problema es que cuando se trabaja mucho tiempo en el mismo chat, Gemini empieza a arrastrar errores anteriores y se entra en un bucle difícil de salir. En este caso lo aconsejable es compartirlo, abrir la dirección compartida y pulsar el botón «Copiar Canvas» con lo que podremos empezar con el programa completo y el chat limpio.

Si trabajamos mucho tiempo en un programa, probablemente se nos acaben las interacciones gratuitas, en ese caso podemos esperar a que se restablezcan o utilizar la misma técnica explicada antes de compartir y empezar en un chat nuevo, pero esta vez cambiando de usuario. Los pasos serían: compartir el programa, cambiar de usuario, abrir el enlace compartido, pulsar «Copiar Canvas» desde el nuevo usuario y continuar con la mejora del programa.

Compartir el chatbot

Una vez tengamos la versión definitiva, hay que pulsar el botón para compartir y copiar la URL que nos dará.

Si hacemos algún cambio en el programa, tenemos que volver a compartirlo y esta dirección también cambiará. Esto puede ser un problema si ya se la hemos dado al alumnado. Por eso, es mejor usar un documento online u otro sistema que nos permita actualizar la URL sin tener que volver a difundirla. Así, los alumnos accederán siempre al mismo documento, donde encontrarán la dirección actual del programa.

Tutor socrático con IA

Puedes probar el programa en este enlace. Si lo deseas, cópialo y mejóralo. Por ejemplo, se me ocurre, no limitar a 8 las preguntas y que sea el usuario el que elija cuántas quiere, que el informe final se pueda copiar, que por defecto la edad sea de 14 años (que es la edad mínima legal para usar Gemini) o que podamos abrir archivos PDF, no solo pegar texto.

Pulsa sobre la imagen para abrir el tutor socrático

Recomendaciones

Actúa prudentemente, si le pides cosas demasiado complicadas, puede ser que el programa empiece a fallar y no consigas que vuelva a funcionar. Una forma de mitigar esto es compartirlo de vez en cuando e ir guardando estas direcciones, así podremos volver atrás en cualquier momento. También puedes volver a la versión anterior pulsando el botón indicado a continuación:

Si el programa da errores, aparecerá un mensaje indicándolo. Si el error es 401, actualiza la página. Este error normalmente indica que se ha perdido la conexión y es inútil decirle a Gemini que lo arregle. Si es otro tipo de error, un enlace te permitirá que Gemini lo arregle automáticamente. Si no lo consigues después de varios intentos, vuelve a una versión anterior.

Si, cuando acaba de hacer el programa, en lugar de aparecer la vista previa con el programa, esta está en blanco, actualiza el navegador y volverá a funcionar, después de hacerte confirmar que no eres un robot.

Puedes añadir más características basadas en IA, pulsando el botón con el símbolo de la IA que está en una pequeña barra de herramientas abajo a la derecha:

No pedirá confirmación, añadirá las características que a Gemini le parecen adecuadas. Si no nos gustan, podemos usar el botón para volver a la versión anterior.

Para terminar

Para poder usar estos programas hechos por Gemini se necesitan cuentas de Google que puedan acceder a Gemini, por lo tanto, es posible que algunas cuentas sin acceso no lo puedan usar. Esto pasa, por ejemplo, con algunas de las educativas.

La técnica que hemos usado para construir este chatbot se llama vibe coding, que consiste en explicar a la IA lo que queremos conseguir y ella nos haga el programa. Si te interesa el tema, participa en el grupo de Telegram: Vibe Coding Educativo.

Pódcast creado con NotebookLM

FAQ generada con NotebookLM

¿Qué es «canvas» en el contexto de Gemini y cómo se utiliza para crear un chatbot?

Canvas, o lienzo, es un espacio interactivo dentro de la interfaz de Gemini que funciona de forma separada del chat principal pero está integrado en él. Permite que tanto Gemini como el usuario interactúen directamente con elementos visuales o código. Para crear un chatbot, se selecciona la opción «Canvas» al iniciar un nuevo chat o proyecto en Gemini. Este lienzo actúa como el entorno donde se desarrollará y probará el programa del chatbot, permitiendo la visualización y depuración de su funcionamiento.

¿Cuál es el primer paso crucial al diseñar un chatbot en Gemini y por qué es importante seleccionar el modelo adecuado?

El primer paso esencial es tener una idea muy clara del objetivo y funcionalidad del chatbot. Si la idea inicial no es lo suficientemente precisa, se debe refinar hasta obtener una descripción detallada de lo que se quiere que el chatbot haga. Es fundamental seleccionar el modelo más potente disponible en ese momento, como 2.5 Pro (preview), ya que un modelo más avanzado ofrece mayores capacidades y un mejor rendimiento para el desarrollo del programa.

¿Qué consideraciones se deben tener en cuenta sobre las cuentas corporativas al crear y compartir un chatbot en Gemini?

Las cuentas corporativas a menudo no disponen de la opción para compartir programas o aplicaciones creadas en Gemini. Dado que la posibilidad de compartir es necesaria para que otros usuarios puedan acceder y utilizar el chatbot, es vital asegurarse de que la cuenta utilizada permita esta función. Se recomienda verificar esta capacidad creando un programa sencillo y comprobando si el botón de compartir está activado antes de invertir tiempo en el desarrollo de un chatbot complejo.

¿Cómo se utiliza un prompt efectivo para guiar a la IA en la creación de un chatbot de tutoría Socrática como el descrito?

Un prompt efectivo debe ser específico y detallado sobre la funcionalidad deseada. Para el chatbot de tutoría Socrática, el prompt incluyó instrucciones claras sobre la interacción con el usuario (pegar texto, especificar edad), el método de enseñanza (preguntas abiertas, ajuste a respuestas, método socrático), los límites (máximo 8 preguntas), las condiciones de finalización (reconocimiento de falta de comprensión o límite alcanzado), y la generación de un informe final con análisis detallado (nivel de comprensión, puntos fuertes, áreas a reforzar, sugerencias de estudio). También se especificó la adaptación del lenguaje a la edad del usuario.

¿Qué estrategias se recomiendan para depurar un chatbot en Gemini y solucionar problemas comunes?

Para depurar, se prueba el chatbot exhaustivamente y se explican a Gemini los cambios deseados y las razones detrás de ellos. Si Gemini empieza a arrastrar errores de interacciones anteriores, se aconseja compartir el programa, abrir la URL compartida y copiarlo para empezar con un chat limpio pero conservando el programa. Si se agotan las interacciones gratuitas, se puede compartir el programa, cambiar de usuario y continuar desde el nuevo usuario, abriendo el archivo compartido. Para errores de tipo 401, se debe actualizar la página. Para otros errores, Gemini puede intentar solucionarlos automáticamente a través de un enlace proporcionado; si no funciona, se recomienda volver a una versión anterior.

¿Cómo se gestiona la compartición de un chatbot en Gemini, especialmente si se realizan actualizaciones?

Una vez finalizada la versión del chatbot, se utiliza el botón de compartir para obtener una URL. Si se realizan cambios posteriores, es necesario volver a compartir para obtener una nueva URL, ya que la anterior dejará de funcionar para la versión actualizada. Para evitar tener que redifundir constantemente la nueva URL a los usuarios (como estudiantes), se sugiere utilizar un documento en línea o sistema similar donde se pueda actualizar la URL de forma centralizada. Así, los usuarios acceden siempre al mismo documento para obtener la dirección actualizada del programa.

¿Qué técnica de desarrollo se menciona y en qué consiste?

La técnica de desarrollo mencionada es «vibe coding». Consiste en describir a la inteligencia artificial lo que se desea conseguir o el resultado final esperado, y dejar que la IA se encargue de generar el código o el programa necesario para lograrlo. En lugar de dar instrucciones de programación paso a paso, se le comunica a la IA el «vibe» o la intención del proyecto.

¿Qué precauciones se sugieren al desarrollar un chatbot en Gemini y cómo se pueden mitigar posibles fallos?

Se recomienda actuar prudentemente y evitar pedirle a la IA cosas demasiado complicadas, ya que esto puede causar que el programa falle y sea difícil de recuperar. Una forma de mitigar esto es compartir el programa periódicamente y guardar las URLs de estas versiones intermedias. Esto permite volver a una versión anterior funcional si el desarrollo actual presenta problemas irresolubles. Además, Gemini ofrece un botón para volver a la versión anterior en caso de errores o cambios no deseados. Si aparece un mensaje de error, se debe prestar atención al tipo de error (ej. 401 indica pérdida de conexión).

Cómo conectar una aplicación con una hoja de cálculo de Google

Una de las cosas interesantes a la hora de hacer programas educativos mediante IA mediante la técnica del vibe coding es el poder llevar algún tipo de registro y guardar datos suministrados por los usuarios o recopilados por el propio programa en un medio que estamos acostumbrados a usar como las hojas de cálculo de Google. También nos puede interesar leer datos de una hoja de cálculo para hacer estadísticas, etc.

Haremos un ejemplo pidiéndole a Gemini que nos ayude a configurar la hoja de cálculo y que después nos haga un programa, que en este caso será una pequeña encuesta. No es necesario en absoluto utilizar Gemini y podemos usar nuestra IA preferida.

Prompt inicial

Con este prompt le describimos a la IA la aplicación que queremos hacer y los datos que queremos que se guarden en nuestra hoja de cálculo. Es importante que la descripción de los datos que necesitamos guardar en la hoja de cálculo sea precisa o deberíamos repetir su configuración.

Quiero hacer una aplicación HTML donde el usuario responda 3 preguntas: su nombre, sugerencias y una escala de valoración que responderá a la pregunta «¿Te ha sido útil esta información?», que va de 0 (nada) a 4 (mucho) y el resultado lo añada a una hoja de cálculo de Google mediante Apps Scripts. Guíame paso a paso para preparar la hoja de cálculo y luego haremos el programa en HTML.

En este prompt podemos indicar con detalle cómo deberá ser nuestra aplicación. En nuestro caso, es solo un formulario que podrás responder al final.

Ya sea leer o escribir en la hoja de cálculo, los pasos a seguir serán los mismos, solo cambiará el script que nos dará la IA y el propio programa en sí.

Preparación de la hoja de cálculo

El resultado ha sido este:

Así es como ha quedado la hoja de cálculo:

Creación del script

Le pedimos que continúe y nos proporciona las siguientes instrucciones con el script (instrucciones) que deberemos copiar. Más abajo tenemos las capturas de pantalla con todos los pasos.

Una cosa muy importante de la que a veces nos avisa, pero no otras, es el nombre de la pestaña de la hoja. Si no coincide el nombre que tenga con el del código que nos ha dado, la aplicación no funcionará. Por lo tanto, si no nos informa de este nombre, deberemos pedírselo:

Así pues, dado que el nombre es «Respuestas del formulario» deberemos renombrar la hoja. Hay que ser cuidadosos en poner el nombre exactamente tal como nos lo ha escrito, vigilando que no haya espacios en blanco extra:

A continuación seguiremos todos los pasos que nos ha dicho:

Borramos lo que aparece al abrir, en su lugar pegamos el código que nos ha proporcionado y le ponemos el nombre que nos ha sugerido:

Seleccionamos: Nueva implementación

Rellenamos la ventana tal como nos ha indicado:

Ahora aparecerán algunas ventanas de Google pidiéndonos permisos (no las hemos incluido todas), debemos dar permiso:

Creación del programa final

Una vez lleguemos a la pantalla anterior, debemos copiar la URL que nos proporciona y se la daremos a la IA para que haga el programa:

Este programa lo podremos copiar y pegar donde queramos, para empezar aconsejamos Google Sites, pero para un segundo nivel es preferible un sistema dedicado a páginas web como Github (véase el artículo Dónde publicar las aplicaciones).

Responde al formulario

!Expresa tu opinión sobre este articulo¡

Aquí tienes las respuestas dadas hasta el momento.

Pódcast creado por NotebookLM

FAQ (creado por NotebookLM)

¿Cuál es el objetivo principal de integrar una aplicación con una hoja de cálculo de Google?

El objetivo principal es poder registrar y guardar datos proporcionados por los usuarios o recopilados por la propia aplicación en un formato familiar y fácil de usar como las hojas de cálculo de Google. Esto es especialmente útil para programas educativos o encuestas.

¿Qué herramienta de IA se utiliza como ejemplo en el proceso, pero no es estrictamente necesaria?

En el ejemplo proporcionado, se utiliza Gemini para guiar el proceso. Sin embargo, se aclara que no es necesario usar Gemini y se puede emplear cualquier otra IA de preferencia.

¿Qué información precisa es crucial proporcionar a la IA al describir los datos que se desean guardar en la hoja de cálculo?

Es fundamental describir con precisión los datos que se necesitan guardar. Si esta descripción no es exacta, es posible que se deba repetir la configuración de la hoja de cálculo.

¿Cuál es la primera etapa del proceso con la ayuda de la IA?

La primera etapa es describir a la IA la aplicación que se quiere crear y detallar los datos específicos que se desean guardar en la hoja de cálculo mediante un «prompt» inicial.

¿Qué paso importante se destaca respecto al nombre de la pestaña en la hoja de cálculo y el código del script?

Se enfatiza la importancia de que el nombre de la pestaña de la hoja de cálculo coincida exactamente con el nombre especificado en el código del script proporcionado por la IA. Si no coinciden, la aplicación no funcionará.

¿Qué se debe hacer con el código del script proporcionado por la IA una vez que se obtiene?

Se debe borrar el contenido existente al abrir el editor de scripts de la hoja de cálculo y pegar el código proporcionado por la IA en su lugar. También se debe dar al script el nombre sugerido por la IA.

¿Qué paso sigue después de crear y nombrar el script en la hoja de cálculo?

El siguiente paso es seleccionar la opción «Nueva implementación» y configurar la ventana emergente según las indicaciones proporcionadas.

Una vez completada la implementación del script y obtenidos los permisos necesarios, ¿qué se hace con la URL proporcionada?

Se debe copiar la URL que se obtiene al finalizar la implementación del script y proporcionársela a la IA para que genere el código de la aplicación HTML que permitirá la interacción con la hoja de cálculo.

Nota: Este artículo tiene nivel 0 en el Marco para la integración de la IA generativa en las tareas educativas. Excepto el pódcast y las FAQ que han sido creadas íntegramente por NotebookLM (nivel 5).

« Entradas anteriores Entradas siguientes »

© 2025 Bilateria

Tema por Anders NorenArriba ↑