Bilateria

Blog sobre educación

Página 3 de 23

Guía básica para usar la inteligencia artificial desde la terminal (parte II)

Las consolas o terminales CLI de la IA son programas de línea de comandos que permiten conversar y trabajar con modelos de inteligencia artificial directamente en el ordenador. En la primera parte de esta guía expliqué con más detalle lo que son, cómo se instalan y su uso básico, por lo que allí podrás encontrar esta información elemental.

¿Por qué usar la versión CLI?

Las versiones CLI, Command Line Interface, que significa Interfaz de Línea de Comandos, nos permiten trabajar directamente en nuestro ordenador sin depender de una página web, lo que amplía las posibilidades de uso.

Por ejemplo, podemos hacer operaciones masivas como renombrar muchos archivos de una sola vez, cambiar la resolución de una carpeta con fotos o pedirle que extraiga el texto de un vídeo.

Según lo que hagamos, el chat web está limitado a utilizar un único archivo. Si hacemos recursos educativos multimedia como páginas web o programas en HTML, la versión CLI de la IA trabaja directamente con los archivos que tenemos en una carpeta (imágenes, audios, páginas web, etc) sin necesidad de subirlos al chat web, que además no puede mostrar la previsualización si hay más de un archivo. Por este motivo, las versiones CLI no tienen problema en trabajar con docenas de archivos, los irán leyendo según convenga.

Incremento de la potencia de la IA debido al uso de programas que hacen sobre la marcha para responder algunas de nuestras peticiones. ChatGPT y Claude pueden hacer programas (o archivos de instrucciones) para respondernos en el chat web, sin embargo, ni Gemini ni Qwen tienen esa capacidad, por lo que siempre que les pidamos algo que requiera el uso de un programa (como un cálculo preciso o complicado) nos darán resultados erróneos asegurando que es correcto. Sin embargo, todas las versiones CLI usan mecanismos adicionales (scripts auxiliares) cuando lo necesitan, especialmente para operaciones con archivos, cálculos o automatizaciones, por lo que en el caso de Gemini y Qwen la mejora es más que notable.

¿Es gratuito?

Gemini y Qwen sí, Codex (de ChatGPT) y Claude requieren una versión de pago. Los límites de uso pueden verse en el artículo indicado antes.

La memoria de la IA: archivos de instrucciones

Estos archivos nos permiten dotar de memoria a la IA cuando se inician con los datos que nos interesen, por lo que nos permiten darles conocimiento extra. Es similar a la personalización de las respuestas que encontramos en los chatbots de la web.

Todas las consolas usan la misma estructura para guardar datos de interés que pueden ser añadidos por la propia IA o por el usuario. Son archivos de texto en formato Markdown.

Cuando se inicia una versión CLI de una IA, esta busca siempre dos archivos de configuración: el primero, con instrucciones generales, se encuentra en la carpeta propia de la IA; el segundo, con el mismo nombre, se localiza en la carpeta actual (desde donde abrimos la consola). Tanto el nombre del archivo como la ubicación de la carpeta de configuración varían según la IA utilizada

IA Carpeta de configuración Nombre del archivo de configuración
Codex Windows: %USERPROFILE%\.codex
Linux/MacOS: ~/.codex
AGENTS.md
Gemini Windows: %USERPROFILE%\.gemini
Linux/MacOS: ~/.gemini
GEMINI.md
Qwen Windows: %USERPROFILE%\.qwen
Linux/MacOS: ~/.qwen
QWEN.md
Claude Windows: %USERPROFILE%\.claude
Linux/MacOS: ~/.claude
CLAUDE.md

En la carpeta configuración es posible que no encontremos el archivo .md de instrucciones, pero lo podemos crear en cualquier momento y añadir lo que queramos que la IA sepa. Por ejemplo, podemos agregar:

  • Nuestro nombre, para que se dirija a nosotros con él.
  • Nuestro trabajo y asignaturas que impartimos para que enfoque lo que hace en el sentido que nos interesa.
  • Aspectos que queremos que siempre tenga en cuenta, por ejemplo: que cuando haga un programa ponga siempre un tipo de licencia de uso.
  • Y cualquier otro aspecto que queremos que la IA conozca cuando la iniciamos.

En la carpeta de trabajo, que es desde la que hemos arrancado la consola, también podemos crear un archivo de instrucciones relativas al proyecto concreto en el que estamos trabajando. Por ejemplo, si usamos GitHub, que cada vez que haga un cambio importante lo suba a la web y cualquier otra instrucción que queramos.

En ambos casos, nos podemos encontrar que el archivo de configuración ya existe porque la IA lo usa para recordar lo que considera importante. No obstante, eso no es ningún problema y podemos añadir nuestras instrucciones al principio o al final.

Cómo saber qué versión de LLM está usando la consola

En Gemini y Qwen, una vez hemos entrado, escribiremos /about y obtendremos algo como esto:

En Codex y Claude, escribiremos /status. En Claude también podemos escribir simplemente /model.

/status en Codex

Cambiar el modelo LLM que usará CLI

Cambiar el modelo es útil para aprovechar mejor los límites que tiene cada IA, ya que con modelos inferiores el gasto en tokens será mucho menor y podremos alargar mucho más las conversaciones, aunque hay que decir que los límites suelen ser generosos (véase: Consolas de IA: usar Gemini, ChatGPT, Claude y Qwen desde el ordenador)

Cuando ponemos en marcha la consola de una IA, empieza con un modelo LLM predeterminado. Por ejemplo, en Gemini CLI se usará el modelo más alto: 2.5 Pro.

ChatGPT. Podemos cambiar el modelo una vez comenzada la conversación escribiendo /model. Nos dará varios modelos para elegir.

Gemini. No es posible cambiar el modelo desde la propia conversación y debemos hacerlo al invocar al programa. En el momento de escribir esto (pero cambiará con toda seguridad dentro de poco) los modelos disponibles son:

  • gemini-2.5-pro
  • gemini-2.5-flash
  • gemini-2.5-flash-lite
  • gemini-2.0-flash
  • gemini-2.0-flash-lite
  • gemini-1.5-flash

Iniciaremos Gemini con la instrucción gemini -m modelo, por ejemplo:

  • gemini -m gemini-2.5-flash

En Qwen y Claude, en principio no hay opción para cambiar el modelo.

Algunos comandos útiles

Iniciar la consola con un prompt

Podemos hacer que la consola nos muestre, nada más iniciarla, la respuesta a un prompt:

Gemini y Qwen

Se añade -i y el prompt entre comillas, por ejemplo:

  • qwen -i "Lee el contenido de los archivos .txt de esta carpeta y dime qué contienen"
  • gemini -i "Lee el contenido de los archivos .txt de esta carpeta y dime qué contienen"

Codex y Claude

Se escribe directamente el prompt entre comillas:

  • codex "Lee el contenido de los archivos .txt de esta carpeta y dime qué contienen"
  • claude "Lee el contenido de los archivos .txt de esta carpeta y dime qué contienen"

Usar la IA sin llegar a abrir su consola:

Se puede ejecutar un prompt directamente en el terminal del sistema operativo, sin llegar a abrir la consola CLI de IA,

Gemini, Qwen y Claude

Hay que añadir -p y entre comillas el prompt:

  • qwen -p "prompt"
  • gemini -p "prompt"
  • claude -p "prompt"

Si deseamos más comandos de inicio de este tipo, añadiremos -h, por ejemplo: qwen -h.

Codex

Codex funciona de manera distinta en este aspecto. Si la carpeta desde la que lo ejecutamos es un repositorio Git (un proyecto gestionado con Git, el sistema más usado para guardar el historial de cambios y versiones de archivos), el comando será: codex exec "prompt".

  • Por ejemplo: codex exec "Hola, escribe un haiku sobre tortugas".

Si la carpeta no es un repositorio Git, el mismo codex nos dirá que es necesario añadir --skip-git-repo-check:

  • codex exec "Hola, escribe un haiku sobre tortugas"--skip-git-regpo-check

Si queremos, podemos convertir momentáneamente cualquier carpeta en una carpeta Git, escribiendo en el terminal del sistema: git init, luego podemos eliminar su efecto borrando la carpeta .git que se ha creado.

Comandos útiles en el CLI

Una vez iniciada la terminal CLI, podemos usar los siguientes comandos:

  • /, al escribir una barra diagonal, aparecerá la lista completa de comandos con una breve descripción. Podemos movernos con las flechas arriba y abajo para seleccionar uno.
  • /help proporciona ayuda sobre los comandos disponibles, funciona con Gemini, Qwen y Claude.
  • /init para que la IA examine la carpeta actual y cree el archivo de configuración (.md) con una descripción del contenido (el nombre del archivo es el que aparece en la tabla que hay más arriba).
  • /docs Abrirá el navegador y obtendremos un manual de funcionamiento detallado de CLI en Gemini, Qwen y Claude

Teclas útiles de la consola

  • Navegación
    • CTRL+A. Mueve el cursor al principio de la línea.
    • CTRL+E. Mueve el cursor al final de la línea.
  • Edición
    • CTRL+SHIFT+V. Pega el texto copiado con anterioridad. Se puede hacer la misma acción con el botón derecho del ratón.
    • CTRL+SHIFT+C. Copia el texto seleccionado. Se puede hacer la misma acción con el botón derecho del ratón.
  • Control
    • CTRL+L borra la consola (terminal), ya sea la del sistema operativo o la de la IA.
    • CTRL+R En la consola del sistema (no en la de la IA) hará una búsqueda de los comandos que ya hemos utilizado antes a medida que escribimos. Así pues, mientras tecleamos, nos irán apareciendo comandos ya utilizados. Esto es especialmente útil para repetir instrucciones largas introducidas con anterioridad.
    • CTRL+C. Interrumpe el proceso actual. Pulsado dos veces, cierra la consola CLI.
    • CTRL+D. Cierra la consola del sistema. Pulsado dos veces, cierra la terminal CLI.

Advertencia: Este artículo tiene nivel 1 en el Marco para la integración de la IA generativa.


Pódcast creado con NotebookLM

FAQ creada por NotebookLM

¿Qué son las consolas o terminales CLI de IA?

Las consolas o terminales CLI (Command Line Interface) de IA son programas de línea de comandos que permiten interactuar y trabajar con modelos de inteligencia artificial directamente desde tu ordenador. Ofrecen una alternativa a las interfaces web, permitiendo operaciones más complejas y una mayor integración con el sistema local.

¿Por qué se prefiere usar la versión CLI de la IA en lugar de las interfaces web?

La versión CLI ofrece varias ventajas significativas sobre las interfaces web. Permite trabajar directamente en el ordenador sin depender de una página web, lo que amplía las posibilidades de uso, como realizar operaciones masivas (renombrar archivos, cambiar la resolución de imágenes o extraer texto de vídeos). Además, puede trabajar con múltiples archivos y carpetas locales sin necesidad de subirlos, lo cual es ideal para recursos educativos multimedia (páginas web, programas HTML) o proyectos con muchos componentes. También se beneficia de una mayor potencia de la IA al poder usar programas o scripts auxiliares para cálculos precisos o automatizaciones, una capacidad que no todas las versiones web de IAs tienen de forma nativa.

¿Qué modelos de IA están disponibles de forma gratuita en su versión CLI y cuáles requieren pago?

En cuanto a la gratuidad, Gemini y Qwen ofrecen sus versiones CLI de forma gratuita. Por otro lado, Codex (de ChatGPT) y Claude requieren una versión de pago para su uso. Los límites de uso específicos para cada uno pueden consultarse en artículos relacionados.

¿Cómo gestionan las consolas CLI la información de configuración y las instrucciones del usuario?

Todas las consolas CLI utilizan archivos de texto en formato Markdown para guardar datos de interés y configuraciones. Al iniciar, buscan dos archivos principales: uno con instrucciones generales en la carpeta de configuración de la IA (por ejemplo, ~/.gemini/GEMINI.md para Gemini en Linux/MacOS) y otro con el mismo nombre en la carpeta actual de trabajo. Estos archivos pueden ser creados o editados por el usuario para añadir información como el nombre, trabajo, asignaturas impartidas, aspectos a tener en cuenta (como un tipo de licencia) o instrucciones específicas del proyecto actual. La IA también puede usar estos archivos para recordar información relevante.

¿Cómo se puede conocer y cambiar el modelo de LLM que está utilizando la consola CLI?

Para conocer la versión del LLM en Gemini y Qwen, se escribe /about una vez dentro de la consola. En Codex y Claude, se usa /status o simplemente /model en el caso de Claude. Para cambiar el modelo, la funcionalidad varía: en ChatGPT (Codex), se puede cambiar durante la conversación con /model. En Gemini, no es posible cambiarlo desde la conversación; se debe especificar al invocar el programa con la instrucción gemini -m modelo (por ejemplo, gemini -m gemini-2.5-flash). En Qwen y Claude, en principio, no hay opción para cambiar el modelo.

¿Cómo se puede iniciar la consola CLI con un prompt predefinido o ejecutar un prompt sin abrir la consola?

Para iniciar la consola con un prompt, Gemini y Qwen utilizan la opción -i seguida del prompt entre comillas (ejemplo: qwen -i «Lee el contenido de los archivos .txt de esta carpeta»). Codex y Claude permiten escribir el prompt directamente después del comando de inicio (ejemplo: codex «Lee el contenido de los archivos .txt de esta carpeta»).

Para ejecutar un prompt directamente en la terminal del sistema operativo sin abrir la consola CLI de la IA, Gemini, Qwen y Claude usan la opción -p seguida del prompt entre comillas (ejemplo: gemini -p «prompt»). Codex funciona de manera diferente: si la carpeta es un repositorio Git, se usa codex exec «prompt»; de lo contrario, se debe añadir –skip-git-repo-check (ejemplo: codex exec «Hola, escribe un haiku sobre tortugas» –skip-git-repo-check).

¿Cuáles son algunos comandos útiles dentro de la terminal CLI una vez iniciada la conversación?

Una vez iniciada la terminal CLI, se pueden usar varios comandos útiles:

  • /: Muestra una lista completa de comandos con una breve descripción.
  • /help: Proporciona ayuda sobre los comandos disponibles (funciona en Gemini, Qwen y Claude).
  • /init: Hace que la IA examine la carpeta actual y cree el archivo de configuración (.md) con una descripción de su contenido.
  • /docs: Abre el navegador para mostrar un manual de funcionamiento detallado de la CLI (en Gemini, Qwen y Claude).

¿Qué combinaciones de teclas son útiles para la navegación y edición en la consola CLI?

Existen varias combinaciones de teclas útiles para mejorar la experiencia en la consola CLI:

  • Navegación: CTRL+A (mueve el cursor al principio de la línea), CTRL+E (mueve el cursor al final de la línea).
  • Edición: CTRL+SHIFT+V (pegar texto), CTRL+SHIFT+C (copiar texto seleccionado). Estas acciones también se pueden realizar con el botón derecho del ratón.
  • Control: CTRL+L (borra la consola), CTRL+R (en la consola del sistema, busca comandos utilizados anteriormente), CTRL+C (interrumpe el proceso actual, doble pulsación cierra la consola CLI), CTRL+D (cierra la consola del sistema, doble pulsación cierra la terminal CLI).

Guía básica para usar la inteligencia artificial desde la terminal (parte I)

Desde hace poco tiempo, Gemini, ChatGPT , Qwen y Claude han lanzado versiones CLI (Command Line Interface) de sus modelos de IA. A diferencia de las versiones web, estos modelos se instalan en el ordenador y se utilizan desde ventanas de texto (llamadas terminales o consolas). No es necesario disponer de un ordenador potente ni con mucha memoria, ya que el programa se limita a poner en contacto a nuestro ordenador con los servicios correspondientes en Internet. Por lo tanto, un modesto portátil es más que suficiente.

En el entorno CLI se utiliza la IA como en un chat tradicional, escribiendo nuestras peticiones y recibiendo allí mismo las respuestas de la IA.

Pros y contras de la consola frente al chat web

Contras

La principal desventaja de la consola frente a la web es el no poder pegar directamente en el chat imágenes y no disponer de lienzo para editar o previsualizar el resultado allí mismo. Sin embargo, sí las podemos arrastrar para que las visualice.

Pros

  • La IA en terminal se puede utilizar exactamente igual que en la web, aunque no podremos pegar imágenes, se las podemos proporcionar junto con otro tipo de archivos.
  • Pueden ejecutar comandos en nuestro ordenador, lo que les permite leer y escribir directamente en él. Por lo tanto, es posible llevar a cabo acciones imposibles desde el chat web, como:
    • Manipular archivos y carpetas, para leeros, reorganizarlos, borrarlos, crearlos, etc.
    • Ordenar archivos automáticamente en subcarpetas por fecha o por nombre.
    • Renombrar varios archivos siguiendo un mismo criterio (ejemplo: “tema1_01”, “tema1_02”…).
    • Realizar operaciones directas sobre el sistema operativo, como lanzar programas, consultar el estado de la memoria, el espacio libre que tenemos, etc.
    • Convertir todos los .wav a .mp3, generar subtítulos y crear un índice.
    • Convertir documentos en Word a PDF.
    • Convertir audios a texto para obtener transcripciones y traducciones.
  • El entorno CLI destaca en tareas de vibe coding, es decir, hacer programas y aplicaciones dándole instrucciones a la IA. Especialmente si nuestra aplicación tiene más de un archivo. Basta con abrir la consola desde la carpeta en la que trabajaremos (ver más adelante) y pedirle una explicación sobre el contenido, que solucione un error o que cree un programa a partir de cero. La capacidad de ver, abrir y manipular cualquier archivo que contenga permite a la IA ser mucho más eficiente que en la web, donde también puede trabajar con varios archivos, pero los debemos subir y después bajar uno a uno.

Qué son las consolas de IA

Estamos acostumbrados a utilizar los chatbots desde su página web, escribiendo sobre un campo de texto, obtenemos la respuesta de la IA a nuestra petición.

Pero existe otra forma de utilizarlos y es a través de consolas (o terminales) que no son más que ventanas de texto donde podemos escribir instrucciones directamente al ordenador. En Windows se llaman Símbolo del sistema o PowerShell.

Cómo abrir la consola del sistema operativo

  • Windows: pulsar la tecla de Windows, escribir cmd o PowerShell y abrir el programa.
  • Mac: abrir Launchpad (el icono de cohete), escribir Terminal y hacer clic en la aplicación.
  • Linux: buscar Terminal en el menú principal de aplicaciones o presionar CTRL + ALT + T.

Cómo abrir la consola del sistema operativo en una carpeta determinada

Hay que evitar abrir la consola IA en la carpeta raíz del sistema o donde pueda tener acceso a información personal o confidencial. Es importante abrir la IA en la carpeta donde vayamos a trabajar.

  • Para abrir una terminal desde una carpeta en Linux, navega hasta la carpeta en tu gestor de archivos y haz clic derecho en un espacio vacío para seleccionar la opción «abrir en un terminal».
  • En Mac, puedes hacerlo desde Finder navegando a la carpeta y seleccionando «nuevas ventanas de la terminal en la carpeta», o arrastrando la carpeta a una ventana de terminal ya abierta tras escribir «cd «.
  • En Windows, la forma más rápida es abrir la carpeta en el explorador de archivos, hacer clic en la barra de direcciones superior y escribir «cmd» o «powershell» para abrir la terminal en esa ubicación. Si no podemos escribir en la barra de direcciones, pulsar CRL+L antes.

Particularidades de la consola

Cuando trabajemos en la consola, deberemos dejar el ratón y utilizar casi exclusivamente el teclado. Debemos tener en cuenta que una consola es un medio estrictamente de texto, por lo que el ratón no servirá para ir a un punto anterior del texto que estamos escribiendo, por ejemplo. Si queremos rectificar una parte que hemos escrito antes, no quedará más remedio que desplazarse con las flechas del teclado.

Podemos arrastrar imágenes y otro tipo de archivos a la consola para que sean visualizados o leídos por la IA.

Copiar y pegar en la consola

En las consolas y terminales, las combinaciones de teclas habituales Ctrl+C y Ctrl+V no siempre sirven para copiar y pegar, ya que Ctrl+C suele interrumpir procesos. Dependiendo del sistema operativo, los atajos son diferentes:

  • Linux (terminal GNOME, KDE, etc.):
    • Copiar: Ctrl+Shift+C
    • Pegar: Ctrl+Shift+V
  • macOS (Terminal o iTerm2):
    • Copiar: Cmd+C
    • Pegar: Cmd+V
  • Windows (símbolo del sistema o PowerShell moderno):
    • Copiar: Ctrl+C
    • Pegar: Ctrl+V

Además, en los tres sistemas también se puede usar el ratón: seleccionar el texto, pulsar con el botón derecho y elegir copiar o pegar. En Linux, en muchos entornos, el botón central pega directamente lo que se haya seleccionado.

Cómo abrir el entorno CLI de las IA

Una vez hemos abierto una consola, será suficiente con teclear gemini (para abrir la IA de Google), codex (para abrir la IA de OpenAI, ChatGPT) o claude (para abrir la IA de Anthropic).

Las siguientes imágenes muestran las consolas de IA en un entorno Linux:

Consola de Gemini (Gemini CLI)
Consola de ChatGPT (Codex)
Consola de Claude (Claude Code)

Instalación de las consolas de IA en el ordenador

En esta parte se explica cómo instalar tres herramientas de inteligencia artificial que se utilizan desde la consola del sistema operativo (Windows, Mac o Linux). Las herramientas son Gemini, Codex y Claude. Una vez instaladas, también se ejecutan desde la consola, pero en este caso hablamos de la consola de la aplicación (cuando escribes el nombre del programa, como gemini, codex o claude, para usarlas).

Antes de empezar

Necesitas tener instalado Node.js, que es el programa base que permite usar estas herramientas.

  • Si no está instalado, al intentar ejecutar algunos de los comandos en la consola del sistema operativo verás un mensaje de error indicando que node o npm no se reconocen como comandos.
  • En ese caso, descárgalo en nodejs.org. Descarga la versión recomendada para tu sistema operativo y sigue las instrucciones de instalación o sigue las instrucciones que te dará la consola.

Recomendamos utilizar nuestra IA favorita para consultarle cualquier problema o duda que surja en esta parte (y también en las posteriores).

Instalación de Gemini (Google)

(Repositorio oficial en GitHub)

Métodos de instalación (elige solo uno y hazlo en la consola del sistema operativo):

  • Método 1 (recomendado, cualquier sistema con Node.js): npm install -g @google/gemini-cli.
  • Método 2 (solo Mac/Linux con Homebrew): brew install gemini-cli.
  • Método 3 (probar sin instalar): npx https://github.com/google-gemini/gemini-cli. Este método descarga la aplicación cada vez que la uses.

Después de instalar:

  • Abre la consola del sistema operativo.
  • Escribe gemini y pulsa Enter.
  • Te pedirá iniciar sesión con tu cuenta de Google o usar una clave de aistudio.google.com/apikey.

Instalación de Codex (OpenAI)

(Repositorio en GitHub)

Métodos de instalación (elige solo uno y hazlo en la consola del sistema operativo):

  • Método 1 (recomendado, cualquier sistema con Node.js): npm install -g @openai/codex@latest.
  • Método 2 (solo Mac con Homebrew): brew install codex.
  • Método 3 (descarga manual): en la sección «Releases» de GitHub descarga el archivo correspondiente, descomprímelo y renómbralo como «codex».

Después de instalar:

  • Abre la consola del sistema operativo.
  • Escribe codex y pulsa Enter.
  • Podrás iniciar sesión con tu cuenta de ChatGPT o configurar tu clave de OpenAI.

Instalación de Claude (Anthropic)

(Repositorio en GitHub)

Métodos de instalación (elige el que corresponda a tu sistema operativo y hazlo en la consola del sistema operativo):

  • Mac/Linux (con Node.js): npm install -g @anthropic-ai/claude-code.
  • Mac/Linux (instalador rápido): curl -fsSL https://claude.ai/install.sh | bash.
  • Windows: abre PowerShell y escribe irm https://claude.ai/install.ps1 | iex.

Después de instalar:

  • Abre la consola del sistema operativo.
  • Escribe claude doctor para comprobar que funciona.
  • Escribe claude para usar la aplicación.
  • Inicia sesión con tu cuenta de Claude.

Instalación de Qwen

  • Escribe desde una consola: npm install -g @qwen-code/qwen-code
  • Abre la consola, escribe qwen y elige el método de inicio de sesión.

Importante: Solo hemos probado las versiones para Linux. Las instrucciones proporcionadas para Windows y Mac han sido redactadas por Grok basándose en las referencias que hay más adelante. Por lo tanto, no podemos asegurar que sean correctas.

Modo de uso

Una vez hemos entrado, abriendo una consola y tecleando el nombre de la IA deseada, todas nos darán la oportunidad de entrar en nuestra cuenta a través de la web. Una vez introducidas nuestras credenciales, el programa se acabará de iniciar normalmente. Si deseamos cambiar las opciones de inicio de sesión, podemos eliminar la carpeta de configuración que se detalla a continuación.

Cuando hayamos iniciado sesión, hablaremos con la IA de la forma habitual, escribiendo en la caja de texto que tenemos para ello.

Todas las IA tienen comandos que realizan acciones específicas. Destacamos un par de ellos comunes a todas.

  • /quit. Escribiendo este comando, cerraremos la consola de la IA. Se puede conseguir el mismo efecto pulsando dos veces seguidas CTRL +C.
  • /init. Esa instrucción hace que la IA analice la carpeta actual y escriba un archivo en formado Markdown, donde coloca una descripción del contenido en la misma carpeta. Hay que tener en cuenta que si tenemos archivos de texto con información sensible, estos serán leídos por la IA, por lo que hay que tener precaución en este sentido. Si utilizamos la consola por primera vez en una carpeta que ya tiene archivos, conviene ejecutar este comando antes de empezar. Gemini creará el archivo GEMINI.md, Codex creará el archivo AGENTS.md y Claude hará el archivo CLAUDE.md. Podemos abrirlos y añadir allí información extra que deseamos que tengan en cuenta.

Cuando deba realizar acciones que afecten a nuestro ordenador (leer archivos, escribir, eliminar, acceder a un programa, etc.) nos pedirán permiso. Podemos dárselo cada vez, es la opción 1 o, si estamos seguros, darles permiso para el resto de la sesión con la opción 2, aunque alguna vez esta opción sirve para cancelar.

Carpetas y archivos importantes

La configuración de cada programa (datos de inicio de sesión, instrucciones iniciales, etc.) se encuentra en las carpetas indicadas a continuación. Allí crearán archivos Markdown (.md) con la información que crean relevante.

ServicioCarpeta de configuración en WindowsCarpeta de configuración en Linux / MacOSArchivo de instrucciones
Gemini CLI%USERPROFILE%\.gemini~/.geminiGEMINI.md
OpenAI Codex%USERPROFILE%\.codex~/.codexAGENTS.md
Claude Code%USERPROFILE%\.claude~/.claudeCLAUDE.md

En cualquier momento podemos borrar estas carpetas y la próxima vez que entremos en el programa se crearán de nuevo y nos volverán a pedir el inicio de sesión.

También podemos crear los archivos de instrucciones en estas carpetas con instrucciones específicas sobre su comportamiento, quienes somos, etc. Estos archivos pueden estar en la carpeta de configuración, con lo que serán leídos cada vez que iniciemos la IA, y se pueden colocar también en la carpeta actual, la IA los puede generar también de forma automática con el comando /init.

En el caso de Gemini, podemos iniciar sesión con otra cuenta eliminando el archivo config.json de la carpeta .gemini. Esto hará que nos pregunte el método para iniciar sesión la próxima vez que entremos, lo que podremos utilizar para indicar una cuenta de Google diferente a la anterior, en el caso de que hayamos llegado al límite.

Límites de uso, modelos y ventanas de contexto

  • Gemini CLI
    Es gratuito. Permite 60 mensajes por minuto y un máximo diario de 1 000. Utiliza por defecto Gemini 2.5 Pro, con una ventana de contexto de 1 000 000 tokens. Google ha anunciado que se ampliará a 2 000 000, aunque aún no está disponible para todos. Cuando alcanza el límite de uso, cambia a Gemini 2.5 Flash.
  • Qwen Code CLI
    Es gratuito. Admite 60 solicitudes por minuto y 2000 por día.
  • Codex (ChatGPT CLI)
    Funciona con una cuenta Plus de ChatGPT y aplica un límite de uso cada 5 horas y otro semanal, aunque no se han dado cifras concretas. Utiliza por defecto GPT-5, con una ventana de contexto de 200 000 tokens.
  • Claude Code
    Con una suscripción Pro, permite entre 10 y 40 mensajes cada 5 horas. A partir del 28 de agosto de 2025, también habrá un límite semanal. Utiliza Claude 4 Sonnet, con una ventana de contexto de 200 000 tokens.

Resumen de políticas de privacidad para versiones CLI de herramientas de IA

Este resumen se basa en las políticas oficiales actualizadas al 17 de agosto de 2025, extraídas de las fuentes de cada proveedor. Las políticas pueden cambiar con el tiempo.

Recomendamos especial precaución con Gemini CLI donde, por defecto, en las cuentas personales, los datos se usan para entrenar sus modelos y pueden ser leídos por humanos. Véase en el texto cómo desactivarlo.

Gemini CLI (versión gratuita para individuos)

Los datos (prompts, outputs, código) se usan por defecto para mejorar productos y entrenar modelos de machine learning, con opción de opt-out mediante la desactivación de Gemini Apps Activity. El término opt-out se refiere a la posibilidad de excluirse voluntariamente de un uso que está activo por defecto. En el caso de Gemini CLI para cuentas personales, los datos (prompts, salidas de código, etc.) pueden usarse para entrenar modelos si no se desactiva siguiendo estas instrucciones de Google. Los contenidos pueden ser revisados por humanos para control de calidad, se guardan de forma desconectada de la cuenta y se retienen hasta 18 meses. Se recomienda no enviar información confidencial.
Política de privacidad para Gemini Code Assist (individuales)

Gemini CLI (versiones de pago, como Gemini Advanced/Pro)

El tratamiento de datos es equivalente al de la versión gratuita: pueden usarse para mejorar servicios y entrenar modelos, con posibilidad de opt-out desactivando Gemini Apps Activity. Si está activada, Google puede realizar revisión humana de chats con datos desvinculados de la cuenta, y en caso de ser revisados, pueden conservarse hasta 3 años.
Hub de privacidad de Gemini Apps

Gemini (versiones corporativas: Vertex AI y Workspace empresarial)

En entornos corporativos, los datos de clientes no se usan para entrenar modelos ni para mejorar servicios sin permiso. No existe revisión humana rutinaria; solo puede haber acceso limitado en casos de soporte, cumplimiento legal o investigación de abuso. En Vertex AI se ofrecen opciones avanzadas de gobernanza de datos, incluida la configuración de zero data retention (ZDR), que evita el almacenamiento incluso temporal. De forma predeterminada puede existir caché técnica de hasta 24 horas o registros mínimos de auditoría.
Gobernanza de datos en Vertex AI Generative AI

Gemini (versiones educativas: Workspace for Education)

En dominios educativos, los datos no se usan para entrenar modelos, ni para mostrar anuncios, ni son revisados por humanos. Desde junio de 2025, estas protecciones se aplican a todas las edades en cuentas de educación. Se ofrecen protecciones de nivel empresarial, sin coste adicional y con controles de administrador. El contenido no se comparte fuera del dominio escolar.
Política de privacidad de Google Workspace for Education

OpenAI API (versiones CLI o API)

En la API de OpenAI, los datos no se usan para entrenar modelos por defecto, salvo en caso de consentimiento expreso. Se conservan hasta 30 días para monitorizar abusos y resolver incidencias técnicas, con posibilidad de solicitar Zero Data Retention en contextos empresariales. La revisión humana está limitada a casos de seguridad o abuso.
Uso de datos en la API de OpenAI

Claude Code (API/CLI, versión gratuita)

Los datos no se usan para entrenar modelos por defecto, salvo en caso de consentimiento voluntario o cuando un contenido se marca como feedback para trust & safety. Puede haber revisión humana o automática en situaciones de abuso, y en esos casos las retenciones pueden extenderse hasta 2 años para prompts/respuestas y hasta 7 años para métricas de seguridad. En la aplicación Claude Code local, las sesiones pueden conservarse hasta 30 días, configurable, y en organizaciones con Zero Data Retention no se guardan en servidores.
Uso de datos personales en entrenamiento de modelos (Anthropic)
Privacidad en Claude Code

Diferencias entre Gemini CLI, Codex y Claude Code

CaracterísticaGemini CLICodex (ChatGPT)Claude CodeQwen
Instalaciónnpm install -g @google/gemini-clinpm install -g @openai/codex@latestnpm install -g @anthropic-ai/claude-codenpm install -g @qwen-code/qwen-code
Carpeta y archivo de configuración~/.gemini / GEMINI.md~/.codex / AGENTS.md~/.claude / CLAUDE.md~/.qwen / QWEN.md
Modelo utilizadoGemini 2.5 Pro (cambia a Flash al límite)GPT-5-codexClaude 4 Sonnetqwen3-coder-plus
Límites de uso60 mensajes/min, 1000 diariosLímites cada 5h y semanales (detalles no públicos)10-40 prompts/5h, límite semanal desde ago 202560 solicitudes por minuto, 2000 por día.
Ventana de contexto en tokens1 000 000200 000200 000256 000
Versión gratuitaNoNo
Política de privacidadDatos usados para entrenamiento por defecto; revisión humana posible; retención hasta 18 mesesNo entrenan por defecto; retención 30 días; revisión solo en casos de abusoNo entrenan por defecto; retención 30 días (configurable)Los datos de las conversaciones serán usados para entrenamiento

Uso de IA en consola frente a la versión web

AspectoVersiones CLIVersiones web
AccesoDesde consola/terminal del sistema (cmd, PowerShell, Terminal).Desde un navegador web.
RequisitosNecesita Node.js.Solo conexión a Internet y un navegador.
MultimediaNo admite pegar imágenes en el chat; solo como archivos. Sin lienzo de previsualización.Admite copiar/pegar imágenes y elementos multimedia. En algunos casos, lienzo integrado.
Acceso a archivos localesSí. Puede leer, escribir, organizar, renombrar, convertir formatos, etc. Requiere permisos explícitos.No. Los archivos deben subirse y descargarse manualmente.
Operaciones sobre el sistemaPuede lanzar programas, consultar memoria, espacio libre, ejecutar conversiones o transcripciones.No tiene acceso directo al sistema operativo.
Versatilidad en tareasIdeal para automatizar procesos, manipular lotes de archivos, programar proyectos completos y convertir formatos directamente desde el ordenador.Más adecuada para consultas rápidas, interacción visual, compartir elementos multimedia y uso general sin instalación.
Uso en programación (vibe coding)Muy eficiente para proyectos con múltiples archivos; puede ver y manipularlos directamente.Menos eficiente: se deben subir/bajar o copiar archivos individualmente.
InterfazExclusivamente texto, sin ratón; navegación con teclado.Interfaz gráfica con botones, menús y edición más visual.

Mi experiencia personal, a modo de conclusión

Después de haber usado de forma intensiva los tres modelos durante un tiempo, he podido comprobar que tango ChatGPT como Claude son superiores en programación a Gemini por lo que si deseamos crear recursos educativos (páginas web, programas, etc.) los dos primeros son recomendables.

Sin embargo, la enorme ventana de contexto de Gemini (5 veces más que la de los otros dos), unido a su gratuidad, lo hacen ideal para tareas masivas (donde hay que realizar una gran cantidad de trabajo como convertir documentos, traducirlos, etc.) y, por lo tanto, es el CLI recomendable a nivel general.

Una buena técnica es utilizar Gemini por defecto y, si tenemos una cuenta Plus de ChatGPT o Pro de Claude, acudir a ellos cuando Gemini se queda atascado en una tarea que no puede resolver.

Advertencia: Este artículo tiene nivel 3 en el Marco para la integración de la IA generativa.

Lee también la segunda parte de la Guía básica para usar la inteligencia artificial desde la terminal.

Pódcast (creado con NotebookLM)

FAQ creado con NotebookLM

¿Qué son las consolas de IA y en qué se diferencian de las versiones web?

Las consolas de IA, como las versiones CLI (Command Line Interface) de Gemini, ChatGPT (Codex), Qwen y Claude, son programas que se instalan directamente en tu ordenador y se utilizan a través de ventanas de texto, conocidas como terminales o consolas. A diferencia de las versiones web, que se acceden mediante un navegador, las consolas de IA ofrecen una interacción más directa y profunda con el sistema operativo. No requieren un ordenador potente, ya que la comunicación se realiza a través de internet con los servicios de IA. La principal diferencia radica en que las consolas pueden ejecutar comandos directamente en tu ordenador, permitiéndoles leer, escribir, manipular archivos y carpetas, y realizar operaciones directas sobre el sistema operativo, acciones que no son posibles con los chats web.

¿Cuáles son las principales ventajas de usar una consola de IA en comparación con la versión web?

Las consolas de IA ofrecen varias ventajas significativas sobre las versiones web. Permiten manipular archivos y carpetas directamente en el ordenador, como reorganizar, borrar, crear o renombrar archivos masivamente (ej. renombrar varios archivos con un mismo criterio o convertir documentos de Word a PDF). También pueden realizar operaciones sobre el sistema operativo, como lanzar programas, consultar el estado de la memoria o el espacio libre, y convertir audios a texto para obtener transcripciones y traducciones. Son especialmente útiles para tareas de «vibe coding» (programación asistida por IA) en proyectos con múltiples archivos, ya que la IA puede ver, abrir y manipular todos ellos de manera eficiente. Aunque no admiten pegar imágenes directamente en el chat, se les pueden proporcionar como archivos.

¿Qué se necesita para instalar y usar una consola de IA como Gemini, Codex, Claude o Qwen?

Para instalar y usar estas consolas de IA, primero necesitas tener Node.js instalado en tu sistema operativo (Windows, Mac o Linux), ya que es el programa base que permite que estas herramientas funcionen. Si Node.js no está instalado, al intentar ejecutar los comandos verás un mensaje de error. Una vez que Node.js está instalado, puedes proceder a instalar la IA deseada utilizando comandos específicos en la consola del sistema (por ejemplo, npm install -g @google/gemini-cli para Gemini). Después de la instalación, simplemente escribes el nombre de la IA (ej. gemini, codex, claude, qwen) en la consola para iniciarla. Al principio, te pedirá iniciar sesión con tu cuenta correspondiente o introducir una clave API.

¿Cómo se gestionan la privacidad y el uso de datos en las versiones CLI de estas IA?

La gestión de la privacidad varía significativamente entre los diferentes proveedores y tipos de cuenta. En Gemini CLI para cuentas personales, los datos (prompts, outputs, código) se usan por defecto para entrenar modelos y pueden ser revisados por humanos, aunque esta opción puede desactivarse (opt-out) en la configuración de la cuenta de Google. Para las versiones empresariales y educativas de Gemini, así como para OpenAI API (Codex) y Claude Code, los datos no se usan para entrenar modelos por defecto, salvo consentimiento explícito o en casos específicos de seguridad y abuso. La retención de datos también varía: 30 días para monitorear abusos (OpenAI, Claude), hasta 18 meses para Gemini personal con revisión humana, y opciones de Zero Data Retention (ZDR) para entornos empresariales. Se recomienda precaución al enviar información confidencial, especialmente con Gemini CLI si no se ha configurado la opción de exclusión.

¿Cuáles son las principales diferencias entre Gemini CLI, Codex (ChatGPT CLI), Claude Code y Qwen en términos de características y límites de uso?

Existen diferencias notables entre las cuatro consolas de IA:

  • Gemini CLI: Ofrece una versión gratuita para uso individual, con un límite de 60 mensajes por minuto y 1000 diarios. Utiliza Gemini 2.5 Pro (cambiando a Flash al límite) con la ventana de contexto más grande: 1.000.000 de tokens. Por defecto, usa datos para entrenamiento.
  • Codex (ChatGPT CLI): Requiere una cuenta ChatGPT Plus, utiliza GPT-5 con una ventana de contexto de 200.000 tokens y tiene límites de uso por hora y semanales no especificados públicamente. No usa datos para entrenamiento por defecto.
  • Claude Code: Con una suscripción Pro, permite entre 10 y 40 mensajes cada 5 horas (con un límite semanal desde agosto de 2025). Usa Claude 4 Sonnet y tiene una ventana de contexto de 200.000 tokens. No usa datos para entrenamiento por defecto.
  • Qwen: Ofrece una versión gratuita con 60 solicitudes por minuto y 2000 diarias. Utiliza qwen3-coder-plus con una ventana de contexto de 256.000 tokens. Sus políticas de privacidad indican que los datos de las conversaciones serán usados para entrenamiento.

¿Cómo puedo abrir la consola del sistema operativo en una carpeta específica y por qué es importante?

Es fundamental abrir la consola de IA en la carpeta donde planeas trabajar para evitar que la IA tenga acceso a información personal o confidencial en otras partes de tu sistema. Los métodos para abrirla en una carpeta específica son:

  • Windows: Abre la carpeta en el Explorador de Archivos, haz clic en la barra de direcciones superior y escribe cmd o powershell, luego presiona Enter.
  • Mac: En Finder, navega a la carpeta y selecciona «Nuevas ventanas de la terminal en la carpeta» o arrastra la carpeta a una ventana de Terminal ya abierta después de escribir cd.
  • Linux: Navega hasta la carpeta en tu gestor de archivos y haz clic derecho en un espacio vacío para seleccionar la opción «abrir en un terminal».

¿Qué son los comandos /quit y /init y qué hacen en la consola de IA?

Los comandos /quit y /init son acciones específicas comunes a todas las consolas de IA:

  • /quit: Este comando cierra la sesión de la IA. También se puede lograr el mismo efecto pulsando CTRL + C dos veces seguidas.
  • /init: Esta instrucción le pide a la IA que analice el contenido de la carpeta actual y genere un archivo en formato Markdown (GEMINI.md, AGENTS.md, CLAUDE.md o QWEN.md según la IA) que contiene una descripción de su contenido. Es importante tener precaución, ya que si hay archivos de texto con información sensible en esa carpeta, serán leídos por la IA. Es conveniente ejecutar este comando antes de empezar si la consola se abre en una carpeta con archivos.

¿Dónde se guarda la configuración de las consolas de IA y cómo se puede gestionar?

La configuración de cada programa de IA (como los datos de inicio de sesión o las instrucciones iniciales) se guarda en carpetas específicas en tu sistema:

  • Gemini CLI: ~/.gemini (Linux/macOS) o %USERPROFILE%\.gemini (Windows). Archivo de instrucciones: GEMINI.md. Para cambiar de cuenta, puedes eliminar el archivo config.json de esta carpeta.
  • OpenAI Codex: ~/.codex (Linux/macOS) o %USERPROFILE%\.codex (Windows). Archivo de instrucciones: AGENTS.md.
  • Claude Code: ~/.claude (Linux/macOS) o %USERPROFILE%\.claude (Windows). Archivo de instrucciones: CLAUDE.md.
  • Qwen: ~/.qwen (Linux/macOS) o %USERPROFILE%\.qwen (Windows). Archivo de instrucciones: QWEN.md.

Puedes borrar estas carpetas en cualquier momento para que el programa las cree de nuevo la próxima vez que inicies la IA, lo cual puede ser útil para cambiar las opciones de inicio de sesión. También puedes crear archivos de instrucciones personalizados en estas carpetas de configuración (o en la carpeta actual de trabajo) para especificar el comportamiento o las instrucciones iniciales de la IA.

Glosario de términos

  • CLI (Command Line Interface): Son versiones de programas de inteligencia artificial que se instalan en tu ordenador y se usan escribiendo texto en ventanas especiales (llamadas terminales o consolas), en lugar de usar un navegador web y hacer clic. Es como usar el ordenador solo con el teclado, escribiendo tus instrucciones y recibiendo las respuestas ahí mismo.
  • Terminal o Consola: Es una ventana de texto en la que puedes escribir instrucciones directamente a tu ordenador. En Windows, se conocen como «Símbolo del sistema» o «PowerShell».
  • Chat web: Es la forma habitual de usar los chatbots de IA a través de su página web, donde escribes en un recuadro y recibes la respuesta.
  • Multimedia: En el contexto de las consolas de IA, se refiere a que no puedes pegar directamente imágenes u otros elementos visuales en el chat, aunque sí puedes proporcionarlos como archivos.
  • Lienzo: Se refiere a un espacio donde podrías editar o previsualizar resultados directamente en el chat, algo que no está disponible en las versiones de consola.
  • Comandos (en el ordenador): Son instrucciones que la inteligencia artificial puede ejecutar directamente en tu ordenador, permitiéndole leer y escribir archivos. Esto le da la capacidad de hacer cosas que no se pueden hacer desde una versión web, como manipular archivos, lanzar programas o consultar el estado de tu sistema.
  • Manipular archivos y carpetas: Se refiere a realizar acciones como leer, reorganizar, borrar o crear archivos y carpetas en tu ordenador.
  • Sistema operativo: Es el programa principal que controla todas las funciones de tu ordenador, como Windows, macOS o Linux. Las consolas de IA pueden interactuar con él para, por ejemplo, iniciar programas o ver cuánta memoria tienes disponible.
  • Vibe coding: Es la tarea de crear programas y aplicaciones dándole instrucciones a la inteligencia artificial. Es muy eficiente en el entorno de consola, especialmente para proyectos con varios archivos, ya que la IA puede ver, abrir y manejar esos archivos directamente.
  • Carpeta raíz del sistema: Es la carpeta principal y más básica de tu ordenador, de la que derivan todas las demás carpetas. Se recomienda evitar abrir la consola de IA en esta carpeta para proteger tu información personal y confidencial.
  • Node.js: Es un programa esencial que necesitas tener instalado en tu ordenador para poder usar las consolas de IA como Gemini, Codex o Claude. Si no lo tienes, verás un mensaje de error.
  • npm: Es una herramienta que se usa junto con Node.js para instalar y gestionar paquetes (programas) de JavaScript. Se menciona en las instrucciones de instalación de las IA.
  • Homebrew: Es un gestor de paquetes para sistemas operativos Mac y Linux, una forma alternativa de instalar programas de manera sencilla.
  • npx: Es un comando que te permite ejecutar un paquete (programa) sin necesidad de instalarlo de forma permanente. La aplicación se descarga cada vez que la usas.
  • GitHub (Repositorio oficial): Es una plataforma muy popular donde los desarrolladores de software almacenan y gestionan el código de sus proyectos. Los «repositorios oficiales» son donde se encuentra el código original y más actualizado de las IA.
  • WSL (Windows Subsystem for Linux): Es una característica de Windows que permite ejecutar un entorno Linux (otro sistema operativo) dentro de Windows, lo que puede ser útil para ciertos programas o si tienes dificultades en Windows.
  • Markdown: Es un formato de texto simple que se usa para escribir documentos. La IA puede generar un archivo en este formato con una descripción del contenido de la carpeta actual.
  • Tokens: Son las unidades en las que la inteligencia artificial procesa el texto (pueden ser palabras, partes de palabras o incluso caracteres).
  • Ventana de contexto: Se refiere a la cantidad máxima de «tokens» que una IA puede procesar o «recordar» en una conversación o tarea. Una ventana más grande significa que la IA puede manejar textos más largos o recordar más información de la conversación.
  • Opt-out: Significa la opción de poder desactivar voluntariamente una función que viene activada por defecto. Por ejemplo, en Gemini CLI, la opción de que tus datos se usen para entrenar el modelo está activada por defecto, pero puedes desactivarla.
  • Prompts: Son las instrucciones, preguntas o peticiones que tú le escribes a la inteligencia artificial.
  • Outputs: Son las respuestas o los resultados que genera la inteligencia artificial en base a tus «prompts».
  • Machine learning (aprendizaje automático): Es una rama de la inteligencia artificial que permite a los sistemas aprender de los datos para mejorar su rendimiento en tareas específicas, como entender lo que pides o generar respuestas.
  • Zero Data Retention (ZDR): Es una configuración avanzada que impide que tus datos sean almacenados, incluso temporalmente, en los servidores del proveedor de la IA. Se ofrece en versiones corporativas o para APIs específicas.
  • API (Application Programming Interface): Es un conjunto de reglas y herramientas que permiten a diferentes programas de software comunicarse entre sí. Cuando se menciona «OpenAI API», se refiere a usar los servicios de OpenAI (como ChatGPT) a través de una conexión directa de programa a programa, en lugar de la interfaz web.
  • Feedback para trust & safety: Se refiere a cuando un usuario marca un contenido como problemático o inadecuado para que sea revisado por motivos de seguridad o confianza.
  • Caché técnica: Es un almacenamiento temporal de datos que se guarda para que los programas funcionen más rápido.
  • Registros mínimos de auditoría: Son pequeños registros que se guardan para hacer un seguimiento básico de las operaciones, por ejemplo, quién accedió a qué sistema y cuándo, con fines de seguridad o cumplimiento normativo.

Referencias:

Prompts JSON: Instrucciones secretas para la IA

En los últimos años, los prompts han pasado de ser frases improvisadas a convertirse en auténticas instrucciones de trabajo para sistemas de inteligencia artificial. Lo que empezó como una conversación informal con un modelo de lenguaje ha dado paso, en algunos casos, a una forma más estructurada: los prompts en formato JSON.

Este artículo explica qué son, por qué se usan y en qué casos vale la pena adoptarlos. No es un manual técnico, sino una guía práctica para docentes y creadores de recursos que trabajan con IA.

Qué es un prompt en JSON

Un prompt en JSON no es más que una instrucción escrita como un objeto estructurado. En lugar de redactar:

Explícame el principio de Arquímedes con un ejemplo sencillo para alumnado de secundaria.

se escribe:

{
  "tarea": "explicar",
  "tema": "principio de Arquímedes",
  "nivel": "secundaria",
  "formato": "ejemplo sencillo"
}

En este prompt en formato JSON hay cuatro claves, cada una con su valor correspondiente:

  • "tarea" indica qué se le pide a la IA (en este caso, que explique).
  • "tema" señala el contenido sobre el que debe trabajar.
  • "nivel" marca el público destinatario o nivel educativo al que se dirige la respuesta.
  • "formato" define el tipo de salida esperada, aquí una explicación acompañada de un ejemplo sencillo.

Cada clave representa un aspecto específico de la instrucción, y su valor concreta cómo debe actuar la IA. Esta forma estructurada facilita la edición, reduce ambigüedades y permite reutilizar o automatizar la tarea con pequeñas modificaciones.

Ventajas

  • Claridad. Cada parte de la tarea se define por separado: qué se pide, a quién va dirigido, en qué formato debe responder la IA.
  • Reutilización. Cambiar solo un valor permite adaptar el prompt a otros contenidos o niveles educativos.
  • Compatibilidad. Muchos sistemas y plataformas de IA entienden este formato y permiten integrarlo en flujos más complejos.

¿Quién escribe estos JSON? No las personas

Conviene aclararlo: no se espera que los docentes redacten estos prompts a mano. Lo que se hace es pedirle a la propia IA que los genere. Por ejemplo:

Quiero un prompt en JSON para que otro modelo genere 5 preguntas tipo test sobre la célula eucariota para alumnado de 2.º de ESO.

Y la IA responde:

{
  "rol": "Asistente educativo experto en biología",
  "tarea": "crear ejercicio de tipo test",
  "tema": "la célula eucariota",
  "nivel": "2.º de ESO",
  "número_de_preguntas": 5,
  "formato_salida": "CSV con pregunta, cuatro opciones, respuesta correcta",
  "tono": "claro, directo, adaptado al nivel del alumnado"
}

Este resultado puede guardarse y usarse muchas veces con ligeras variaciones. Eso es lo que lo hace potente: no es solo una instrucción, sino una plantilla. Por eso conviene almacenarlos en un archivo, en una hoja o donde sea fácil acceder a ellos. La clave no es escribir JSON, sino pedirlo bien y conservarlo.

Podemos editarlo manualmente de una forma sencilla utilizando el siguiente editor JSON en el que podemos pegar el contenido o abrirlo desde un archivo.

Podemos hacer prompts más elaborados con uno como este:

Quiero que hagas un prompt en formato JSON. Antes de empezar, pregúntame el tema o tarea para el prompt. Tu tarea es la siguiente:

  1. Analiza el tema: Primero, entiende el objetivo principal del tema que te he dado. Por ejemplo, si el tema es «planificar una unidad didáctica», el objetivo es guiar a un profesor para estructurar el contenido y las actividades de un tema educativo.
  2. Descompón el proceso: Divide el objetivo principal en una serie de pasos lógicos y secuenciales. Piensa en las preguntas que le harías a una persona para ayudarla con esa tarea. Para «planificar una unidad didáctica», los pasos podrían ser:
    • Preguntar por la materia, el curso y el tema central.
    • Definir los objetivos de aprendizaje (qué deben saber o poder hacer los alumnos al final).
    • Secuenciar las actividades (introducción, desarrollo, práctica, proyecto).
    • Determinar los métodos de evaluación.
  3. Estructura el JSON: Crea un único bloque de código en formato JSON que organice esas instrucciones. Este JSON no es para mí, sino para que otra IA lo ejecute. Debe contener:
    • Un rol para la IA que ejecutará el proceso (ej: «Asistente de diseño curricular»).
    • Un objetivo que describa la meta final (ej: «Generar un borrador detallado de la unidad didáctica»).
    • Una lista de pasos o acciones. Cada paso debe ser un objeto que indique claramente qué debe hacer o preguntar la IA en ese momento.
    • Una descripción del resultado final que la IA debe entregar al usuario una vez completados los pasos (ej: «Un documento estructurado con los apartados de la unidad didáctica: objetivos, contenidos, secuencia de actividades y evaluación»).

Tu respuesta final debe ser únicamente el código JSON, sin explicaciones adicionales.

Lo importante es que una vez tengamos un prompt a nuestra medida, lo guardemos para reutilizarlo las veces que hagan falta, simplemente modificando los valores necesarios.

¿Cuándo conviene usarlo?

Cuando se necesita precisión, repetición o integración con otros sistemas. También cuando se trabaja en equipo, es útil compartir instrucciones claras.

No tiene sentido para tareas simples o abiertas, donde una frase en lenguaje natural basta.

El caso educativo

En educación, estos prompts son útiles para generar preguntas, resúmenes, explicaciones, esquemas y más. Definir el nivel del alumnado, el tipo de tarea y el formato de salida, evita respuestas vagas o fuera de contexto.

Ejemplo:

{
  "rol": "Asistente educativo especializado en biología",
  "tono": "claro y adaptado a estudiantes de secundaria",
  "tarea": "crear una pregunta tipo test",
  "tema": "la fotosíntesis",
  "nivel": "2.º ESO",
  "formato_salida": "CSV con cuatro opciones y respuesta correcta"
}

Este prompt se puede copiar, adaptar a otro tema, o integrar en una hoja de cálculo que automatice la creación de ejercicios.

No hay que limitarse a una lista de claves, también podemos tener subclaves que añade claridad al prompt:

{
  "rol": "Asistente educativo especializado en biología",
  "tono": "claro y adaptado a estudiantes de secundaria",
  "tarea": "crear una pregunta tipo test",
  "contenido": {
    "tema": "la fotosíntesis",
    "nivel": "2.º ESO"
  },
  "salida": {
    "formato": "CSV",
    "estructura": ["pregunta", "opción_a", "opción_b", "opción_c", "opción_d", "respuesta_correcta"]
  },
  "instrucciones": [
    "Usa un lenguaje accesible para alumnado de 13-14 años",
    "Evita tecnicismos innecesarios",
    "Incluye una breve explicación tras la respuesta correcta"
  ]
}

Con el editor JSON podremos pegar nuestro prompt y acabar de pulirlo.

Conclusión

El JSON no reemplaza al lenguaje natural, pero lo complementa cuando se necesita orden, fiabilidad o estructura. Un buen prompt en JSON es claro, modificable y reutilizable. Y lo más importante: no hay que escribirlo a mano. Hay que saber cuándo pedirlo, cómo pedirlo y dónde guardarlo.

Vídeo explicativo creado por NotebookLM

FAQ creado por NotebookLM

¿Qué es un «prompt en JSON»?

Un «prompt en JSON» es una instrucción para un sistema de inteligencia artificial que está escrita como un objeto estructurado. A diferencia de una frase simple en lenguaje natural, esta instrucción desglosa la tarea en partes específicas utilizando un formato JSON (JavaScript Object Notation), donde cada «clave» representa un aspecto de la instrucción (como «tarea», «tema», «nivel», «formato») y su «valor» especifica cómo debe actuar la IA en relación a ese aspecto.

¿Cuáles son las ventajas principales de usar prompts en JSON?

Las principales ventajas son:

  • Claridad: Permite definir cada parte de la tarea de forma separada, eliminando ambigüedades.
  • Reutilización: Facilitan la adaptación de prompts existentes a nuevos contextos simplemente cambiando los valores de las claves, lo que los convierte en plantillas potentes.
  • Compatibilidad: Muchos sistemas y plataformas de IA pueden entender e integrar este formato, permitiendo flujos de trabajo más complejos y automatizados.

¿Se espera que los usuarios, como los docentes, escriban estos prompts en JSON manualmente?

No, no se espera que los usuarios escriban estos prompts en JSON a mano. La práctica común y recomendada es pedirle a la propia IA que los genere. Una vez generados, estos prompts pueden guardarse y reutilizarse, modificando solo los valores necesarios para adaptarlos a diferentes tareas o contextos. Lo crucial es saber cómo pedir el JSON y dónde almacenarlo para futuras referencias.

¿Cuándo es más conveniente usar un prompt en JSON en lugar de una instrucción en lenguaje natural?

Es más conveniente usar un prompt en JSON cuando se requiere:

  • Precisión: Para asegurar que la IA entienda exactamente qué se espera.
  • Repetición: Cuando la misma estructura de tarea se necesita varias veces con pequeñas variaciones.
  • Integración: Al trabajar con otros sistemas o plataformas de IA.
  • Trabajo en equipo: Para compartir instrucciones claras y uniformes.

No tiene sentido para tareas muy simples o abiertas donde una frase en lenguaje natural es suficiente.

¿Cómo pueden los prompts en JSON ser útiles en el ámbito educativo?

En el ámbito educativo, los prompts en JSON son muy útiles para generar contenido específico y adaptado. Permiten crear preguntas, resúmenes, explicaciones, esquemas, etc., definiendo con precisión el nivel del alumnado, el tipo de tarea y el formato de salida deseado. Esto evita respuestas vagas o fuera de contexto, y facilita la automatización de la creación de materiales didácticos, como ejercicios adaptados a diferentes temas o grados.

¿Pueden los prompts en JSON tener una estructura más compleja, como subclaves o listas de instrucciones?

Sí, los prompts en JSON pueden tener una estructura más compleja que una simple lista de claves y valores. Pueden incluir subclaves para organizar mejor la información (por ejemplo, agrupar «tema» y «nivel» dentro de una clave «contenido») y listas de instrucciones detalladas para la IA. Esta flexibilidad permite un control aún mayor sobre el comportamiento de la IA y la forma de la salida esperada.

¿Cuál es la idea central detrás de «JSON Prompting» según las fuentes?

La idea central de «JSON Prompting» es la práctica de comunicarse con un modelo de IA utilizando entradas estructuradas y esperando salidas igualmente estructuradas. Se trata de pasar de una conversación informal con la IA a una forma más organizada y fiable de interacción, donde tanto la instrucción como la respuesta del modelo tienen un formato predefinido, lo que mejora la claridad y la capacidad de procesamiento automático.

¿Qué implica la «reutilización» de los prompts en JSON y por qué es importante?

La «reutilización» de los prompts en JSON implica la capacidad de guardar una plantilla de instrucción estructurada y usarla múltiples veces, simplemente modificando los valores de algunas claves. Por ejemplo, un prompt diseñado para generar preguntas sobre el «Principio de Arquímedes» para «secundaria» puede reutilizarse para «La célula eucariota» en «2.º de ESO» cambiando solo los valores de «tema» y «nivel». Esta característica es importante porque ahorra tiempo, asegura la coherencia en las instrucciones y permite automatizar la creación de contenido a gran escala.

Fuentes

Este artículo tiene nivel 4 en el Marco para la integración de la IA generativa en las tareas educativas.

Inteligencia artificial y matemáticas: cálculo y formato

Recientemente y hablando de matemáticas, he visto comentarios acerca de que los chatbots son incapaces de resolver problemas matemáticos donde hay algún tipo de cálculo o que no pueden comprender lo que se les sube, por ejemplo, en PDF.

Estas críticas entroncan directamente con dos capacidades matemáticas importantes: la capacidad de realizar operaciones matemáticas y, una más genérica, que es el formato con el que leen mejor los datos.

Chatbots con capacidad de cálculo

El primer error que suele cometer el docente inexperto consiste en pensar que da igual usar un chatbot u otro, pongamos, por ejemplo, Copilot o ChatGPT, para resolver un problema. Nada más lejos de la realidad, porque las diferencias en las capacidades matemáticas entre chatbots son abismales. Como veremos a continuación, los chatbots dan resultados incorrectos porque intentan hacer los cálculos «de cabeza» y se equivocan. Son muy pocos los que pueden utilizar herramientas informáticas de cálculo (programación).

Veamos un ejemplo donde les pedimos la media de 39 números. Hemos utilizado tres prompts en el mismo chat. El primero ha sido:

El segundo ha sido:

Y, por último:

En la siguiente tabla podemos ver los resultados obtenidos con cada uno de los chatbots.

ChatbotResultados de los prompts:
1 / 2 / 3
¿Resultado correcto?
Claude53.5 / 53.5 / 53.5✅ / ✅ / ✅
ChatGPT53.8 / 53.5 / 53.5❌ / ✅ / ✅
Gemini53.4 / 53.4 / 53.5❌ / ❌ / ✅
DeepSeek51.3 / 51.3 / 53.5❌ / ❌ / ✅
Grok53.6 / 53.6 / 53.5❌ / ❌ / ✅
Copilot57.4 / 57.4 / –❌ / ❌ / ❌
Perplexity52.0* / 52.0 / –❌ / ❌ / ❌

* Perplexity da un primer resultado válido, pero no los siguientes. El motivo es que, en la versión gratuita, la opción Pro Search se desactiva automáticamente, por lo tanto se considera un resultado negativo.

  • Claude ha utilizado programación desde el primer momento (hizo un programa en JavaScript), por lo que su resultado ha sido exacto desde el principio. De hecho, cuando se le puso el segundo prompt se «quejó» diciendo que ya lo había hecho antes.
  • ChatGPT confió en sus capacidades de cálculo y lo resolvió en un primer momento sin usar programación; el resultado fue, lógicamente, erróneo. ChatGPT no siempre hace esto, cuando ve operaciones complejas, suele utilizar programación desde un primer momento (hace programas en Python). Para asegurarnos de que siempre lo hará así, lo mejor es decirle desde el principio que use programación para los cálculos, de este modo su resultado será siempre acertado.
  • Gemini, DeepSeek y Grok dan un resultado erróneo en un primer momento. Cuando se les pide que usen programación en el chat con el segundo prompt, los tres hacen un programa que no ejecutan, por lo que tampoco dan el resultado correcto. Se limitan a decir que con ese programa el usuario podrá comprobar que el primer resultado era válido. Cuando se les pide un programa en HTML, los tres lo hacen, lo permiten ejecutar desde el mismo chat y se obtiene el resultado correcto.
  • Copilot y Perplexity no dan el resultado correcto en ningún caso, ya que no pueden ejecutar programas en el chat y tampoco son capaces de ejecutar los programas que crean en HTML, por lo que no es posible comprobar sin salir del chat, si los programas realmente funcionan.

Como conclusión, podemos decir que, cuando hay implicados cálculos matemáticos, debemos limitarnos a utilizar Claude y ChatGPT. Por seguridad, siempre es preferible decirles desde el principio que usen programación para calcular los resultados.

Podemos utilizar Gemini, DeepSeek o Grok (aquí también entraría el chatbot Qwen) siempre que les hagamos hacer programas en HTML para poder ejecutarlos una vez que los hayan creado.

Bajo ningún concepto deberíamos usar Copilot o Perplexity, ya que los resultados tienen una alta probabilidad de ser erróneos.

Debemos tener en cuenta que tanto ChatGPT como Claude pueden utilizar librerías como SymPy o mathjs con las que se puede hacer cálculo simbólico como, por ejemplo, derivadas de funciones y también librerías gráficas con las que podremos tener gráficos en el transcurso de nuestra conversación en el chat. Estos dos chatbots están muy por delante de cualquiera de sus competidores.

ChatGPT hace los programas en Python y Claude en JavaScript, dado que Python es más potente para la manipulación y cálculo matemático, ChatGPT se presenta como el chatbot más potente en matemáticas, no obstante, para las tareas habituales ambos nos irán igualmente bien.

En el artículo ¿Qué IA me conviene? hay una tabla, que se actualiza periódicamente, donde se indica la capacidad de las diferentes IA para hacer cálculos (fila 7). En el caso de que otros chatbots adquieran posteriormente la capacidad de hacer cálculos matemáticos, se indicará puntualmente allí.

El formato matemático desde la perspectiva de los chatbots

El formato que mejor manejan los chatbots es el de texto puro. Todos ellos utilizan para sus respuestas el formato Markdown, que es texto puro, pero con ciertas marcas que definen formatos, listas de viñetas o fórmulas. Cuando usamos el botón copiar del chat, lo que estamos copiando es el texto en formato Markdown.

Aunque podemos escribir una fracción como: (x+1)/(3x+2), hay expresiones que pueden ser más complicadas de representar y la recomendación es usar LaTeX. La fórmula anterior se escribiría como \frac{x+1}{3x+2} que se vería como \(\frac{x+1}{3x+2}\). No se trata ahora de aprender LaTeX, aunque recomiendo muy encarecidamente conocer lo más básico que son unas pocas expresiones como la de la fracción anterior (en esta página tienes lo más usado).

Documentos

Para convertir un texto en formato DOCX o PDF a Markdown podemos utilizar Gemini, ya que hace una conversión más que aceptable. Podemos usar un prompt como este:

La coletilla «no añadas citas» es para evitar que nos añada enlaces al documento con la localización del texto, aunque si las pone tampoco supondrá un problema.

El texto producido hay que copiarlo con el botón que hay en la base del chat (nunca seleccionando con el ratón) y lo podremos pegar directamente en ChatGPT o Claude. También lo podemos guardar en un archivo de texto, utilizando un programa como el bloc de notas de Windows, con la extensión: md. Por ejemplo: mi_examen.md o guardándolo como texto sin formato en Word o Google Docs. No debemos guardarlo con el formato por defecto de estos procesadores de texto.

Si actuamos de este modo, los chatbots entenderán perfectamente el texto que les estamos proporcionando y ya no tendremos la impresión de que la IA no nos entiende cuando le pedimos algo (cuando, en realidad, lo que no entiende son los datos que le subimos).

Utilidades para las fórmulas

Estos programas son de utilidad para el que trabaja habitualmente con fórmulas. El primero es para reutilizar las conversaciones con los chatbots y el segundo para hacer fórmulas.

MDAITex. Con este programa podremos hacer el paso inverso al explicado antes: el resultado proporcionado por el chatbot (la solución de un examen, ejercicios, etc.) lo podremos pasar a nuestro procesador de textos favorito.

EdiCuaTeX. Es un editor de fórmulas gráfico con el que podemos hacer fórmulas que obtendremos en LaTeX y que también podremos descargar como imagen.

Imágenes

Aunque no es tan preciso como lo anterior, todos los chatbots pueden descifrar las imágenes, por lo que si subimos fotos no debería haber ningún problema, incluso si el texto y las fórmulas están escritas a mano.

Conclusiones

Los mejores chatbots para usar en matemáticas y otras asignaturas científicas, son ChatGPT y Claude. En las conversaciones conviene indicarles que hagan los cálculos mediante programación. Para pasarles documentos hay que pedirle a Gemini que los transcriba a formato Markdown y se los proporcionaremos en este formato.

Pódcast creado con NotebookLM

FAQ del artículo

1. ¿Son todos los chatbots igualmente capaces de resolver problemas matemáticos?

No, las diferencias en las capacidades matemáticas entre los chatbots son abismales. Muchos chatbots cometen errores al intentar realizar cálculos «de cabeza» y no pueden utilizar herramientas de programación. Solo unos pocos chatbots, como Claude y ChatGPT, son fiables para cálculos matemáticos complejos, ya que pueden usar programación.

2. ¿Por qué algunos chatbots dan resultados incorrectos en matemáticas y cómo se puede mejorar su precisión?

Los chatbots dan resultados incorrectos cuando intentan hacer los cálculos sin usar programación. Para asegurar resultados precisos, es fundamental pedirles que usen programación desde el principio. Por ejemplo, al solicitar a ChatGPT que use programación (Python), sus resultados son consistentemente correctos. Otros chatbots como Gemini, DeepSeek, y Grok, aunque pueden generar código, no lo ejecutan internamente, requiriendo que el usuario ejecute el programa (por ejemplo, en HTML) para obtener la respuesta correcta.

3. ¿Cuáles son los chatbots más recomendados para tareas matemáticas y científicas?

Los mejores chatbots para usar en matemáticas y otras asignaturas científicas son ChatGPT y Claude. Claude utiliza JavaScript para su programación interna, mientras que ChatGPT usa Python. Aunque ambos son muy competentes, Python ofrece una mayor potencia para la manipulación y el cálculo matemático, lo que posiciona a ChatGPT como el más potente en matemáticas. Ambos pueden integrar librerías de cálculo simbólico (como SymPy o mathjs) y gráficas.

4. ¿Qué formato de datos es el más efectivo para que los chatbots entiendan la información, especialmente en matemáticas?

El formato que mejor manejan los chatbots es el de texto puro, específicamente Markdown. Markdown permite incluir ciertas marcas para definir formatos, listas o fórmulas. Para expresiones matemáticas complejas, se recomienda usar LaTeX, ya que los chatbots lo interpretan sin problemas. Es crucial copiar el texto directamente con el botón de copiar del chat para asegurar que el formato Markdown se preserve.

5. ¿Cómo se pueden transcribir documentos como DOCX o PDF para que los chatbots los procesen eficazmente?

Para transcribir documentos en formatos como DOCX o PDF a un formato legible para los chatbots, se puede utilizar Gemini. Se le puede pedir a Gemini que transcriba el documento a formato Markdown con un prompt como: «Transcribe el siguiente documento al formato Markdown, no añadas citas». Una vez transcrito, el texto resultante debe copiarse utilizando el botón de copiar del chat y pegarse directamente en chatbots como ChatGPT o Claude, o guardarse como un archivo .md.

6. ¿Es posible que los chatbots entiendan texto y fórmulas escritas a mano en imágenes?

Sí, aunque no con la misma precisión que con texto puro o LaTeX, todos los chatbots pueden descifrar imágenes. Esto significa que si se suben fotos con texto y fórmulas, incluso si están escritas a mano, los chatbots deberían poder procesarlas sin mayores problemas.

7. ¿Qué herramientas externas pueden complementar el uso de chatbots para trabajar con fórmulas matemáticas?

Existen utilidades que facilitan el trabajo con fórmulas. MDAITex es un programa que permite convertir los resultados proporcionados por los chatbots (en Markdown) a un formato compatible con procesadores de texto, invirtiendo el proceso de transcripción. EdiCuaTeX es un editor gráfico de fórmulas que permite crear expresiones en LaTeX y descargarlas como imagen, facilitando la creación de contenido matemático.

8. ¿Qué precauciones deben tomarse al usar chatbots para cálculos matemáticos?

Es crucial indicar a los chatbots (especialmente a Claude y ChatGPT) que realicen los cálculos mediante programación para asegurar la exactitud de los resultados. Además, para proporcionar documentos a los chatbots, se recomienda transcribirlos previamente a formato Markdown usando Gemini. Se desaconseja el uso de chatbots como Copilot o Perplexity para cálculos matemáticos, ya que sus resultados son propensos a errores y no pueden ejecutar programas internamente. Las capacidades mencionadas corresponden a las versiones gratuitas de los chatbots.

Notas

Las versiones de las que hablamos en este artículo son las gratuitas para cada uno de los chatbots, las que aparecen por defecto al abrir su enlace.

Este artículo tiene nivel 0 en el marco para la integración de la IA generativa en las tareas educativas. Excepto las FAQ y el pódcast que ha sido creado por NotebookLM.

Cómo crear un chatbot en Gemini con canvas

Gemini permite realizar programas y páginas web utilizando canvas (o lienzo) que es un espacio separado del chat, pero integrado en él, donde tanto Gemini como el usuario pueden escribir.

Para ilustrar el proceso, haremos una aplicación que será un chatbot que admita texto y el programa nos haga preguntas sobre él para ver si lo hemos comprendido.

Pasos previos

Es muy importante seleccionar el modelo más potente, que en este momento es 2.5 Pro (preview).

y marcar la opción Canvas:

Las cuentas corporativas normalmente no tienen la opción para compartir el programa, lo cual será necesario más adelante para que otros lo puedan usar. Por lo tanto, asegúrate de que tu cuenta permita compartir el programa que hagas o tendrás que empezar de cero. Para ello, pídele cualquier programa que haga rápidamente (por ejemplo, un programa que muestre la hora actual) y asegúrate de que el botón compartir está activado:

Objetivo del chatbot y su creación

En primer lugar, debemos tener muy claro lo que queremos y, si no lo tenemos, trabajar hasta obtener una descripción que lo sea.

Para hacer el prompt ejemplo de este artículo he utilizado Claude, pero podemos usar el mismo Gemini o cualquier otra que queramos. Con la idea en mente de hacer un programa que sirviese para saber si hemos comprendido determinado texto de una materia, le he pedido a Claude tipos de preguntas que podríamos hacer y después he añadido que fuese un método socrático. La conversación completa hasta obtener el prompt final está aquí y este ha sido:

Aquí tenemos una captura de pantalla después de pegar el prompt y de que Gemini haya trabajado un rato:

Depuración del chatbot

Lo siguiente que hay que hacer es probarlo en profundidad para encontrar errores o aspectos que no nos gusten. Cuando queramos cambiar algo, simplemente le explicamos a Gemini lo que queremos hacer y por qué, esto último ayuda a que la IA se haga una idea de lo que perseguimos realmente.

Un problema es que cuando se trabaja mucho tiempo en el mismo chat, Gemini empieza a arrastrar errores anteriores y se entra en un bucle difícil de salir. En este caso lo aconsejable es compartirlo, abrir la dirección compartida y pulsar el botón «Copiar Canvas» con lo que podremos empezar con el programa completo y el chat limpio.

Si trabajamos mucho tiempo en un programa, probablemente se nos acaben las interacciones gratuitas, en ese caso podemos esperar a que se restablezcan o utilizar la misma técnica explicada antes de compartir y empezar en un chat nuevo, pero esta vez cambiando de usuario. Los pasos serían: compartir el programa, cambiar de usuario, abrir el enlace compartido, pulsar «Copiar Canvas» desde el nuevo usuario y continuar con la mejora del programa.

Compartir el chatbot

Una vez tengamos la versión definitiva, hay que pulsar el botón para compartir y copiar la URL que nos dará.

Si hacemos algún cambio en el programa, tenemos que volver a compartirlo y esta dirección también cambiará. Esto puede ser un problema si ya se la hemos dado al alumnado. Por eso, es mejor usar un documento online u otro sistema que nos permita actualizar la URL sin tener que volver a difundirla. Así, los alumnos accederán siempre al mismo documento, donde encontrarán la dirección actual del programa.

Tutor socrático con IA

Puedes probar el programa en este enlace. Si lo deseas, cópialo y mejóralo. Por ejemplo, se me ocurre, no limitar a 8 las preguntas y que sea el usuario el que elija cuántas quiere, que el informe final se pueda copiar, que por defecto la edad sea de 14 años (que es la edad mínima legal para usar Gemini) o que podamos abrir archivos PDF, no solo pegar texto.

Pulsa sobre la imagen para abrir el tutor socrático

Recomendaciones

Actúa prudentemente, si le pides cosas demasiado complicadas, puede ser que el programa empiece a fallar y no consigas que vuelva a funcionar. Una forma de mitigar esto es compartirlo de vez en cuando e ir guardando estas direcciones, así podremos volver atrás en cualquier momento. También puedes volver a la versión anterior pulsando el botón indicado a continuación:

Si el programa da errores, aparecerá un mensaje indicándolo. Si el error es 401, actualiza la página. Este error normalmente indica que se ha perdido la conexión y es inútil decirle a Gemini que lo arregle. Si es otro tipo de error, un enlace te permitirá que Gemini lo arregle automáticamente. Si no lo consigues después de varios intentos, vuelve a una versión anterior.

Si, cuando acaba de hacer el programa, en lugar de aparecer la vista previa con el programa, esta está en blanco, actualiza el navegador y volverá a funcionar, después de hacerte confirmar que no eres un robot.

Puedes añadir más características basadas en IA, pulsando el botón con el símbolo de la IA que está en una pequeña barra de herramientas abajo a la derecha:

No pedirá confirmación, añadirá las características que a Gemini le parecen adecuadas. Si no nos gustan, podemos usar el botón para volver a la versión anterior.

Para terminar

Para poder usar estos programas hechos por Gemini se necesitan cuentas de Google que puedan acceder a Gemini, por lo tanto, es posible que algunas cuentas sin acceso no lo puedan usar. Esto pasa, por ejemplo, con algunas de las educativas.

La técnica que hemos usado para construir este chatbot se llama vibe coding, que consiste en explicar a la IA lo que queremos conseguir y ella nos haga el programa. Si te interesa el tema, participa en el grupo de Telegram: Vibe Coding Educativo.

Pódcast creado con NotebookLM

FAQ generada con NotebookLM

¿Qué es «canvas» en el contexto de Gemini y cómo se utiliza para crear un chatbot?

Canvas, o lienzo, es un espacio interactivo dentro de la interfaz de Gemini que funciona de forma separada del chat principal pero está integrado en él. Permite que tanto Gemini como el usuario interactúen directamente con elementos visuales o código. Para crear un chatbot, se selecciona la opción «Canvas» al iniciar un nuevo chat o proyecto en Gemini. Este lienzo actúa como el entorno donde se desarrollará y probará el programa del chatbot, permitiendo la visualización y depuración de su funcionamiento.

¿Cuál es el primer paso crucial al diseñar un chatbot en Gemini y por qué es importante seleccionar el modelo adecuado?

El primer paso esencial es tener una idea muy clara del objetivo y funcionalidad del chatbot. Si la idea inicial no es lo suficientemente precisa, se debe refinar hasta obtener una descripción detallada de lo que se quiere que el chatbot haga. Es fundamental seleccionar el modelo más potente disponible en ese momento, como 2.5 Pro (preview), ya que un modelo más avanzado ofrece mayores capacidades y un mejor rendimiento para el desarrollo del programa.

¿Qué consideraciones se deben tener en cuenta sobre las cuentas corporativas al crear y compartir un chatbot en Gemini?

Las cuentas corporativas a menudo no disponen de la opción para compartir programas o aplicaciones creadas en Gemini. Dado que la posibilidad de compartir es necesaria para que otros usuarios puedan acceder y utilizar el chatbot, es vital asegurarse de que la cuenta utilizada permita esta función. Se recomienda verificar esta capacidad creando un programa sencillo y comprobando si el botón de compartir está activado antes de invertir tiempo en el desarrollo de un chatbot complejo.

¿Cómo se utiliza un prompt efectivo para guiar a la IA en la creación de un chatbot de tutoría Socrática como el descrito?

Un prompt efectivo debe ser específico y detallado sobre la funcionalidad deseada. Para el chatbot de tutoría Socrática, el prompt incluyó instrucciones claras sobre la interacción con el usuario (pegar texto, especificar edad), el método de enseñanza (preguntas abiertas, ajuste a respuestas, método socrático), los límites (máximo 8 preguntas), las condiciones de finalización (reconocimiento de falta de comprensión o límite alcanzado), y la generación de un informe final con análisis detallado (nivel de comprensión, puntos fuertes, áreas a reforzar, sugerencias de estudio). También se especificó la adaptación del lenguaje a la edad del usuario.

¿Qué estrategias se recomiendan para depurar un chatbot en Gemini y solucionar problemas comunes?

Para depurar, se prueba el chatbot exhaustivamente y se explican a Gemini los cambios deseados y las razones detrás de ellos. Si Gemini empieza a arrastrar errores de interacciones anteriores, se aconseja compartir el programa, abrir la URL compartida y copiarlo para empezar con un chat limpio pero conservando el programa. Si se agotan las interacciones gratuitas, se puede compartir el programa, cambiar de usuario y continuar desde el nuevo usuario, abriendo el archivo compartido. Para errores de tipo 401, se debe actualizar la página. Para otros errores, Gemini puede intentar solucionarlos automáticamente a través de un enlace proporcionado; si no funciona, se recomienda volver a una versión anterior.

¿Cómo se gestiona la compartición de un chatbot en Gemini, especialmente si se realizan actualizaciones?

Una vez finalizada la versión del chatbot, se utiliza el botón de compartir para obtener una URL. Si se realizan cambios posteriores, es necesario volver a compartir para obtener una nueva URL, ya que la anterior dejará de funcionar para la versión actualizada. Para evitar tener que redifundir constantemente la nueva URL a los usuarios (como estudiantes), se sugiere utilizar un documento en línea o sistema similar donde se pueda actualizar la URL de forma centralizada. Así, los usuarios acceden siempre al mismo documento para obtener la dirección actualizada del programa.

¿Qué técnica de desarrollo se menciona y en qué consiste?

La técnica de desarrollo mencionada es «vibe coding». Consiste en describir a la inteligencia artificial lo que se desea conseguir o el resultado final esperado, y dejar que la IA se encargue de generar el código o el programa necesario para lograrlo. En lugar de dar instrucciones de programación paso a paso, se le comunica a la IA el «vibe» o la intención del proyecto.

¿Qué precauciones se sugieren al desarrollar un chatbot en Gemini y cómo se pueden mitigar posibles fallos?

Se recomienda actuar prudentemente y evitar pedirle a la IA cosas demasiado complicadas, ya que esto puede causar que el programa falle y sea difícil de recuperar. Una forma de mitigar esto es compartir el programa periódicamente y guardar las URLs de estas versiones intermedias. Esto permite volver a una versión anterior funcional si el desarrollo actual presenta problemas irresolubles. Además, Gemini ofrece un botón para volver a la versión anterior en caso de errores o cambios no deseados. Si aparece un mensaje de error, se debe prestar atención al tipo de error (ej. 401 indica pérdida de conexión).

« Entradas anteriores Entradas siguientes »

© 2026 Bilateria

Tema por Anders NorenArriba ↑