← Volver al blog

Auditabilidad de la IA en contabilidad: el criterio que separa un producto defendible de una caja negra

Cuando un proveedor de software contable te enseña su IA, casi siempre te la enseña en modo demo: una factura entra, sale clasificada con su asiento. Lo que casi nunca te enseñan es lo que pasa cuando la IA se equivoca y la AEAT pregunta por qué. Esa pregunta, no la velocidad de extracción ni el porcentaje de precisión, es la que define si la IA es usable de verdad en una pyme o asesoría.

Este artículo es sobre auditabilidad: qué significa técnicamente, qué piden los inspectores, qué problemas legales abre la IA contable mal documentada, y cómo evaluarla en una demo en menos de 10 minutos.

Por qué la auditabilidad importa de repente en 2026

Tres factores empujan al frente esta conversación:

  1. El AI Act europeo clasifica los sistemas de IA usados en obligaciones legales (declaraciones fiscales incluidas) como de alto riesgo. Los proveedores y los usuarios profesionales tienen obligaciones nuevas: documentar el sistema, mantener trazabilidad de las decisiones, permitir la supervisión humana.

  2. Verifactu (RD 1007/2023) exige que cada factura tenga un rastro inalterable. Si una IA modifica la categorización de la factura, esa modificación tiene que dejar huella. Una IA que sobrescribe sin registro está rompiendo el principio del sistema.

  3. Las inspecciones de la AEAT ya están preguntando por la fuente de las clasificaciones. “¿Por qué clasificó esta factura como suministros y no como reparaciones?” no se contesta con “porque la IA lo hizo”. Se contesta con datos: qué información usó la IA, qué nivel de confianza tenía, quién (humano o IA) tomó la decisión final.

La consecuencia práctica: una IA que toma decisiones contables sin registrar el por qué te deja indefenso. La precisión del 98% no compensa la falta de defensa cuando llega un requerimiento.

Los 3 mínimos de auditabilidad

Una IA contable es auditable solo si cumple tres cosas a la vez. Si falla en una, la auditabilidad es marketing.

1. Confianza por campo, no solo por documento

Una IA seria no devuelve “factura procesada al 95%”. Devuelve “número de factura: 99% de confianza, total: 95%, fecha: 87%, NIF emisor: 99%”. La diferencia no es cosmética: el campo con menor confianza es donde se concentra el riesgo, y donde la revisión humana debe ir primero. Sin score por campo, priorizar la revisión es imposible.

2. Trazabilidad de la decisión, no solo del input

El log debe responder a “¿qué información usó la IA para clasificar esta factura como cuenta 628?” La respuesta correcta es: histórico del proveedor, líneas de la factura, contexto fiscal, regla aprendida. La respuesta incorrecta es: “la IA decidió”. Si el sistema no puede reconstruir el porqué, la decisión no es defendible ante una inspección.

3. Registro inmutable de las correcciones humanas

Cuando un humano corrige a la IA, el sistema tiene que registrar tres cosas: el valor original que propuso la IA, el valor corregido por el humano, el momento. La corrección no debe sobrescribir la propuesta. Esto importa por dos razones: el principio de Verifactu (datos inalterables) y la defensa en auditoría (poder explicar por qué la versión final difiere de la propuesta inicial).

Sin estos tres, lo que tienes no es una IA auditable. Es una IA con marketing de auditabilidad.

Qué pregunta de verdad un inspector

He oído tres preguntas reales en inspecciones donde el contribuyente usaba IA contable:

1. “Enséñeme cómo se clasificó esta factura concreta.”

El inspector apunta a una factura específica. Quiere ver el flujo: extracción → clasificación → asiento → modificaciones humanas si las hubo. Si tu sistema solo enseña el resultado final, no la cadena, te quedas mudo.

2. “¿La IA aprendió de algún error previo en esta categorización?”

El inspector quiere saber si una clasificación correcta hoy es resultado de una corrección anterior, lo que indicaría que antes el sistema se equivocaba. Si el log no registra el aprendizaje del modelo, no puedes responder.

3. “¿Esta factura fue revisada por un humano o procesada en automático?”

Crítico para clasificaciones complejas (reverse charge, intracomunitario, prorrata). El inspector quiere saber si hay supervisión humana documentada. La respuesta correcta es un flag por factura: “automática” o “revisada por [usuario] el [fecha]”.

Si tu software no responde a estas tres preguntas con datos, no es auditable. Es un riesgo encubierto.

Las trampas más comunes

Tres patrones que se ven repetidamente en software contable que dice ser “auditable”:

Trampa 1: la confianza global

El sistema te da un score único por documento (“procesado al 92%”). Es marketing, no auditabilidad. El score por campo es lo que importa, porque te dice dónde mirar.

Trampa 2: el log opaco

El sistema dice tener log de auditoría, pero cuando lo abres, ves “factura procesada por IA, 14:32 del 12/03/2026”. Eso no es trazabilidad, es solo timestamp. Trazabilidad real incluye qué inputs usó la IA, qué reglas aplicó, qué nivel de confianza tenía cada decisión.

Trampa 3: la corrección sobrescribe

El usuario corrige una clasificación, y la propuesta original desaparece. El sistema solo guarda el valor final. Esto rompe Verifactu y deja al inspector sin contexto de cómo se llegó al valor final.

Cuando evalúes un producto, pide ver el log de una factura corregida hace dos meses. Si solo ves el valor actual, sabes lo que tienes.

Las 5 preguntas para una demo

Imprime estas preguntas. Hazlas en orden, con la pantalla compartida. Si una respuesta es vaga, pide ver la funcionalidad.

1. ¿Hay nivel de confianza por campo extraído?

Pídeles abrir una factura procesada y enseñar el score de cada campo. Si solo hay un score global, falla.

2. ¿Puedo ver el razonamiento de la IA para una categorización concreta?

“Enseñadme por qué la IA puso esta factura de Stock Supplies en la 600 y no en la 622.” Espera ver: histórico del proveedor, líneas de la factura, regla aprendida, otras opciones consideradas con sus scores.

3. ¿Las correcciones humanas se registran sin sobrescribir la propuesta original?

Cojan una factura, corrijan algo, abran el log. Tienes que ver: valor IA, valor corregido, usuario, momento. Los tres.

4. ¿El sistema documenta qué facturas son “automáticas” vs “revisadas por humano”?

Filtro por estado de revisión. Si todo aparece igual, no hay diferenciación documentada y la AEAT no puede saber dónde hubo supervisión.

5. ¿Cómo defienden esto ante una inspección hipotética?

Pregunta directa: “si llega un requerimiento de la AEAT pidiendo explicación de una clasificación, ¿qué documentación me dais?”. La respuesta correcta es un export específico que muestra los puntos 1-4. La respuesta incorrecta es “lo que necesite, ya hablaríamos”.

El AI Act europeo entra en aplicación progresiva entre 2025 y 2027. La parte relevante para IA contable: los sistemas que toman decisiones que afectan obligaciones legales (incluida la fiscalidad) son de alto riesgo. Las consecuencias prácticas para una pyme o asesoría que usa IA contable:

Esto coincide con lo que la AEAT ya pide en inspecciones, así que no es una capa nueva, es la formalización de lo que ya importa.

Cómo lo aborda Calitem

La auditabilidad no es una feature en Calitem, es una restricción de diseño. Tres mecanismos:

  1. Score por campo: cada extracción devuelve un nivel de confianza por campo, no solo por documento. La interfaz prioriza la revisión por confianza más baja.
  2. Trazabilidad de decisión: cada clasificación registra los inputs que usó (histórico del proveedor, líneas de la factura, reglas aprendidas) y los devuelve en el log auditable.
  3. Inmutabilidad de la propuesta: cuando un usuario corrige una clasificación, el valor IA original queda registrado. La factura tiene un historial completo, no solo el estado final.

Para una inspección, tienes un export por factura con los tres niveles de información, listo para entregar.

Lecturas relacionadas