Juan Cadile (University of Rochester): Publications

Abriendo la Caja Negra: Interpretabilidad Mecanicista y Los Límites de la Explicabilidad de la Inteligencia Artificial
In Fernando L. Depalma (ed.), Tratado de Inteligencia Artificial, Hammurabi. forthcoming.

Este capítulo examina una premisa que estructura gran parte de la regulación contemporánea de la inteligencia artificial: que la opacidad de los sistemas de aprendizaje profundo es, para fines prácticos, irreductible. Sobre esa base, marcos normativos como la Ley de IA de la Unión Europea, cierta jurisprudencia reciente, y buena parte de la literatura jurídica han privilegiado mecanismos externos de control–documentación técnica, supervisión humana, explicaciones post-hoc. El capítulo sostiene q…Read more
Este capítulo examina una premisa que estructura gran parte de la regulación contemporánea de la inteligencia artificial: que la opacidad de los sistemas de aprendizaje profundo es, para fines prácticos, irreductible. Sobre esa base, marcos normativos como la Ley de IA de la Unión Europea, cierta jurisprudencia reciente, y buena parte de la literatura jurídica han privilegiado mecanismos externos de control–documentación técnica, supervisión humana, explicaciones post-hoc. El capítulo sostiene que esa premisa ya no puede asumirse sin más; y que las consecuencias de asumirla son más graves de lo que suele reconocerse. En primer lugar, argumento que las soluciones más intuitivas al problema de la opacidad fallan en el contexto del aprendizaje profundo. La revisión de código confirma la arquitectura, pero no revela las capacidades que el modelo aprendió. Las herramientas post-hoc de explicabilidad aproximan comportamientos sin poder explicativo genuino y carecen de estándares para validar sus propios hallazgos. Y las explicaciones generadas por el propio sistema son sistemáticamente infieles a su proceso causal interno: cuando un modelo confabula explicaciones plausibles pero falsas sobre su propio razonamiento, el resultado es epistemológicamente peor que la mera opacidad, porque genera confianza ilegítima y oculta exactamente los límites que la opacidad señalaría. En segundo lugar, el capítulo muestra que avances recientes en interpretabilidad mecanicista debilitan la tesis fuerte de la opacidad total e irreductible. Distintas líneas de investigación han demostrado que ciertas representaciones internas, circuitos y sesgos pueden ser localizados, analizados e intervenidos causalmente en modelos no triviales. Esto no equivale a una auditoría completa de modelos de frontera, ni demuestra que el problema de la explicabilidad esté resuelto. Pero sí falsifica la idea de que ninguna estructura interna relevante pueda recuperarse. A partir de ello, propongo distinguir cuatro niveles de acceso epistémico: interpretabilidad mecanicista ambiciosa, interpretabilidad causalmente validada, interpretabilidad exploratoria, y auditoría a caja negra. El criterio que separa los dos niveles intermedios–la existencia o ausencia de validación causal–no es técnico sino epistémico: colapsar esos niveles arriesga confundir a los reguladores sobre qué tipo de evidencia ofrece cada técnica. La principal barrera actual, sin embargo, ya no es puramente técnica sino institucional: aunque la caja negra puede abrirse parcialmente, el acceso a pesos, activaciones y gradientes permanece controlado por los propios proveedores. La brecha decisiva es la que separa lo técnicamente auditable de lo institucionalmente auditado. Finalmente, el capítulo examina límites persistentes incluso cuando existe acceso de caja blanca–falsos descubrimientos, no-identificabilidad, sobredeterminación causal–y los desarrollos teóricos emergentes que comienzan a abordarlos. La conclusión no es que la regulación deba abandonar sus exigencias de explicabilidad, sino que debe reformularlas antes de que los marcos vigentes se cristalicen. Los regímenes normativos que se consolidan bajo la premisa de que los estados internos de un modelo son inaccesibles no producen solo regulación insuficiente: producen las condiciones institucionales bajo las cuales la opacidad permanece irreductible, confirmando la premisa que la fundó. Es ese equilibrio autorrealizante el que este capítulo busca interrumpir.
9

Detecting and Steering LLMs' Empathy in Action

We investigate “empathy-in-action”–defined as the willingness of a model to sacrifice task efficiency to address human needs–as a linear direction in the activation space of large language models. Using contrastive prompts from the Empathy-in-Action (EIA) benchmark, we test both detection (via linear probes) and causal intervention (via activation steering) across three models: Phi-3-mini-4k (3.8B), Qwen2.5-7B, and Dolphin-Llama-3.1-8B. Detection is consistently high across models (AUROC 0.996–1…Read more
We investigate “empathy-in-action”–defined as the willingness of a model to sacrifice task efficiency to address human needs–as a linear direction in the activation space of large language models. Using contrastive prompts from the Empathy-in-Action (EIA) benchmark, we test both detection (via linear probes) and causal intervention (via activation steering) across three models: Phi-3-mini-4k (3.8B), Qwen2.5-7B, and Dolphin-Llama-3.1-8B. Detection is consistently high across models (AUROC 0.996–1.00), and emerges even in models without safety training, suggesting that empathy-related behavior corresponds to linearly decodable internal structure rather than solely to post-training alignment. However, cross-model probe agreement is limited, indicating architecture-specific implementations despite convergent behavioral detection. Steering results reveal a gap between detection and causal control. While Phi-3 and Qwen allow bidirectional steering with moderate reliability, Dolphin shows asymmetric steerability: EIA can be increased, but attempts to suppress it lead to severe degradation of output coherence. These results suggest that the presence of a linearly decodable feature does not guarantee robust causal manipulability. The results have implications for mechanistic interpretability and AI alignment, in particular for the inference from probe-based detection to claims about internal representation and causal control. Further philosophical implications concerning representation and intervention in neural networks are reserved for future work.

Representation in Artificial Intelligence Interpretability in Artificial Intelligence

Juan Cadile

Abriendo la Caja Negra: Interpretabilidad Mecanicista y Los Límites de la Explicabilidad de la Inteligencia Artificial In Fernando L. Depalma (ed.), Tratado de Inteligencia Artificial, Hammurabi. forthcoming.

Detecting and Steering LLMs' Empathy in Action

Abriendo la Caja Negra: Interpretabilidad Mecanicista y Los Límites de la Explicabilidad de la Inteligencia Artificial
In Fernando L. Depalma (ed.), Tratado de Inteligencia Artificial, Hammurabi. forthcoming.