🤖 ¿Cómo usamos la IA en Civio?

Siempre hemos sido brutalmente transparentes con nuestras metodologías y este tema no iba a ser la excepción.

Hoy, compartimos contigo el código ético en el que te contamos en qué tareas está vetada, en cuáles se permite y cómo, con ejemplos claros.

Desarrollamos las claves ⬇️🧵

🔗 https://civio.es/novedades/2026/03/31/estas-son-nuestras-reglas-sobre-el-uso-de-la-ia/

Estas son nuestras reglas sobre el uso de la IA

Este código ético nace tras un debate interno en la organización y marca de forma transparente y específica, con ejemplos muy concretos, en qué tareas está vetada, en cuáles se permite y cómo.

Civio

1️⃣ No se va a usar IA, en ningún caso, para escribir nuestros artículos. Nuestro periodismo es artesano y se cocina a fuego lento por personas especializadas y rigurosas.

2️⃣ No se permitirá su uso en comunicados, propuestas de enmiendas, documentos presentados en juicios ni en la comunicación directa contigo.

3️⃣ Sí se permite, como apoyo, sobre todo en programación o a la hora de transformar formatos o extraer datos. El análisis de datos, nuestra seña de identidad, seguirá siendo humano.

Las reglas generales marcan tres claves:

❌️ La IA no hace nada por sí sola, nunca.
🔎 Si se usa se contará en las metodologías de forma detallada.
✅️ Se utilizarán sistemas validados, muchas veces solo en local, que respeten la protección de datos y fuentes.

Este código surge tras largos debates internos. Hemos aprendido mucho en este proceso, pero seguro que irán surgiendo ejemplos, casos o conflictos.

Así que es un trabajo en construcción y estas son las bases: https://civio.es/nosotros/uso-IA/

Uso de la Inteligencia Artificial (IA) en Civio

En este código establecemos las líneas generales que rigen el uso de la Inteligencia Artificial (IA) en el trabajo de Civio. Este documento ha sido creado tras una larga reflexión dentro del equipo y el patronato de la organización.

Civio
@civio El cambio de formato de los datos siempre es lo mismo. Paquetes estadísticos como GNU R te permiten abrir todo tipo de archivos y operar con los mismos tipos de datos (data frames). Tampoco veo motivo para usar LLMs en eso.
@Fedihacker @civio nos referimos a cosas como el OCR: los modelos multimodales recientes funcionan mejor que el OCR tradicional y sacan la información de forma más estructurada cuando el documento tiene tablas, por ejemplo

@dcabo @civio los LLMs ineractuan con software OCR como PaddleOCR https://www.paddleocr.ai/latest/ o Tesseract https://github.com/tesseract-ocr

Es decir, son una interfaz conversacional para ejecutar los programas OCR de siempre sobre los documentos que les envíes.

PaddleOCR 文档

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

@Fedihacker @civio pero es que PaddleOCR es IA: es un modelo neuronal de un porrón de parámetros. Cuando decimos que usamos IA para transformar un documento nos referimos justo a esto.
@dcabo @civio PaddleOCR es OCR, no es un LLM.
@Fedihacker @civio este en concreto yo no lo he mirado mucho, pero su Github dice "PaddleOCR-VL-1.5 (0.9B), the industry's leading lightweight vision-language model for document parsing". Pero hay otros como GLM-OCR: https://huggingface.co/zai-org/GLM-OCR
zai-org/GLM-OCR · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

@dcabo @civio Estás mezclando conceptos publicitarios.

https://github.com/PaddlePaddle/PaddleOCR

Y no es IA, es un OCR. Tesseract también utiliza una red neuronal desde su versión 4.

Que utilicen redes neuronales no lo convierten en algo distinto.

GitHub - PaddlePaddle/PaddleOCR: Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages. - PaddlePaddle/Paddl...

GitHub
@Fedihacker @civio en esa página pone claramente que es un VLM de 0.9b parámetros. Un VLM es IA.
@dcabo @civio
¿Qué es lo que utiliza un VLM de 0.9b de parámetros?
@Fedihacker @dcabo @civio
No se si entiendo tu pregunta pero usa un ordenador para funcionar.
@paelnever @dcabo @civio Sí, hasta ahí llego, pero me cuesta entender porqué dice que PaddleOCR utiliza un VLM.
@Fedihacker @dcabo @civio
Lo dice la propia página, lo usan porque es así como funciona la herramienta, es un VLM conectado a un analizador sintáctico para extraer el texto de imágenes. Los OCR llevan haciendo eso desde siempre. VLM son las siglas de Vision Languaje Model (modelo de visión lenguaje). Son básicamente modelos de IA que le metes imagen y generan texto.
@paelnever @dcabo @civio pero es que en el repositorio no pone que PaddleOCR utilice un VLM. Hay varios programas en el repositorio y sólo uno de ellos utiliza un VLM.

@Fedihacker @dcabo @civio

En el enlace que has pasado en el segundo parrafo pone: "SOTA Document VLM: Featuring PaddleOCR-VL-1.5 (0.9B), the industry's leading lightweight vision-language model for document parsing"

@paelnever @dcabo @civio Eso es PaddleOCR-VL, que es distinto de PaddleOCR y de PP-Structure (PP = PaddlePaddle).
@Fedihacker @dcabo @civio
Vale creo que ahora entiendo a lo que te refieres. Hay varias herramientas en ese framework y no todas usan el VLM. Por ejemplo esa que mencionas de PP-structure usa un conjunto de modelos de IA mas pequeños y especializados para extraer texto respetando el formato de documentos complejos que pueden contener tablas y gráficos.

@paelnever @dcabo @civio utilizan redes neuronales para visión por computador, de forma que reconozcan carácteres (OCR) y otros elementos de los documentos. No hay ningún modelo de lenguaje.

Si quieres llamar a eso IA pues vale. Pero la IA no existe. Es publicidad.

@Fedihacker @dcabo @civio
No, yo no quiero llamar a nada IA, es como todo el mundo académico llama a las redes neuronales y los algoritmos probabilisticos. La diferencia entre la red neuronal que usa PP-OCR y la que utiliza PaddleOCR-VL-1.5 es básicamente una diferencia de tamaño. Si a lo que te refieres con lo de que "la IA no existe" es que en realidad no es "inteligente" ahí estamos completamente de acuerdo.

@paelnever @dcabo @civio
Empezaré diciendo que los troles sois unos pesados.

El mundo académico habla de CV (Computer Vision), ML (Machine Learning) o DL (Deep Learning). AI es un término basura independientemente de quién lo use (falacia de autoridad).

La diferencia entre PP-OCR y PaddleOCR-VL es que PaddleOCR-VL además de reconocimiento realiza generación (si nos fiamos del nombre que lleva) porque se trata de un VLM y por tanto da menos información que PP-Structure. Su salida no proviene del original (emparejar o relacionar con funciones/clases) sino de los datos de entrenamiento (generación). Léete al menos las descripciones y pregúntate porqué uno da coordenadas de los elementos y el otro no.

Introduction to Vision Language Models. https://opencv.org/blog/vision-language-models/

Quedaría por ver si PaddleOCR-VL es realmente un VLM al que le han capado la posibilidad de utilizar lenguaje natural para pedirle descripciones u otras cosas o se refiere a la forma en la que entrenaron la red neuronal, como el CLIP de OpenAI.

Introduction to Vision Language Models

Learn about Vision Language Models (VLMs), the cutting-edge AI technology that combines image understanding with natural language processing for seamless multimodal intelligence.

OpenCV