Mastodawn

Civio 2d ago

1️⃣ No se va a usar IA, en ningún caso, para escribir nuestros artículos. Nuestro periodismo es artesano y se cocina a fuego lento por personas especializadas y rigurosas.

2️⃣ No se permitirá su uso en comunicados, propuestas de enmiendas, documentos presentados en juicios ni en la comunicación directa contigo.

3️⃣ Sí se permite, como apoyo, sobre todo en programación o a la hora de transformar formatos o extraer datos. El análisis de datos, nuestra seña de identidad, seguirá siendo humano.

Civio 2d ago

Las reglas generales marcan tres claves:

❌️ La IA no hace nada por sí sola, nunca.
🔎 Si se usa se contará en las metodologías de forma detallada.
✅️ Se utilizarán sistemas validados, muchas veces solo en local, que respeten la protección de datos y fuentes.

Este código surge tras largos debates internos. Hemos aprendido mucho en este proceso, pero seguro que irán surgiendo ejemplos, casos o conflictos.

Así que es un trabajo en construcción y estas son las bases: https://civio.es/nosotros/uso-IA/

Uso de la Inteligencia Artificial (IA) en Civio

En este código establecemos las líneas generales que rigen el uso de la Inteligencia Artificial (IA) en el trabajo de Civio. Este documento ha sido creado tras una larga reflexión dentro del equipo y el patronato de la organización.

Civio

2d ago

@civio El cambio de formato de los datos siempre es lo mismo. Paquetes estadísticos como GNU R te permiten abrir todo tipo de archivos y operar con los mismos tipos de datos (data frames). Tampoco veo motivo para usar LLMs en eso.

@Fedihacker @civio nos referimos a cosas como el OCR: los modelos multimodales recientes funcionan mejor que el OCR tradicional y sacan la información de forma más estructurada cuando el documento tiene tablas, por ejemplo

@dcabo @civio los LLMs ineractuan con software OCR como PaddleOCR https://www.paddleocr.ai/latest/ o Tesseract https://github.com/tesseract-ocr

Es decir, son una interfaz conversacional para ejecutar los programas OCR de siempre sobre los documentos que les envíes.

PaddleOCR 文档

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

@Fedihacker @civio pero es que PaddleOCR es IA: es un modelo neuronal de un porrón de parámetros. Cuando decimos que usamos IA para transformar un documento nos referimos justo a esto.

@dcabo @civio PaddleOCR es OCR, no es un LLM.

@Fedihacker @civio este en concreto yo no lo he mirado mucho, pero su Github dice "PaddleOCR-VL-1.5 (0.9B), the industry's leading lightweight vision-language model for document parsing". Pero hay otros como GLM-OCR: https://huggingface.co/zai-org/GLM-OCR

zai-org/GLM-OCR · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

https://github.com/PaddlePaddle/PaddleOCR

@dcabo @civio Estás mezclando conceptos publicitarios.

Y no es IA, es un OCR. Tesseract también utiliza una red neuronal desde su versión 4.

Que utilicen redes neuronales no lo convierten en algo distinto.

GitHub - PaddlePaddle/PaddleOCR: Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages. - PaddlePaddle/Paddl...

GitHub

@Fedihacker @civio en esa página pone claramente que es un VLM de 0.9b parámetros. Un VLM es IA.

@dcabo @civio
¿Qué es lo que utiliza un VLM de 0.9b de parámetros?

@Fedihacker @dcabo @civio
No se si entiendo tu pregunta pero usa un ordenador para funcionar.

@paelnever @dcabo @civio Sí, hasta ahí llego, pero me cuesta entender porqué dice que PaddleOCR utiliza un VLM.

@Fedihacker @dcabo @civio
Lo dice la propia página, lo usan porque es así como funciona la herramienta, es un VLM conectado a un analizador sintáctico para extraer el texto de imágenes. Los OCR llevan haciendo eso desde siempre. VLM son las siglas de Vision Languaje Model (modelo de visión lenguaje). Son básicamente modelos de IA que le metes imagen y generan texto.

@paelnever @dcabo @civio pero es que en el repositorio no pone que PaddleOCR utilice un VLM. Hay varios programas en el repositorio y sólo uno de ellos utiliza un VLM.

@Fedihacker @dcabo @civio

En el enlace que has pasado en el segundo parrafo pone: "SOTA Document VLM: Featuring PaddleOCR-VL-1.5 (0.9B), the industry's leading lightweight vision-language model for document parsing"

@paelnever @dcabo @civio Eso es PaddleOCR-VL, que es distinto de PaddleOCR y de PP-Structure (PP = PaddlePaddle).

@Fedihacker @dcabo @civio
Vale creo que ahora entiendo a lo que te refieres. Hay varias herramientas en ese framework y no todas usan el VLM. Por ejemplo esa que mencionas de PP-structure usa un conjunto de modelos de IA mas pequeños y especializados para extraer texto respetando el formato de documentos complejos que pueden contener tablas y gráficos.

@paelnever @dcabo @civio utilizan redes neuronales para visión por computador, de forma que reconozcan carácteres (OCR) y otros elementos de los documentos. No hay ningún modelo de lenguaje.

Si quieres llamar a eso IA pues vale. Pero la IA no existe. Es publicidad.

@Fedihacker @dcabo @civio
No, yo no quiero llamar a nada IA, es como todo el mundo académico llama a las redes neuronales y los algoritmos probabilisticos. La diferencia entre la red neuronal que usa PP-OCR y la que utiliza PaddleOCR-VL-1.5 es básicamente una diferencia de tamaño. Si a lo que te refieres con lo de que "la IA no existe" es que en realidad no es "inteligente" ahí estamos completamente de acuerdo.