Mastodawn

Civio 1d ago

1️⃣ No se va a usar IA, en ningún caso, para escribir nuestros artículos. Nuestro periodismo es artesano y se cocina a fuego lento por personas especializadas y rigurosas.

2️⃣ No se permitirá su uso en comunicados, propuestas de enmiendas, documentos presentados en juicios ni en la comunicación directa contigo.

3️⃣ Sí se permite, como apoyo, sobre todo en programación o a la hora de transformar formatos o extraer datos. El análisis de datos, nuestra seña de identidad, seguirá siendo humano.

Civio 1d ago

Las reglas generales marcan tres claves:

❌️ La IA no hace nada por sí sola, nunca.
🔎 Si se usa se contará en las metodologías de forma detallada.
✅️ Se utilizarán sistemas validados, muchas veces solo en local, que respeten la protección de datos y fuentes.

Este código surge tras largos debates internos. Hemos aprendido mucho en este proceso, pero seguro que irán surgiendo ejemplos, casos o conflictos.

Así que es un trabajo en construcción y estas son las bases: https://civio.es/nosotros/uso-IA/

Uso de la Inteligencia Artificial (IA) en Civio

En este código establecemos las líneas generales que rigen el uso de la Inteligencia Artificial (IA) en el trabajo de Civio. Este documento ha sido creado tras una larga reflexión dentro del equipo y el patronato de la organización.

Civio

⁂ Kyva 1d ago

@civio se agradece la transparencia y que no se use la IA en procesos clave.

De todas formas me surgen algunas dudas, ya que admitís el uso de la IA para ciertas cosas estaría bien saber más detalles relevantes.

Es complicado hacer un uso ético de la tecnología hoy en día y nadie se quiere quedar atrás pero si la usas gratis, la entrenas. Y si la pagas, la financias. Por ello estaría bien saber:

- ¿Qué IA vais a usar?
- ¿Vais a pagar por su uso?

Lo de "muchas veces solo en local" es difícil de creer si la vais a usar para programación.

@kyva @civio hola. Estamos todavía aprendiendo y probando, y lo haremos de la forma más transparente posible. En local andamos probando Qwen y GLM para cosas menores o que usen datos que no queremos sacar de la oficina. Para transcripción Whisper nos funciona bien. Y para programar hemos empezado a pagar por Claude, porque es mucho mejor que los modelos locales, y dentro de lo malo Anthropic ha mostrado más precaución que OpenAI o xAI

Arte es Ética 1d ago

@dcabo @kyva @civio «hemos empezado a pagar por Claude, porque es mucho mejor que los modelos locales, y dentro de lo malo Anthropic ha mostrado más precaución que OpenAI o xAI» 🤦‍♀️ Sugiero que no compren nunca el cuento de que una empresa de IA generativa ha actuado con precaución. https://mastodon.social/@arteesetica/116166157185903000

https://flipboard.com/@biespana/%C3%BAltimas-noticias-business-insider-espa%C3%B1a-29lr0315z/-/a-JlVOQq89R0m58VpnclsCeg%3Aa%3A2484698502-%2F0

Roquette 1d ago

@dcabo @kyva @civio

Pues precisamente parece que hay bastante movida reciente con Claude

No soy informático, pero yo echaría un ojo a lo que se está comentando por ahí sobre el código, porque parece importante.

Como, por ejemplo, esto https://tldr.nettime.org/@tante/116325852395653023

Anthropic publica accidentalmente el código fuente de su chatbot de IA Claude

La startup de inteligencia artificial fundada por los hermanos Amodei, Anthropic, publicó inadvertidamente el código fuente de su popular agente de …

businessinsider.es - Lidia Sánchez

@civio El cambio de formato de los datos siempre es lo mismo. Paquetes estadísticos como GNU R te permiten abrir todo tipo de archivos y operar con los mismos tipos de datos (data frames). Tampoco veo motivo para usar LLMs en eso.

@Fedihacker @civio nos referimos a cosas como el OCR: los modelos multimodales recientes funcionan mejor que el OCR tradicional y sacan la información de forma más estructurada cuando el documento tiene tablas, por ejemplo

@dcabo @civio los LLMs ineractuan con software OCR como PaddleOCR https://www.paddleocr.ai/latest/ o Tesseract https://github.com/tesseract-ocr

Es decir, son una interfaz conversacional para ejecutar los programas OCR de siempre sobre los documentos que les envíes.

PaddleOCR 文档

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

@Fedihacker @civio pero es que PaddleOCR es IA: es un modelo neuronal de un porrón de parámetros. Cuando decimos que usamos IA para transformar un documento nos referimos justo a esto.

@dcabo @civio PaddleOCR es OCR, no es un LLM.

@Fedihacker @civio este en concreto yo no lo he mirado mucho, pero su Github dice "PaddleOCR-VL-1.5 (0.9B), the industry's leading lightweight vision-language model for document parsing". Pero hay otros como GLM-OCR: https://huggingface.co/zai-org/GLM-OCR

zai-org/GLM-OCR · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

@Fedihacker @civio y no estoy diciendo que sea un LLM. Estoy diciendo que es IA.

https://github.com/PaddlePaddle/PaddleOCR

@dcabo @civio Estás mezclando conceptos publicitarios.

Y no es IA, es un OCR. Tesseract también utiliza una red neuronal desde su versión 4.

Que utilicen redes neuronales no lo convierten en algo distinto.

GitHub - PaddlePaddle/PaddleOCR: Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages. - PaddlePaddle/Paddl...

GitHub

@Fedihacker @civio en esa página pone claramente que es un VLM de 0.9b parámetros. Un VLM es IA.

@dcabo @civio
¿Qué es lo que utiliza un VLM de 0.9b de parámetros?

@Fedihacker @dcabo @civio
No se si entiendo tu pregunta pero usa un ordenador para funcionar.

@paelnever @dcabo @civio Sí, hasta ahí llego, pero me cuesta entender porqué dice que PaddleOCR utiliza un VLM.

@Fedihacker @dcabo @civio
Lo dice la propia página, lo usan porque es así como funciona la herramienta, es un VLM conectado a un analizador sintáctico para extraer el texto de imágenes. Los OCR llevan haciendo eso desde siempre. VLM son las siglas de Vision Languaje Model (modelo de visión lenguaje). Son básicamente modelos de IA que le metes imagen y generan texto.

@paelnever @dcabo @civio pero es que en el repositorio no pone que PaddleOCR utilice un VLM. Hay varios programas en el repositorio y sólo uno de ellos utiliza un VLM.

@Fedihacker @dcabo @civio

En el enlace que has pasado en el segundo parrafo pone: "SOTA Document VLM: Featuring PaddleOCR-VL-1.5 (0.9B), the industry's leading lightweight vision-language model for document parsing"

@paelnever @dcabo @civio Eso es PaddleOCR-VL, que es distinto de PaddleOCR y de PP-Structure (PP = PaddlePaddle).

@Fedihacker @dcabo @civio
Vale creo que ahora entiendo a lo que te refieres. Hay varias herramientas en ese framework y no todas usan el VLM. Por ejemplo esa que mencionas de PP-structure usa un conjunto de modelos de IA mas pequeños y especializados para extraer texto respetando el formato de documentos complejos que pueden contener tablas y gráficos.

@paelnever @dcabo @civio utilizan redes neuronales para visión por computador, de forma que reconozcan carácteres (OCR) y otros elementos de los documentos. No hay ningún modelo de lenguaje.

Si quieres llamar a eso IA pues vale. Pero la IA no existe. Es publicidad.

paelnever 21h ago

@Fedihacker @dcabo @civio
No, yo no quiero llamar a nada IA, es como todo el mundo académico llama a las redes neuronales y los algoritmos probabilisticos. La diferencia entre la red neuronal que usa PP-OCR y la que utiliza PaddleOCR-VL-1.5 es básicamente una diferencia de tamaño. Si a lo que te refieres con lo de que "la IA no existe" es que en realidad no es "inteligente" ahí estamos completamente de acuerdo.

Fernando Álvarez Ruiz 3h ago

@dcabo @Fedihacker @civio

Es IA, pero no es IAg. La absorción del término IA por la industria de la IAg es mala cosa. La inteligencia artificial lleva realizándose desde hace mucho y seguirá realizándose. El rechazo actual es frente a la inteligencia artificial generativa, que realiza un uso desmedido para su desempeño.
Se que es difícil deshacer este tipo de enredos lingüísticos, pero deberíamos de tratar de no caer en ellos.

Lluís Revilla 1d ago

@civio A parte de las dudas que otras personas han preguntado. Me interesa saber qué consideráis sistemas validados. Parte de mi tiempo de trabajo lo dedico a definir y crear herramientas para eso y hay muchas definiciones que podrían darse: ¿Qué considerais cómo sistema validado? ¿Qué características, reglas, condiciones, comprobaciones, (y?) certificaciones tienen?

@Lluis_Revilla @civio nos referimos a que tenemos que probarlo nosotros y decidir que funciona bien. O sea, que no use cada miembro del equipo un modelo o aplicación que ha visto por ahí sin más. Pero no hay un proceso más formal que eso. Para programar, ahora, por ejemplo, tiramos de Claude, porque es el que mejor resultado nos ha dado.

Lluís Revilla 1d ago

@dcabo @civio
No es una comprobación suficiente para el riesgo que pueden tener estos programas...

PD: aparentemente el código es un poco malo... https://mastodon.social/@nixCraft/116324270189877586

Lluís Revilla 1d ago

@civio Una pregunta, si se incumplen estas u otras normativas internas. ¿Qué sucede? Ha pasado que algunos medios han publicado notificas con citas falsas mediante la IA a pesar de su normativa interna. ¿Si esto llegara a suceder, qué pueden hacer los socios?

fanta 🐌1d ago

@[email protected] sinceramente me llevo una gran decepción. Pensaba que vuestra postura respecto a la IA no era solamente por temas de transparencia sino porque entendíais el resto de impactos y erais coherentes al respecto.

Me sumo al resto de comentarios respetuosos del hilo con este sentir.

Arte es Ética 1d ago

@fanta tristísimo leer que han empezado a pagar por Claude, porque consideran que «dentro de lo malo Anthropic ha mostrado más precaución que OpenAI o xAI» 🤦‍♀️ Esta cultura de elegir al villano más aceptable para el primetime está llegando a niveles donde creíamos que primaba el pensamiento crítico, pero ya vemos que no. Muy triste.

Iván Sánchez Ortega 1d ago

@civio @dcabo Yo me sumo a lo dicho por @delawen, @fanta, y tantos otros.

Ulmo 1d ago

@civio creo que, como mínimo, alejarse de las IA norteamericanas. En temas de transparencia y depredación de recursos han demostrado de largo el modelo a evitar, que no es otro que la esencia del modelo social y económico estadounidense. Es el reflejo de sus creadores.

No soy tan ingenuo de pensar que la IA va a desaparecer (tiene pinta de que ha venido a quedarse). Como cualquier avance tecnológico o conocimiento humano hay que evitar que su uso y desarrollo sea amoral o una herramienta más de explotación y desigualdad.

Malatesta (El/He)13h ago

@civio seria increible explicar esto para los neófitos como yo que no entienden de informática a estos niveles, pero que llevan años viendo como la ia gen roba para producir, entendiendo que la IA (como la analítica en medicina), puede ser muy beneficiosa.

Y lo digo como alguien que la ha usado muy esporádicamente para consultas que SIEMPRE he tenido que corregir.