Post by <img src="https://media.femto.pub:443/takahe/emoji/fedi.lat/neocat_santa.png" class="emoji" alt="Emoji neocat_santa"> 🎄

87d

Me pregunto cómo funcionará el entrenamiento de las LLM para describir imágenes si absolutamente nadie ponía texto alternativo hasta hace un par de años, cuando las IA ya estaban establecidas y podían describir.

4 0 0 View Post & Replies See Original

87d

@muchanchoasado por comparativa, de una forma muy similar a como opera el machine learning

ej. el coso consume un banco de imágenes, rollo sitios con imágenes stock con etiquetas, en donde hay muchas fotos descritas como "árboles" y con eso va creando un patrón para diferenciar qué es un árbol que no

1 0 0 View Post & Replies See Original

87d

@adra Es verdad, no se me había ocurrido que se basaran en el nombre de las imágenes y no en los metadatos (asumiendo que el alt text cuenta como metadato).

1 0 0 View Post & Replies See Original

86d

@muchanchoasado @adra bueno, seguramente es de todo. También hay mucho etiquetado manual a base de trabajadores "baratos", al parecer. Puedes leer:

https://archive.ph/Q92hS

Al parecer, se avanza con LLMs más éticos, la menos. La descripción de imágenes y demás sí es un ámbito donde vale la pena probar tecnologías.

1 1 0 View Post & Replies

86d

@yo @adra Ojalá llegar a un punto en el que los lectores de pantalla tengan descripción offline de imágenes, Talkback usa Gemini por el momento.

1 0 0 View Post & Replies See Original

86d

@muchanchoasado @adra vaya, pensaba que Google tendría algo local. Quizá Apple sí lo tiene.

En principio se avanza para que se puedan tirar LLMs en móviles, pero diría que aún queda algo lejos (y sólo en móviles caros). Yo jugué hace tiempo con tirar un LLM en mi PC y podía, pero tenía una tarjeta Nvidia (eso sí, de 2017).

Me gustaría probar qué tal va el modelo Apertus suizo, de entrenamiento "ético", pero me falta tiempo.

1 1 0 View Post & Replies

86d

@yo @adra Con suerte y los chinos encuentran la forma de optimizar un LLM para que corra en android5.1 xD. Dicen que Deepseek consume muchos menos recursos que OpenAI o Gemini.

0 0 0 View Post & Replies See Original