Me pregunto cómo funcionará el entrenamiento de las LLM para describir imágenes si absolutamente nadie ponía texto alternativo hasta hace un par de años, cuando las IA ya estaban establecidas y podían describir.
@muchanchoasado por comparativa, de una forma muy similar a como opera el machine learning
ej. el coso consume un banco de imágenes, rollo sitios con imágenes stock con etiquetas, en donde hay muchas fotos descritas como "árboles" y con eso va creando un patrón para diferenciar qué es un árbol que no
@adra Es verdad, no se me había ocurrido que se basaran en el nombre de las imágenes y no en los metadatos (asumiendo que el alt text cuenta como metadato).
@muchanchoasado @adra bueno, seguramente es de todo. También hay mucho etiquetado manual a base de trabajadores "baratos", al parecer. Puedes leer:
Al parecer, se avanza con LLMs más éticos, la menos. La descripción de imágenes y demás sí es un ámbito donde vale la pena probar tecnologías.
@muchanchoasado @adra vaya, pensaba que Google tendría algo local. Quizá Apple sí lo tiene.
En principio se avanza para que se puedan tirar LLMs en móviles, pero diría que aún queda algo lejos (y sólo en móviles caros). Yo jugué hace tiempo con tirar un LLM en mi PC y podía, pero tenía una tarjeta Nvidia (eso sí, de 2017).
Me gustaría probar qué tal va el modelo Apertus suizo, de entrenamiento "ético", pero me falta tiempo.