¿Qué buscador la tiene más larga?
20-Septiembre-2008
Uno de los grandes problemas de los motores de búsqueda comerciales es la no existencia de una colección estandarizada de pruebas que permita comparar de forma más o menos objetiva la calidad de los resultados que devuelven (lo que sería algo parecido a los típicos benchmarks empleados para comparar rendimiento de software y hardware). Sin embargo, en el entorno de la investigación sí existen varias conferencias que han establecido sus propios estándares; por ejemplo, la Text REtrieval Conference (TREC) lleva desde 1992 impulsando la investigación en el campo de la Recuperación de Información (IR, Information Retrieval), proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de IR, e intentando aumentar la velocidad de la transferencia de tecnología entre los laboratorios de investigación y los productos finales. Gran parte de las tareas propuestas en las diferentes áreas de investigación de la IR (llamadas tracks) han estado orientadas a mejorar diversas tecnologías que pueden ser aplicadas posteriormente a los motores de búsqueda, y durante los años han participado grupos de investigación de todo el mundo y de niveles muy altos, por lo que su contribución ha tenido que ser necesariamente importante.
Sin embargo, últimamente nos hemos encontrado algunos “casos reales” (por diferenciar de alguna manera el ambiente investigador del comercial) que me han hecho dudar de esta contribución. Si en Julio se armó un gran revuelo con las comparaciones entre el número de páginas que indexaban Google y Cuil (y, por tanto, que era capaz de devolver para una misma búsqueda), ayer leía en ReadWriteWeb una comparativa entre Cognition, Hakia y Powerset acerca de quién posee la ontología con mayor número de conceptos y relaciones (lo que en Cognition denominan “mapa semántico”).
Yo no me considero un experto, pero sí tengo buenos conocimientos de las diferentes técnicas aplicadas a los buscadores: mi proyecto fin de carrera fue un buscador de características similares a Google, y mi tesis doctoral está centrada en la aplicación de diferentes técnicas a la Recuperación de Información de textos biomédicos (entre las que se encuentrar las semánticas). Sin entrar en consideraciones técnicas, tengo claro que, más que una cuestión de cantidad (más páginas, más conceptos, más relaciones, más reglas…), todo debería reducirse a una cuestión de calidad, y disponer de más información no significa que la sepas (o puedas) tratar mejor. Tengo que decir que la situación que estamos viviendo actualmente con los buscadores me parece más una pelea por captar usuarios que una pelea por demostrar quién tiene la mejor tecnología (si es que eso ocurre). Es algo que me decepciona (sobre todo por parte de Google), pero tampoco es algo que me extrañe: en el mundo real, la información y el conocimiento son lo menos importante…

24-Septiembre-2008 at 2:25 pm
A mi, más que Google, me decepciona la competencia. Si sacan algo nuevo que, se supone, compite con Google, por lo menos trata que funcione a la altura de Google y no peor. Google se ha asentado, y no está metiendo grandes mejoras en su buscador, lo cuál debería ser un punto fuerte para sus competidores que deberían tratar de innovar y robar su posición privilegiada.