¿Qué buscador la tiene más larga?
20-septiembre-2008
Uno de los grandes problemas de los motores de búsqueda comerciales es la no existencia de una colección estandarizada de pruebas que permita comparar de forma más o menos objetiva la calidad de los resultados que devuelven (lo que sería algo parecido a los típicos benchmarks empleados para comparar rendimiento de software y hardware). Sin embargo, en el entorno de la investigación sí existen varias conferencias que han establecido sus propios estándares; por ejemplo, la Text REtrieval Conference (TREC) lleva desde 1992 impulsando la investigación en el campo de la Recuperación de Información (IR, Information Retrieval), proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de IR, e intentando aumentar la velocidad de la transferencia de tecnología entre los laboratorios de investigación y los productos finales. Gran parte de las tareas propuestas en las diferentes áreas de investigación de la IR (llamadas tracks) han estado orientadas a mejorar diversas tecnologías que pueden ser aplicadas posteriormente a los motores de búsqueda, y durante los años han participado grupos de investigación de todo el mundo y de niveles muy altos, por lo que su contribución ha tenido que ser necesariamente importante.
Sin embargo, últimamente nos hemos encontrado algunos “casos reales” (por diferenciar de alguna manera el ambiente investigador del comercial) que me han hecho dudar de esta contribución. Si en Julio se armó un gran revuelo con las comparaciones entre el número de páginas que indexaban Google y Cuil (y, por tanto, que era capaz de devolver para una misma búsqueda), ayer leía en ReadWriteWeb una comparativa entre Cognition, Hakia y Powerset acerca de quién posee la ontología con mayor número de conceptos y relaciones (lo que en Cognition denominan “mapa semántico”).
Yo no me considero un experto, pero sí tengo buenos conocimientos de las diferentes técnicas aplicadas a los buscadores: mi proyecto fin de carrera fue un buscador de características similares a Google, y mi tesis doctoral está centrada en la aplicación de diferentes técnicas a la Recuperación de Información de textos biomédicos (entre las que se encuentrar las semánticas). Sin entrar en consideraciones técnicas, tengo claro que, más que una cuestión de cantidad (más páginas, más conceptos, más relaciones, más reglas…), todo debería reducirse a una cuestión de calidad, y disponer de más información no significa que la sepas (o puedas) tratar mejor. Tengo que decir que la situación que estamos viviendo actualmente con los buscadores me parece más una pelea por captar usuarios que una pelea por demostrar quién tiene la mejor tecnología (si es que eso ocurre). Es algo que me decepciona (sobre todo por parte de Google), pero tampoco es algo que me extrañe: en el mundo real, la información y el conocimiento son lo menos importante…
¿Cuil es antisocial?
29-julio-2008
Tengo que reconocer que las aplicaciones para internet que más atraen mi atención desde siempre son los buscadores. De hecho, mi proyecto de fin de carrera en la universidad (hace ya unos cuantos añitos) fue un buscador (sobre este tema puede que hable en otro momento). Por eso, cada vez que leo una noticia sobre buscadores no puedo resistirme, y lo primero que hago es investigar cuál es su base, la tecnología que hay detrás.
Como supongo que a estas alturas del día todos sabréis ya que Cuil es un buscador que se acaba de lanzar, no voy a entrar en repetir información. Simplemente, quería resaltar algo que me ha llamado la atención cuando he ido a su página y he leído sobre su tecnología:
Rather than rely on superficial popularity metrics, Cuil searches for and ranks pages based on their content and relevance. When we find a page with your keywords, we stay on that page and analyze the rest of its content, its concepts, their inter-relationships and the page’s coherency.
¿Y esto es bueno o es malo? Como siempre, depende de la calidad de los resultados. La aportación de Google en su momento fue “confiar” en los creadores de contenidos de internet para determinar cuáles eran las páginas más importantes (¿no suena esto a web 2.0?) en función del número y calidad de enlaces entrantes y salientes y de sus contenidos; es decir, qué páginas se podían considerar autoridades en la materia de la búsqueda.
Ahora, los creadores de Cuil (curiosamente, ex-empleados de Google), claman que esa popularidad de las páginas es superficial. Y la pregunta que me hago es bien sencilla: ¿no llevan algo de razón? En mi opinión, desde luego que sí. Se considera que una persona es una autoridad en una materia porque otros lo dicen así. Seguramente, unos pocos lo argumentan con razones sólidas, pero otros muchos lo sostienen porque los anteriores lo han asegurado. Y el resto, simplemente, no va a llevar la contraria… Esto me suena mucho a la regla del 1%, y siempre he pensado que era una de las debilidades de Google.
Que los creadores de Cuil abandonen el carácter social de Google y vuelvan a los orígenes de los buscadores, confiando plenamente en los contenidos, no me parece mal (ni bien…). Que hagan uso de cierta tecnología semántica me parece bien. Que hayan buscado un nuevo interfaz para organizar los resultados me parece genial (¡ya era hora!). Y me preocupa ver que varios análisis de verdaderas “autoridades” (Silicon Alley Insider, ReadWriteWeb, Mashable o TechCrunch) valoran los resultados de forma tan negativa. ¿Será que el carácter social de Google les parece más justo?, ¿será el miedo a lo nuevo?, ¿o quizás que ellos no aparecían los primeros cuando se buscaban en Cuil?
Como siempre, el tiempo dará o quitará razones. Yo he sido un fan de Google desde que se creó y descubrí su calidad, pero valoro la diversidad y reconozco que es bueno que no haya monopolios. Es bueno que diferentes buscadores te puedan descubrir diferentes resultados. Y aquí es donde entra la que considero como segunda debilidad de Google: la poca facilidad y mediocres resultados a la hora de realizar búsquedas más específicas (veo que Javier Martín también lo tiene en cuenta). Si Cuil es capaz de mejorar a Google en eso, debería tener un buen terreno ganado.

