¿Qué buscador la tiene más larga?
20-septiembre-2008
Uno de los grandes problemas de los motores de búsqueda comerciales es la no existencia de una colección estandarizada de pruebas que permita comparar de forma más o menos objetiva la calidad de los resultados que devuelven (lo que sería algo parecido a los típicos benchmarks empleados para comparar rendimiento de software y hardware). Sin embargo, en el entorno de la investigación sí existen varias conferencias que han establecido sus propios estándares; por ejemplo, la Text REtrieval Conference (TREC) lleva desde 1992 impulsando la investigación en el campo de la Recuperación de Información (IR, Information Retrieval), proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de IR, e intentando aumentar la velocidad de la transferencia de tecnología entre los laboratorios de investigación y los productos finales. Gran parte de las tareas propuestas en las diferentes áreas de investigación de la IR (llamadas tracks) han estado orientadas a mejorar diversas tecnologías que pueden ser aplicadas posteriormente a los motores de búsqueda, y durante los años han participado grupos de investigación de todo el mundo y de niveles muy altos, por lo que su contribución ha tenido que ser necesariamente importante.
Sin embargo, últimamente nos hemos encontrado algunos “casos reales” (por diferenciar de alguna manera el ambiente investigador del comercial) que me han hecho dudar de esta contribución. Si en Julio se armó un gran revuelo con las comparaciones entre el número de páginas que indexaban Google y Cuil (y, por tanto, que era capaz de devolver para una misma búsqueda), ayer leía en ReadWriteWeb una comparativa entre Cognition, Hakia y Powerset acerca de quién posee la ontología con mayor número de conceptos y relaciones (lo que en Cognition denominan “mapa semántico”).
Yo no me considero un experto, pero sí tengo buenos conocimientos de las diferentes técnicas aplicadas a los buscadores: mi proyecto fin de carrera fue un buscador de características similares a Google, y mi tesis doctoral está centrada en la aplicación de diferentes técnicas a la Recuperación de Información de textos biomédicos (entre las que se encuentrar las semánticas). Sin entrar en consideraciones técnicas, tengo claro que, más que una cuestión de cantidad (más páginas, más conceptos, más relaciones, más reglas…), todo debería reducirse a una cuestión de calidad, y disponer de más información no significa que la sepas (o puedas) tratar mejor. Tengo que decir que la situación que estamos viviendo actualmente con los buscadores me parece más una pelea por captar usuarios que una pelea por demostrar quién tiene la mejor tecnología (si es que eso ocurre). Es algo que me decepciona (sobre todo por parte de Google), pero tampoco es algo que me extrañe: en el mundo real, la información y el conocimiento son lo menos importante…
Crea tu propio buscador semántico con Hakia
19-junio-2008
A pesar de que elel término web semántica lleva ya algún tiempo manejándose, no existen aún demasiados sistemas que lo desarrollen. En los últimos años han surgido algunos motores de búsqueda, como Powerset o Hakia (ambas aún en beta), que hacen uso de tecnologías de búsqueda semántica para intentar mejorar los resultados ofrecidos por buscadores tradicionales al estilo de Google o Yahoo. Para aquél que no lo sepa, la principal diferencia entre unos y otros reside en que la búsqueda semántica determina cuáles son las páginas más relevantes para una búsqueda en base los conceptos que contienen, en lugar de aplicar métodos estadísticos sobre el texto.
La complejidad de la búsqueda semántica hace que de momento esté restringida a grupos de investigación y empresas con una alta inversión. Sin embargo, Hakia acaba de abrir sus APIs para permitir que cualquiera construya su propio buscador semántico aprovechando su tecnología. De momento, la primera empresa en utilizarlo ha sido Berggi, que ha desarrollado un buscador semántico para móviles.
De momento, cualquier desarrollador o empresa puede realizar 30.000 búsquedas diarias de forma gratuita y sin anuncios, y permite utilizar tecnologías para realizar búsquedas en la web y en noticias, búsquedas temáticas (verticales), generación de resúmenes de texto o clasificación de texto entre otras.
Yo todavía no lo he utilizado, aunque en breve me crearé una cuenta y comprobaré tanto la facilidad de uso como la calidad de los resultados, pero las características que presenta el buscador parecen interesantes. Por ejemplo, para consultas cortas los resultados se muestran por categorías, en lugar de utilizar las típicas listas que devuelven Google o Yahoo. Para búsquedas más largas, en los resultados se resalta lo que se identifica como frases relevantes. De momento, podéis comparar los resultados que ofrecen Hakia y Google a la pregunta How can I get some funding for my startup? (¿Cómo puedo conseguir financiación para mi startup?). ¿Cuál os parece mejor?



