¿Qué buscador la tiene más larga?
20-septiembre-2008
Uno de los grandes problemas de los motores de búsqueda comerciales es la no existencia de una colección estandarizada de pruebas que permita comparar de forma más o menos objetiva la calidad de los resultados que devuelven (lo que sería algo parecido a los típicos benchmarks empleados para comparar rendimiento de software y hardware). Sin embargo, en el entorno de la investigación sí existen varias conferencias que han establecido sus propios estándares; por ejemplo, la Text REtrieval Conference (TREC) lleva desde 1992 impulsando la investigación en el campo de la Recuperación de Información (IR, Information Retrieval), proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de IR, e intentando aumentar la velocidad de la transferencia de tecnología entre los laboratorios de investigación y los productos finales. Gran parte de las tareas propuestas en las diferentes áreas de investigación de la IR (llamadas tracks) han estado orientadas a mejorar diversas tecnologías que pueden ser aplicadas posteriormente a los motores de búsqueda, y durante los años han participado grupos de investigación de todo el mundo y de niveles muy altos, por lo que su contribución ha tenido que ser necesariamente importante.
Sin embargo, últimamente nos hemos encontrado algunos “casos reales” (por diferenciar de alguna manera el ambiente investigador del comercial) que me han hecho dudar de esta contribución. Si en Julio se armó un gran revuelo con las comparaciones entre el número de páginas que indexaban Google y Cuil (y, por tanto, que era capaz de devolver para una misma búsqueda), ayer leía en ReadWriteWeb una comparativa entre Cognition, Hakia y Powerset acerca de quién posee la ontología con mayor número de conceptos y relaciones (lo que en Cognition denominan “mapa semántico”).
Yo no me considero un experto, pero sí tengo buenos conocimientos de las diferentes técnicas aplicadas a los buscadores: mi proyecto fin de carrera fue un buscador de características similares a Google, y mi tesis doctoral está centrada en la aplicación de diferentes técnicas a la Recuperación de Información de textos biomédicos (entre las que se encuentrar las semánticas). Sin entrar en consideraciones técnicas, tengo claro que, más que una cuestión de cantidad (más páginas, más conceptos, más relaciones, más reglas…), todo debería reducirse a una cuestión de calidad, y disponer de más información no significa que la sepas (o puedas) tratar mejor. Tengo que decir que la situación que estamos viviendo actualmente con los buscadores me parece más una pelea por captar usuarios que una pelea por demostrar quién tiene la mejor tecnología (si es que eso ocurre). Es algo que me decepciona (sobre todo por parte de Google), pero tampoco es algo que me extrañe: en el mundo real, la información y el conocimiento son lo menos importante…
¿Cuil es antisocial?
29-julio-2008
Tengo que reconocer que las aplicaciones para internet que más atraen mi atención desde siempre son los buscadores. De hecho, mi proyecto de fin de carrera en la universidad (hace ya unos cuantos añitos) fue un buscador (sobre este tema puede que hable en otro momento). Por eso, cada vez que leo una noticia sobre buscadores no puedo resistirme, y lo primero que hago es investigar cuál es su base, la tecnología que hay detrás.
Como supongo que a estas alturas del día todos sabréis ya que Cuil es un buscador que se acaba de lanzar, no voy a entrar en repetir información. Simplemente, quería resaltar algo que me ha llamado la atención cuando he ido a su página y he leído sobre su tecnología:
Rather than rely on superficial popularity metrics, Cuil searches for and ranks pages based on their content and relevance. When we find a page with your keywords, we stay on that page and analyze the rest of its content, its concepts, their inter-relationships and the page’s coherency.
¿Y esto es bueno o es malo? Como siempre, depende de la calidad de los resultados. La aportación de Google en su momento fue “confiar” en los creadores de contenidos de internet para determinar cuáles eran las páginas más importantes (¿no suena esto a web 2.0?) en función del número y calidad de enlaces entrantes y salientes y de sus contenidos; es decir, qué páginas se podían considerar autoridades en la materia de la búsqueda.
Ahora, los creadores de Cuil (curiosamente, ex-empleados de Google), claman que esa popularidad de las páginas es superficial. Y la pregunta que me hago es bien sencilla: ¿no llevan algo de razón? En mi opinión, desde luego que sí. Se considera que una persona es una autoridad en una materia porque otros lo dicen así. Seguramente, unos pocos lo argumentan con razones sólidas, pero otros muchos lo sostienen porque los anteriores lo han asegurado. Y el resto, simplemente, no va a llevar la contraria… Esto me suena mucho a la regla del 1%, y siempre he pensado que era una de las debilidades de Google.
Que los creadores de Cuil abandonen el carácter social de Google y vuelvan a los orígenes de los buscadores, confiando plenamente en los contenidos, no me parece mal (ni bien…). Que hagan uso de cierta tecnología semántica me parece bien. Que hayan buscado un nuevo interfaz para organizar los resultados me parece genial (¡ya era hora!). Y me preocupa ver que varios análisis de verdaderas “autoridades” (Silicon Alley Insider, ReadWriteWeb, Mashable o TechCrunch) valoran los resultados de forma tan negativa. ¿Será que el carácter social de Google les parece más justo?, ¿será el miedo a lo nuevo?, ¿o quizás que ellos no aparecían los primeros cuando se buscaban en Cuil?
Como siempre, el tiempo dará o quitará razones. Yo he sido un fan de Google desde que se creó y descubrí su calidad, pero valoro la diversidad y reconozco que es bueno que no haya monopolios. Es bueno que diferentes buscadores te puedan descubrir diferentes resultados. Y aquí es donde entra la que considero como segunda debilidad de Google: la poca facilidad y mediocres resultados a la hora de realizar búsquedas más específicas (veo que Javier Martín también lo tiene en cuenta). Si Cuil es capaz de mejorar a Google en eso, debería tener un buen terreno ganado.
Crea tu propio buscador semántico con Hakia
19-junio-2008
A pesar de que elel término web semántica lleva ya algún tiempo manejándose, no existen aún demasiados sistemas que lo desarrollen. En los últimos años han surgido algunos motores de búsqueda, como Powerset o Hakia (ambas aún en beta), que hacen uso de tecnologías de búsqueda semántica para intentar mejorar los resultados ofrecidos por buscadores tradicionales al estilo de Google o Yahoo. Para aquél que no lo sepa, la principal diferencia entre unos y otros reside en que la búsqueda semántica determina cuáles son las páginas más relevantes para una búsqueda en base los conceptos que contienen, en lugar de aplicar métodos estadísticos sobre el texto.
La complejidad de la búsqueda semántica hace que de momento esté restringida a grupos de investigación y empresas con una alta inversión. Sin embargo, Hakia acaba de abrir sus APIs para permitir que cualquiera construya su propio buscador semántico aprovechando su tecnología. De momento, la primera empresa en utilizarlo ha sido Berggi, que ha desarrollado un buscador semántico para móviles.
De momento, cualquier desarrollador o empresa puede realizar 30.000 búsquedas diarias de forma gratuita y sin anuncios, y permite utilizar tecnologías para realizar búsquedas en la web y en noticias, búsquedas temáticas (verticales), generación de resúmenes de texto o clasificación de texto entre otras.
Yo todavía no lo he utilizado, aunque en breve me crearé una cuenta y comprobaré tanto la facilidad de uso como la calidad de los resultados, pero las características que presenta el buscador parecen interesantes. Por ejemplo, para consultas cortas los resultados se muestran por categorías, en lugar de utilizar las típicas listas que devuelven Google o Yahoo. Para búsquedas más largas, en los resultados se resalta lo que se identifica como frases relevantes. De momento, podéis comparar los resultados que ofrecen Hakia y Google a la pregunta How can I get some funding for my startup? (¿Cómo puedo conseguir financiación para mi startup?). ¿Cuál os parece mejor?
Lo más curioso es la cara que se le queda a tu interlocutor cuando hablas del uso de estas tecnologías: una cara de póker que nunca sé interpretar demasiado bien. No sé si lo que indica es algo así como: ¿Vosotos vais a hacer esto? ¿Un grupo de desconocido españolitos? Aunque quizás la cara quiera dar a entender que la tecnología semántica no sirve para nada; al fin y al cabo, si los de Google no la usan, será por algo…


