Ya llevo algún tiempo trabajando con tecnologías semánticas aplicadas a la búsqueda de información, y mi interés en la materia ha quedado patente en algunos post que escribí el verano pasado. En Wipley también hemos tenido claro desde el principio el papel que pueden jugar las tecnologías semánticas dentro de nuestro sistema, y hemos procurado que en nuestras presentaciones quede constancia de que esto va a ser así, aunque no proporcionemos detalles que se suelen escapar de los foros en que nos hemos estado moviendo.

screamLo más curioso es la cara que se le queda a tu interlocutor cuando hablas del uso de estas tecnologías: una cara de póker que nunca sé interpretar demasiado bien. No sé si lo que indica es algo así como: ¿Vosotos vais a hacer esto? ¿Un grupo de desconocido españolitos? Aunque quizás la cara quiera dar a entender que la tecnología semántica no sirve para nada; al fin y al cabo, si los de Google no la usan, será por algo…

Para los que estén en el primer grupo, les puedo contestar con datos a partir de nuestros experimentos y proyectos de investigación. A los que se encuentren en el segundo, no les voy a contestar yo; lo va a hacer el Dr. Rudi Studer, profesor en la Universidad de Karlsruhe y, entre otras cosas, director del Karlsruhe Service Research Institute y ex-presidente de la Semantic Web Science Association (un mindundi, vaya…). Entre toda la maraña de posts atrasados he encontrado una entrevista que le realizaban para el blog de Yahoo el pasado 16 de diciembre, en la que le preguntaban por las tecnologías de búsqueda semántica. Como la entrevista en general puede resultar un poco pesada para la mayoría, voy a entresacar una de las preguntas y su contestación:

Yahoo!: ¿Qué oportunidades comerciales piensa Vd. que aún quedan por explorar en el campo de las tecnologías semánticas?

Dr. Studer: Hasta el momento, las las tecnologías semánticas se han utilizado en productos comerciales para la integración de datos, búsqueda semántica y gestión de contenidos para empresas, etc. Espero que este área crezca, pero potencialmente veo mayores oportunidades de negocio en la combinación de la web social y las tecnologías semánticas, así como en el contexto de los mashups. Un área que en la que está casi todo por explorar es el área de la publicidad en el contexto de la búsqueda semántica.

No pretendo decir algo así como “nosotros lo dijimos antes”, entre otras cosas porque no es verdad, pero sí pretendo que la próxima vez que oigas hablar de este tipo de cosas (a nosotros o a otros), no dejes de prestar atención de forma inmediata y te tomes en serio al que tienes delante. Como ocurre siempre, dentro de unos años todo el mundo dirá “ya decía yo que el futuro estaba en las tecnologías semánticas”. El momento de subirse a la ola es ahora, no cuando ya haya roto y esté en la orilla.

Editado: Lo que son las cosas, unos minutos después de publicar este post leo en ReadWriteWeb que Google puede estar utilizando ya tecnologías semánticas en el buscador. A lo mejor, si los de Google la empiezan a usar, será por algo… ;-)

Uno de los grandes problemas de los motores de búsqueda comerciales es la no existencia de una colección estandarizada de pruebas que permita comparar de forma más o menos objetiva la calidad de los resultados que devuelven (lo que sería algo parecido a los típicos benchmarks empleados para comparar rendimiento de software y hardware). Sin embargo, en el entorno de la investigación sí existen varias conferencias que han establecido sus propios estándares; por ejemplo, la Text REtrieval Conference (TREC) lleva desde 1992 impulsando la investigación en el campo de la Recuperación de Información (IR, Information Retrieval), proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de IR, e intentando aumentar la velocidad de la transferencia de tecnología entre los laboratorios de investigación y los productos finales. Gran parte de las tareas propuestas en las diferentes áreas de investigación de la IR (llamadas tracks) han estado orientadas a mejorar diversas tecnologías que pueden ser aplicadas posteriormente a los motores de búsqueda, y durante los años han participado grupos de investigación de todo el mundo y de niveles muy altos, por lo que su contribución ha tenido que ser necesariamente importante.

Sin embargo, últimamente nos hemos encontrado algunos “casos reales” (por diferenciar de alguna manera el ambiente investigador del comercial) que me han hecho dudar de esta contribución. Si en Julio se armó un gran revuelo con las comparaciones entre el número de páginas que indexaban Google y Cuil (y, por tanto, que era capaz de devolver para una misma búsqueda), ayer leía en ReadWriteWeb una comparativa entre Cognition, Hakia y Powerset acerca de quién posee la ontología con mayor número de conceptos y relaciones (lo que en Cognition denominan “mapa semántico”).

Yo no me considero un experto, pero sí tengo buenos conocimientos de las diferentes técnicas aplicadas a los buscadores: mi proyecto fin de carrera fue un buscador de características similares a Google, y mi tesis doctoral está centrada en la aplicación de diferentes técnicas a la Recuperación de Información de textos biomédicos (entre las que se encuentrar las semánticas). Sin entrar en consideraciones técnicas, tengo claro que, más que una cuestión de cantidad (más páginas, más conceptos, más relaciones, más reglas…), todo debería reducirse a una cuestión de calidad, y disponer de más información no significa que la sepas (o puedas) tratar mejor. Tengo que decir que la situación que estamos viviendo actualmente con los buscadores me parece más una pelea por captar usuarios que una pelea por demostrar quién tiene la mejor tecnología (si es que eso ocurre). Es algo que me decepciona (sobre todo por parte de Google), pero tampoco es algo que me extrañe: en el mundo real, la información y el conocimiento son lo menos importante…

¿Cuil es antisocial?

29-julio-2008

Tengo que reconocer que las aplicaciones para internet que más atraen mi atención desde siempre son los buscadores. De hecho, mi proyecto de fin de carrera en la universidad (hace ya unos cuantos añitos) fue un buscador (sobre este tema puede que hable en otro momento). Por eso, cada vez que leo una noticia sobre buscadores no puedo resistirme, y lo primero que hago es investigar cuál es su base, la tecnología que hay detrás.

Como supongo que a estas alturas del día todos sabréis ya que Cuil es un buscador que se acaba de lanzar, no voy a entrar en repetir información. Simplemente, quería resaltar algo que me ha llamado la atención cuando he ido a su página y he leído sobre su tecnología:

Rather than rely on superficial popularity metrics, Cuil searches for and ranks pages based on their content and relevance. When we find a page with your keywords, we stay on that page and analyze the rest of its content, its concepts, their inter-relationships and the page’s coherency.

¿Y esto es bueno o es malo? Como siempre, depende de la calidad de los resultados. La aportación de Google en su momento fue “confiar” en los creadores de contenidos de internet para determinar cuáles eran las páginas más importantes (¿no suena esto a web 2.0?) en función del número y calidad de enlaces entrantes y salientes y de sus contenidos; es decir, qué páginas se podían considerar autoridades en la materia de la búsqueda.

Ahora, los creadores de Cuil (curiosamente, ex-empleados de Google), claman que esa popularidad de las páginas es superficial. Y la pregunta que me hago es bien sencilla: ¿no llevan algo de razón? En mi opinión, desde luego que sí. Se considera que una persona es una autoridad en una materia porque otros lo dicen así. Seguramente, unos pocos lo argumentan con razones sólidas, pero otros muchos lo sostienen porque los anteriores lo han asegurado. Y el resto, simplemente, no va a llevar la contraria… Esto me suena mucho a la regla del 1%, y siempre he pensado que era una de las debilidades de Google.

Que los creadores de Cuil abandonen el carácter social de Google y vuelvan a los orígenes de los buscadores, confiando plenamente en los contenidos, no me parece mal (ni bien…). Que hagan uso de cierta tecnología semántica me parece bien. Que hayan buscado un nuevo interfaz para organizar los resultados me parece genial (¡ya era hora!). Y me preocupa ver que varios análisis de verdaderas “autoridades” (Silicon Alley Insider, ReadWriteWeb, Mashable o TechCrunch) valoran los resultados de forma tan negativa. ¿Será que el carácter social de Google les parece más justo?, ¿será el miedo a lo nuevo?, ¿o quizás que ellos no aparecían los primeros cuando se buscaban en Cuil?

Como siempre, el tiempo dará o quitará razones. Yo he sido un fan de Google desde que se creó y descubrí su calidad, pero valoro la diversidad y reconozco que es bueno que no haya monopolios. Es bueno que diferentes buscadores te puedan descubrir diferentes resultados. Y aquí es donde entra la que considero como segunda debilidad de Google: la poca facilidad y mediocres resultados a la hora de realizar búsquedas más específicas (veo que Javier Martín también lo tiene en cuenta). Si Cuil es capaz de mejorar a Google en eso, debería tener un buen terreno ganado.

A pesar de que elel término web semántica lleva ya algún tiempo manejándose, no existen aún demasiados sistemas que lo desarrollen. En los últimos años han surgido algunos motores de búsqueda, como Powerset o Hakia (ambas aún en beta), que hacen uso de tecnologías de búsqueda semántica para intentar mejorar los resultados ofrecidos por buscadores tradicionales al estilo de Google o Yahoo. Para aquél que no lo sepa, la principal diferencia entre unos y otros reside en que la búsqueda semántica determina cuáles son las páginas más relevantes para una búsqueda en base los conceptos que contienen, en lugar de aplicar métodos estadísticos sobre el texto.

Hakia

La complejidad de la búsqueda semántica hace que de momento esté restringida a grupos de investigación y empresas con una alta inversión. Sin embargo, Hakia acaba de abrir sus APIs para permitir que cualquiera construya su propio buscador semántico aprovechando su tecnología. De momento, la primera empresa en utilizarlo ha sido Berggi, que ha desarrollado un buscador semántico para móviles.

Berggi

De momento, cualquier desarrollador o empresa puede realizar 30.000 búsquedas diarias de forma gratuita y sin anuncios, y permite utilizar tecnologías para realizar búsquedas en la web y en noticias, búsquedas temáticas (verticales), generación de resúmenes de texto o clasificación de texto entre otras.

Yo todavía no lo he utilizado, aunque en breve me crearé una cuenta y comprobaré tanto la facilidad de uso como la calidad de los resultados, pero las características que presenta el buscador parecen interesantes. Por ejemplo, para consultas cortas los resultados se muestran por categorías, en lugar de utilizar las típicas listas que devuelven Google o Yahoo. Para búsquedas más largas, en los resultados se resalta lo que se identifica como frases relevantes. De momento, podéis comparar los resultados que ofrecen Hakia y Google a la pregunta How can I get some funding for my startup? (¿Cómo puedo conseguir financiación para mi startup?). ¿Cuál os parece mejor?

Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.

Únete a otros 2.379 seguidores