Google y las patentes USA
3-septiembre-2009
Después de un largo período sin escribir (lo que, para mi desgracia, no quiere decir que haya estado tanto tiempo de vacaciones…), comenzaré el año con un WTF. Leo en Mashable y en ReadWriteWeb que Google ha conseguido patentar su página de inicio. Pese a que la lógica me dice que esta noticia no puede ser cierta, el calendario no marca el April Fool’s Day, y en Gawker se muestra lo que parece ser el documento de aprobación de la patente, algo que parece confirmarse en este enlace de la oficina de patentes y marcas de los USA (USPTO).

Ya lo he comentado alguna vez: soy un ferviente admirador de la gente de Google desde que nació el buscador, pero reconozco que de vez en cuando me dejan completamente helado con algunos de sus movimientos. Parece ser que lo que realmente se patenta es la idea de tener una caja de búsqueda gigante en mitad de la página, con dos grandes botones debajo y algunos pequeños enlaces al lado ¿?. Ahora sólo falta ver qué piensan hacer con esta patente, pero yo recomendaría a la gente de Yahoo! que fueran haciendo algún pequeño cambio, por si acaso…
Google Ventures: Google lanza su fondo de capital
31-marzo-2009
El verano pasado nos sorprendimos con una noticia acerca de la próxima apertura por parte de Google de un fondo de inversión para startups, aunque todavía no exístían datos concretos. Hoy leo en Techcrunch que ya se ha hecho oficial la creación del fondo, denominado Google Ventures.
Parece que se trata de un fondo muy flexible, que invertirá cantidades de todos los rangos (desde capital semilla a rondas avanzadas de VC) y en empresas de todo tipo (servicios en internet, biotecnología, hardware, software, etc.), aunque, eso sí, dicen que están buscando emprendedores que se estén enfrentando a los problemas de forma creativa e innovadora. También es importante destacar que no pretenden entrar como únicos socios, y que parece que no piensen imponer ningún tipo de restricciones comerciales del estilo de “hay que utilizar AppEngine sí o sí”.
En fin, ya veremos qué efecto puede tener este nuevo fondo, y cómo restultará de accesible para empresas del “segundo mundo” en Internet (entre las que considero a España). Es cierto que ya hemos asistido a casos en los que han comprado empresas sin que pareciera importarles la procedencia (lo primero que me viene a la cabeza es el éxito de Panoramio), pero de primeras me invade una cierta sensación de escepticismo.
“Yo no uso sistemas de recomendación”
28-enero-2009
Eso es lo que muchos usuarios de internet piensan cuando les hablas de la importancia que los sistemas de recomendación han ido adquiriendo en muchos de los servicios que utilizamos a diario. En ReadWriteWeb llevan unos días (realmente años, pero últimamente con más fuerza) dándole vueltas a los sistemas de recomendación en internet; en este post me voy a apoyar en algunas de sus entradas, pero iré salpicando con mis opiniones para intentar completar la idea que quiero transmitir.
En primer lugar voy a poner ejemplos de servicios, tratando de analizar en qué grado utilizan sistemas de recomendación, y empezaremos con el rey de internet: Google. El primer uso lo podemos encontrar en su famoso algoritmo para ordenar los resultados de las búsquedas: el PageRank. Este algoritmo se basa, entre otras cosas, en los enlaces que las páginas mantienen entre sí, asumiendo que, cuando la página A enlaza la página B, de alguna manera la está votando, está indicando que B es importante para A. Esto es, sin ningún lugar a dudas, una suerte de recomendación social a una escala descomunal.
Otro ejemplo de uso en Google reside en la personalización que aplica cuando un usuario realiza una búsqueda habiéndose registrado previamente en el sistema. En este caso, el orden de los resultados también tiene en cuenta el historial de navegación previo del usuario, e incluso la propia localización en la que se encuentra. Por último, está el “Quizás quiso decir:” que nos presenta cuando existe la posibilidad de habernos equivocado al escribir una palabra, ofreciendo una alternativa en función de su popularidad y la similitud con la palabra escrita.
Amazon
Si podemos hablar de un pionero en los sistemas de recomendación en internet, ese es sin duda alguna Amazon. Desde que puedo recordar, este sitio ha venido ofreciendo recomendaciones sobre otros productos que podían interesar al usuario, y poco a poco ha ido enriqueciendo la manera de hacerlo. En primer lugar, utiliza la recomendación social cuando recomienda productos por mero el hecho de que otros usuarios que ya han realizado compras similares a la tuya, también lo han adquirido. En segundo lugar, aplica la recomendación personalizada cuando tiene en cuenta tu historial de compras y de navegación en su web para ofrecerte nuevos artículos. Por último, recomienda productos relacionados con los que se visualizan durante la navegación.
Otros ejemplos
Además de Amazon y Google, cada vez existen más aplicaciones en internet que implementan servicios de recomendación, aunque en muchas ocasiones no combinan los diferentes tipos que hemos descrito, seguramente porque tampoco es siempre necesario. Por ejemplo, Strands aplica un sistema de recomendación social basado en la propia realimentación de los usuarios, asociando a cada usuario un perfil formado por las experiencias de otros usuarios y recomendando servicios y productos nuevos que están también asociados a dicho perfil. Según dice la propia web de Strands, ayudan a la gente “a descubrir cosas que no saben que les gustan”. Otros sistemas similares son SuggestRSS, para sugerir feeds, o Last.fm para sugerir música.
En AggregateKnowledge consideran que los gustos de otras personas, por muy similares que puedan parecer, apenas reflejan los tuyos, por lo que hacen un uso más intensivo de la recomendación basada en el comportamiento de los usuarios: el contenido de las páginas vistas, los clicks realizados, el tiempo pasado en cada página… Este tipo de sistemas tiende a ser más complejo que los otros, por lo que existen pocos ejemplos comerciales, aunque, eso sí, un gran número de prototipos experimentales. Aquí me daré un poco de autobombo comentando que en 2000 desarrollé, junto con otro par de personas, un servicio de recomendación de noticias llamado NotiXpress, que utilizaba un sistema de recomendación basado en el procesamiento de las noticias a las que los usuarios prestaban más atención. Al año y medio tuvimos que cerrar el servicio, pero al menos le pudimos sacar ciertos beneficios
.
Un sistema curioso e interesante es Pandora, una aplicación de recomendación de música que se basa en la similitud entre canciones. Es un proyecto grande y complejo, en el que un grupo de 50 músicos ha pasado los últimos 8 años analizando un gran número de canciones para determinar algo como la información genética de cada canción (de hecho, llaman al proyecto Genome Project). Para ello, utilizan cerca de 400 atributos que permiten describir detalles como la melodía, el ritmo, la voz, las letras, etc. A partir de una canción, teniendo en cuenta esta información, son capaces de recomendar otras canciones similares. Jinni es otro proyecto similar, aunque esta vez aplicado a películas.
El premio Netflix
Para que podamos darnos cuenta de la importancia que empiezan a tomar estos sistemas de recomendación, citaré el caso del premio Netflix. Netflix es una compañía de alquiler de DVD’s a través de la web que en 2006 lanzó un concurso para mejorar Cinematch, su motor de recomendación de películas. ¿El premio?: un millón de Euros… El concurso termina en 2011, y lo ganará el primer sistema que mejore su motor en un 10%. En la actualidad ya hay un equipo que ha alcanzado el 9.66%, pero parece que aún quedan unos meses para que alguien pueda alcanzar ese 10%.
Quizás un millón de Euros para un 10% pueda parecer demasiado, pero los propios creadores de Cinematch estiman que para poder alcanzar por sí mismos ese aumento necesitarían una inversión aún mayor, y que esa “pequeña” mejora podría traerles beneficios aún mayores.
The long tail
¿Y cuál es la ventaja que puede aportar el uso de un sistema de recomendación? ¿Es sólo un beneficio para los usuarios? ¿Es más un coste añadido que una inversión para la empresa? Yo no soy un experto en la llamada “larga cola“, pero intentaré explicar un poco el concepto para quien no lo conozca. La idea es que gracias a internet y las nuevas tecnologías se han reducido los costes de almacenamiento y distribución de los productos, haciendo innecesario focalizarse en unos pocos artículos de éxito. Esto ha permitido la aparición de un mercado en el que se producen pocas ventas de muchos productos, llegando a significar un volumen incluso mayor que el de los superventas.
Internet ha posibilitado la accesibilidad a estos productos de la larga cola, reduciendo de manera drástica los costes de marketing y difusión, y una de las herramientas que más ha ayudado en este sentido han sido los sistemas de recomendación. En el New York Times podemos encontrar un artículo de Clive Thompson en el que habla de los intentos de Netflix por mejorar su motor de recomendación, del que podemos entresacar el siguiente párrafo (traducido del inglés):
Las recomendaciones de Cinematch actualmente representan un sorprendente 60 por ciento de los alquileres de Netflix. En ocasiones incluso desvía la atención de los clientes desde los grandes éxitos hacia las películas independientes y menos comerciales. Los videoclubs tradicionales dependen de estos hits, que representan el 80% de sus alquileres. En Netflix, por el contrario, el 70% de los alquileres vienen del final de la lista (películas más antiguas o menos comerciales). Un buen sistema de recomendación, en otras palabras, no ayuda simplemente a que la gente encuentre nuevas cosas. Como Netflix ha descubierto, también les anima a consumir más productos.
Podemos decir que un buen sistema de recomendación permite dos cosas diferentes: por un lado, consigue que la gente consuma más; por otro, les descubre productos que de otra forma no conocerían. La grandeza de estos sistemas de recomendación no es que los usuarios consuman más, o lo hagan de productos de la parte baja de la cola, sino que consigue que la gente consuma más artículos en toda la cola.
Conclusión
Nuestra experiencia en sistemas de recomendación y las ventajas que éstos presentan nos han llevado a apostar desde el principio por un sistema propio que se pueda aplicar a los medios sociales, y en concreto inicialmente a Wipley. La base de nuestro motor de recomendación no la vamos a desvelar (eso es evidente
), pero estamos apostando por la utilización de tecnologías semánticas (como ya hemos comentado otras veces), ya que estamos convencidos de la aportación que pueden realizar en la mejora de los resultados.
Quizás todo esto está produciendo retrasos sobre nuestra planificación inicial, pero estoy seguro de que al final va a compensar. Además, como decía el otro día Carlos Domingo en SeedRocket (vía Carlos Blanco): “Ser el primero no te garantiza que seas el ganador, muchas veces es mejor llegar después”.
Segundo día en San Francisco
29-octubre-2008
Como ya adelantaba ayer, hoy era nuestro “gran día” en el CIKM. Y la cosa no ha ido mal, aunque vamos a empezar por el principio…
Hoy hemos cogido un ferry para ir al congreso. Lo mejor: hemos pasado por delante de Alcatraz. No parece tanto problema escapar de la isla una vez has salido de la cárcel, salvo por el pequeño detalle de los tiburones. Al menos para Clint Eastwood la cosa fue sencilla. Debajo se puede ver una bonita foto de la famosa penitenciaría tomada por JoSeK.

Alcatraz
Ya en el congreso hemos tenido la oportunidad de compartir ideas e impresiones con la gente más variopinta, incluyendo enviados de Google o Linkedin. En la investigación que hemos estado comunicando hemos utilizado el API de traducción de Google, y parece que les ha gustado la idea, como también les ha gustado el uso que le hemos dado en FlickrBabel. Con los de Linkedin hemos hablado de las posibilidades que brindan los servicios de explotación de perfiles de usuario, que pueden permitir la apertura de nuevos modelos de negocio en un futuro próximo. También hemos estado hablando con el enviado de SearchMe, que nos comentó detalles de su peculiar forma de visualizar los resultados de las búsquedas.

SearchMe en el CIKM
Para comer, una hamburguesa que rivalizaba en tamaño con mi cabeza (que ya es decir), y vuelta al congreso. Había un par de selecciones de libros interesantes, y hemos tomado nota de los que tenían mejor pinta para pedirlos a través de la biblioteca.

SqueezeBurguer
A la vuelta, hemos departido amigablemente con un taxista que tenía mucho rollo. Me ha resultado chocante que calificara tanto a Obama como a McCain de perdedores. ¿Qué pensará entonces de Zapatero y Rajoy?
Después, otra vez el ferry, y ya sí he entendido lo difícil de salir de la isla de Alcatraz: nadar con el frío que hacía debía ser más peligroso que los tiburones. Aunque sigo pensando que nada que Clint Eastwood no pudiera superar.
Al final, la decepción del día. En nuestro viaje de novios, Ana y yo cenamos un día en el Rainforest Café y recuerdo que la comida estaba muy buena y que me puse hasta arriba. Por eso, JoSeK y yo decidimos ir a cenar a uno que está en la bahía, pero cuando llegamos, a las 9 de la noche, estaban cerrando. Mañana habrá que volver a intentarlo.
Si queréis más fotos, JoSeK ha añadido las nuevas al álbum del viaje.
¿Qué buscador la tiene más larga?
20-septiembre-2008
Uno de los grandes problemas de los motores de búsqueda comerciales es la no existencia de una colección estandarizada de pruebas que permita comparar de forma más o menos objetiva la calidad de los resultados que devuelven (lo que sería algo parecido a los típicos benchmarks empleados para comparar rendimiento de software y hardware). Sin embargo, en el entorno de la investigación sí existen varias conferencias que han establecido sus propios estándares; por ejemplo, la Text REtrieval Conference (TREC) lleva desde 1992 impulsando la investigación en el campo de la Recuperación de Información (IR, Information Retrieval), proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de IR, e intentando aumentar la velocidad de la transferencia de tecnología entre los laboratorios de investigación y los productos finales. Gran parte de las tareas propuestas en las diferentes áreas de investigación de la IR (llamadas tracks) han estado orientadas a mejorar diversas tecnologías que pueden ser aplicadas posteriormente a los motores de búsqueda, y durante los años han participado grupos de investigación de todo el mundo y de niveles muy altos, por lo que su contribución ha tenido que ser necesariamente importante.
Sin embargo, últimamente nos hemos encontrado algunos “casos reales” (por diferenciar de alguna manera el ambiente investigador del comercial) que me han hecho dudar de esta contribución. Si en Julio se armó un gran revuelo con las comparaciones entre el número de páginas que indexaban Google y Cuil (y, por tanto, que era capaz de devolver para una misma búsqueda), ayer leía en ReadWriteWeb una comparativa entre Cognition, Hakia y Powerset acerca de quién posee la ontología con mayor número de conceptos y relaciones (lo que en Cognition denominan “mapa semántico”).
Yo no me considero un experto, pero sí tengo buenos conocimientos de las diferentes técnicas aplicadas a los buscadores: mi proyecto fin de carrera fue un buscador de características similares a Google, y mi tesis doctoral está centrada en la aplicación de diferentes técnicas a la Recuperación de Información de textos biomédicos (entre las que se encuentrar las semánticas). Sin entrar en consideraciones técnicas, tengo claro que, más que una cuestión de cantidad (más páginas, más conceptos, más relaciones, más reglas…), todo debería reducirse a una cuestión de calidad, y disponer de más información no significa que la sepas (o puedas) tratar mejor. Tengo que decir que la situación que estamos viviendo actualmente con los buscadores me parece más una pelea por captar usuarios que una pelea por demostrar quién tiene la mejor tecnología (si es que eso ocurre). Es algo que me decepciona (sobre todo por parte de Google), pero tampoco es algo que me extrañe: en el mundo real, la información y el conocimiento son lo menos importante…
Google invertirá en startups
31-julio-2008
Parece que la gente de Google sigue revolucionada. A la cantidad de noticias que han generado en las últimas semanas hay que unir la próxima creación de un fondo para inversión en startups, según Wall Street Journal. Aunque todavía no existe confirmación por parte de Google, parece que llevan un tiempo dándole vueltas a la idea, y lo cierto es que tiene bastante sentido que inviertan en la cantera en lugar de tener que pagar precios altos por fichajes estrella (realizando un símil futbolístico).
Esperemos que, viendo los buenos antecedentes de compra de Google en este sentido, la localización de las inversiones no sea un problema y las startups españolas puedan tener acceso a ellas.
¿Cuil es antisocial?
29-julio-2008
Tengo que reconocer que las aplicaciones para internet que más atraen mi atención desde siempre son los buscadores. De hecho, mi proyecto de fin de carrera en la universidad (hace ya unos cuantos añitos) fue un buscador (sobre este tema puede que hable en otro momento). Por eso, cada vez que leo una noticia sobre buscadores no puedo resistirme, y lo primero que hago es investigar cuál es su base, la tecnología que hay detrás.
Como supongo que a estas alturas del día todos sabréis ya que Cuil es un buscador que se acaba de lanzar, no voy a entrar en repetir información. Simplemente, quería resaltar algo que me ha llamado la atención cuando he ido a su página y he leído sobre su tecnología:
Rather than rely on superficial popularity metrics, Cuil searches for and ranks pages based on their content and relevance. When we find a page with your keywords, we stay on that page and analyze the rest of its content, its concepts, their inter-relationships and the page’s coherency.
¿Y esto es bueno o es malo? Como siempre, depende de la calidad de los resultados. La aportación de Google en su momento fue “confiar” en los creadores de contenidos de internet para determinar cuáles eran las páginas más importantes (¿no suena esto a web 2.0?) en función del número y calidad de enlaces entrantes y salientes y de sus contenidos; es decir, qué páginas se podían considerar autoridades en la materia de la búsqueda.
Ahora, los creadores de Cuil (curiosamente, ex-empleados de Google), claman que esa popularidad de las páginas es superficial. Y la pregunta que me hago es bien sencilla: ¿no llevan algo de razón? En mi opinión, desde luego que sí. Se considera que una persona es una autoridad en una materia porque otros lo dicen así. Seguramente, unos pocos lo argumentan con razones sólidas, pero otros muchos lo sostienen porque los anteriores lo han asegurado. Y el resto, simplemente, no va a llevar la contraria… Esto me suena mucho a la regla del 1%, y siempre he pensado que era una de las debilidades de Google.
Que los creadores de Cuil abandonen el carácter social de Google y vuelvan a los orígenes de los buscadores, confiando plenamente en los contenidos, no me parece mal (ni bien…). Que hagan uso de cierta tecnología semántica me parece bien. Que hayan buscado un nuevo interfaz para organizar los resultados me parece genial (¡ya era hora!). Y me preocupa ver que varios análisis de verdaderas “autoridades” (Silicon Alley Insider, ReadWriteWeb, Mashable o TechCrunch) valoran los resultados de forma tan negativa. ¿Será que el carácter social de Google les parece más justo?, ¿será el miedo a lo nuevo?, ¿o quizás que ellos no aparecían los primeros cuando se buscaban en Cuil?
Como siempre, el tiempo dará o quitará razones. Yo he sido un fan de Google desde que se creó y descubrí su calidad, pero valoro la diversidad y reconozco que es bueno que no haya monopolios. Es bueno que diferentes buscadores te puedan descubrir diferentes resultados. Y aquí es donde entra la que considero como segunda debilidad de Google: la poca facilidad y mediocres resultados a la hora de realizar búsquedas más específicas (veo que Javier Martín también lo tiene en cuenta). Si Cuil es capaz de mejorar a Google en eso, debería tener un buen terreno ganado.
¿Para qué necesita Google a Digg?
23-julio-2008
Si el otro día comentaba que no le veía mucho futuro a crear un híbrido entre Google y Digg, hoy no termino de tener claro para qué puede querer Google comprar Digg. No puede ser para aprovechar su tecnología, porque es muy sencilla (existen ya muchos clones de Digg) y Google ya la está implementando en su nueva versión del buscador. Tampoco creo que pueda ser para acceder a sus usuarios, ya que está claro que Google les muchiplica (perdón por la palabreja) en número de usuarios. Y por razones similares, no creo que sea por aumentar sus ingresos. ¿Será por cuestión de imagen? ¿Será por influencia? ¿Tendrán pensado realizar alguna modificación en Digg después de la compra?
A lo mejor, Google se ha convertido en uno de esos excéntricos ricachones que se compran cosas sólo para ostentar, o para intentar pasar algún tipo de crisis de edad. Esperemos que no sea eso…
Google + Digg = ¿Bluff?
21-julio-2008
En los últimos días hemos leído varias noticias acerca de la posible evolución de Google hacia un buscador “social”, utilizando para ello técnicas similares a las que proporciona Digg para la recomendación de noticias. Si alguien quiere hacerse una idea más clara, le recomiendo esta entrada de TechCrunch, que contiene un esclarecedor video.
Lo siento, pero no me gusta. Y no me gusta de la misma manera que el sistema de Digg no me gusta. Porque, ¿qué grado de confianza tienen los votos de una noticia en Digg? ¿Una noticia es más interesante sólo porque tenga más votos que otra? Y sobre todo, ¿interesante para quién? Me resulta curioso encontrar en portada las noticias más morbosas, las más graciosas, o las que cuentan la historia más rara, y tener que “bucear” entre las no populares para ver cosas que a mí me puedan interesar.
Alguien podría decir, con toda la razón, que no tengo porqué visitar esa clase de sitios. Pero lo cierto es que no me resultan del todo inútiles: su falta de utilidad no es sólo culpa de las aplicaciones, y es el sesgo que terminan teniendo lo que no me convence. La calidad de una noticia no puede venir directamente determinada por la cantidad de votos que tiene, y de alguna manera tiene que influir quien es el receptor y quiénes han votado. Al final, sitios como Digg terminan siendo coto privado de un grupo de personas que piensan de manera similar. Y si esto mismo termina ocurriendo con Google, estoy seguro que mucha gente desactivará esta supuesta “ayuda” (supongo que lo permitirán).
No sé realmente la necesidad de dar un giro de este calibre a su algoritmo de búsqueda que, aunque imperfecto como cualquier otra cosa, ha demostrado unos resultados muy buenos. No sé si de alguna manera se pueden sentir amenazados por los buscadores semánticos que están emergiendo (aún está por demostrar que sean mejores), o si simplemente se quieren apuntar a la moda de la web social. Sin embargo, creo que el propio Google tiene la solución al alcance de la mano. La ventaja que tienen es que los usuarios están caracterizados por un perfil que se va construyendo a medida que utilizan el buscador. En mi modesta opinión, si saben aprovechar bien ese perfil el resultado podrá mejorar lo actual. De momento, habrá que esperar…

)
)



