Tesauros para dummies

Resumen

Actualmente, las redes sociales se han convertido en una herramienta importante de intercambio de información entre contactos de todo el mundo. Debido a la cantidad de usuarios que ocupan la red, el flujo de información que se vuelca en ella es cada vez mayor. Sin embargo, hoy en día, el usuario de la red no puede ver solamente aquello que le interesa en cada momento, sino que está obligado a ver todo lo que publican sus contactos. Sería bueno conseguir una fórmula que nos permitiera controlar cuánta de esa información queremos que nos llegue, al igual que sería interesante lograr recuperar aquello que nos interesa de forma automática sin tener que ojear todo lo publicado hasta localizar lo que buscamos. Para lograr estos própositos nos basamos en herramientas como los topics maps para organizar el conocimiento, en los RSS para filtrar temáticas.

Propuesta gráfica

Presentación final

View more PowerPoint from Alberto Martín

Narrativa

Tras una reflexión profunda sobre las funciones que ofrecen actualmente las redes sociales, observamos la posibilidad, o mejor dicho necesidad, de implementar otras funciones complementarias (basadas en técnicas ya conocidas en el mundo de la Documentación) que mejoraran la experiencia de los usuarios.

Una de las evidencias que nos muestra el análisis, es de que todas las redes sociales actualmente más utilizadas en España (Facebook, Twitter, y Tuenti) tienen algo en común con respecto a la experiencia del usuario. En todas ellas, el flujo de información compartida por tus contactos, y por uno mismo, se asemeja a un río de información (más o menos caudaloso, según el número de contactos del usuario, y la actividad de estos). Según esta analogía, el usuario se podría considerar como el pescador que acude al río a “ver lo que pasa por allí” y a intentar quedarse con aquello que le interesa. Pero esta persona tiene una limitación, y es que no se puede colocar en la zona del curso del río que más le apetezca, sino solo en un sitio, el presente, y como mucho tiene una limitada visión de lo que ha pasado recientemente por el río.

Esta característica, la visión reducida de la información que se transmite al ciberespacio, es común en las redes sociales, están muy enfocadas en el presente, en el día a día, pero no han previsto que, debido a que se han convertido en los sitios donde la gente vuelca su vida social, tanto personal, como muchas veces la profesional, deberían implementar las herramientas para que lo que se publica no caiga en el olvido, es decir, deberían dar a los usuarios las herramientas para que en el futuro podamos recordar lo que hemos hecho en el pasado.

¿Esto en la práctica qué significa? Que cada usuario puede ver solamente lo que se ha compartido recientemente en su red social, y si por ejemplo, en un momento dado quiere recuperar algo que un amigo suyo compartió hace una cantidad relativamente pequeña de tiempo, digamos un mes, lo único que puede hacer es navegar hacia atrás en el tiempo por las publicaciones de dicho amigo, hasta que dé con ella, y a veces ni siguiera esto es suficiente, porque muchas veces las redes sociales imponen una fecha límite a partir de la cual no puedes ver las publicaciones hechas anteriormente. También podría ocurrir que el usuario no se acordara de qué contacto ha compartido el recurso que quiere reencontrar. En ese caso, encontrarlo será todavía mucho más difícil, muchas veces imposible.

En la red social Twitter, los efectos de esta limitación se pueden salvar, si te suscribes por RSS a las personas o temas que te interesen, pero esto requiere estar interesado en esos temas a priori.

Otro de los problemas más importantes, detectados en general en las redes sociales, es que los usuarios no tienen la capacidad de filtrar los mensajes que les llegan de sus contactos de una manera eficiente. Realmente la mayoría de lo que nos llega a nuestro Facebook, Tuenti, o Twitter no nos interesa. Actualmente cada usuario, una vez que ha establecido contacto con otro usuario (relación de amistad en Facebook y Tuenti, y gente a la que sigues en Twitter), no tiene la capacidad de establecer filtros para recibir sólo lo que le interesa de cada persona o grupo. Podría ocurrir, y estamos seguros de que ocurre, que muchos de nosotros tenemos contactos que por un lado publican cosas que nos interesan, pero que también publican cosas que no nos importan lo más mínimo. Sin embargo, el usuario, una vez que establece una relación de amistad con una persona en Facebook, o la sigue en Twitter, no tiene más remedio que recibir todo lo que esta persona publica. Es decir, tienes que decidir entre recibir todo, o no recibir nada. Tal vez esto no es totalmente cierto, ya que yo puedo decirle a Facebook que no quiero recibir más actualizaciones del estado del Farmville de mi prima, y es cierto, pero ese filtro se basa en el carácter formal de la publicación, es decir, Facebook puede distinguir fácilmente entre una simple actualización de estado (ejemplo: este finde a la playa!), y una actualización del Farmville, pero nosotros estamos hablando de otra clase de filtros: filtros semánticos, en los que puedas establecer unos criterios de lo que quieres que te llegue de una determinada persona o grupo, según el contenido semántico del mensaje.

Además, las cosas que nos interesan, no nos interesan todo el tiempo. Es decir, actualmente, tanto en Facebook, como en Tuenti y Twitter, todo lo que nos llega, nos llega a través del mismo canal. Las cosas de nuestros amigos, las cosas de nuestra familia, las cosas de los grupos a los que nos hemos suscrito, las cosas de nuestro trabajo... todo está mezclado. Una proposición sería que se puedan crear varios canales, según los criterios, formales o semánticos que establezca el usuario, para que en cada momento solo veas aquello que te interesa.

Como una funcionalidad más que se deriva de las anteriores, sería la implementación de alertas. Ya hemos hablado del enfoque que tienen en el presente las redes sociales. Esto presenta el problema de que hay que visitar frecuentemente dichas redes sociales, si no quieres que se te escape lo que pase por ellas y que te podría interesar. Por tanto, sería interesante que se pudieran crear alertas semánticas para que siempre que aparezca en la red social algo relacionado con los temas que te interesen, el sistema te dé un aviso especial la próxima vez que te conectes a la red.

Sin darnos cuenta, y debido a éste análisis profundo de mejora de las redes sociales, hemos pensado que también sería muy interesante la implementación de un sistema RSS para dichas alertas. Por definición, los RSS nos permiten, mediante un lector de RSS, recibir información actualizada sobre nuestras páginas web favoritas, sin necesidad de visitarlas una a una. De esta forma, el usuario podría recibir las alertas en cualquier software que gestione RSS, y no solo en su bandeja de notificaciones de Facebook.

Si ésta definición la trasladamos a una red social, podemos entender, que gracias a ese lector de RSS, que podemos identificar como filtro, vamos a recibir información actualizada sobre nuestros contactos favoritos, y no solo eso, sino que podremos recibir, más concretamente aún, los temas de interés de nuestros contactos. Así, podremos tener conocimiento automático de las publicaciones interesantes para nosotros, sin necesidad de tener que pasar por todo aquello que colocan nuestros contactos en la red. Basándonos en la herramienta de RSS podemos lograr nuestro objetivo.

Por último, creemos que las redes sociales, para asegurar una correcta recuperación de la información deseada, deberían implementar un sistema de recuperación de información como los que existen actualmente en todas las bases de datos.

Ahora bien, para que todo ésto sea posible, para que tanto los filtros como las alertas semánticas, como los sistemas de recuperación de información funcionen, se debe encontrar alguna forma de describir y representar el contenido semántico de los recursos que se comparten.

Por qué sería útil utilizar un sistema de este tipo es lo que acabamos de explicar. Todas esas funcionalidades que resuelven una serie de problemas actuales de las redes sociales no se podrían resolver si cada usuario no tiene de antemano un sistema de representación del conocimiento en el que al menos, aparezcan los temas en los que está interesado, e idealmente, que estos temas estén relacionados entre sí por distintos tipos de relaciones semánticas.

Dado que es importante la semántica, pasamos a explicar en que consiste este concepto. El lenguaje natural está formado por palabras, y estas palabras representan conceptos. Pero el lenguaje natural es ambiguo, pues hay palabras que significan cosas distintas según el contexto donde se utilicen, algunas veces hay varias palabras que representan el mismo concepto. De ésta manera, aunque el lenguaje natural funciona así, en el campo de la informática, hasta hace poco tiempo, una palabra era simplemente una cadena de caracteres que se encuentra entre dos espacios. Este tratamiento tan mecánico del lenguaje no tiene en cuenta la realidad del lenguaje natural, y ha sido, y es todavía, la base de todos los problemas que se han presentado en el campo de la recuperación de la información.

Pues bien, estos problemas se están intentando solucionar con todas las actividades y tecnologías desarrolladas bajo el amparo de la Web Semántica. El objetivo de la Web Semántica es encontrar maneras de representar el conocimiento que se encuentra en la información que se publica en la red, para así poder hacer una recuperación de la información que se base más en los conceptos que aparecen en el documento, en vez de en las palabras, que es como se ha venido haciendo hasta ahora.

Una de estas herramientas de la Web Semántica para representar e intercambiar el conocimiento, con un enfoque en la recuperación de la información, son los Topic Maps, que ya se han convertido en un standard, cuyo nombre formal es ISO/IEC 13250:2003.

En los Topic Maps, el conocimiento se representa mediante:

Topics: que representan cualquier concepto, desde personas, países, organizaciones, eventos… virtualmente, un topic puede ser cualquier cosa que se te ocurra.
Asociaciones: unen topics mediante relaciones semánticas.
Ocurrencias: son recursos de información (textos, videos, música… cualquier documento) que pueden ser representados por uno o varios topics.

La gran expresividad de este sistema hace que se pueda representar con él virtualmente cualquier cosa.

Por ejemplo, con los Topics Maps se podría representar un tesauro tradicional sin ningún problema, pues solo habría que crear las asociaciones que representen a los TG (término más general), TE (término más específico), USE/USADO POR (para las relaciones de sinonimia), NA (para la nota de alcance)… etc.

Los Topic Maps se pueden adaptar a las necesidades de cada uno, pues no hace falta que el sistema tenga un alto nivel de complejidad para empezar a utilizarlo. Es posible usarlo para simplemente elaborar una lista de conceptos, sin ninguna relación entre sí, ya que eso puede ser suficiente en algunos casos.Pero también es posible llegar a una complejidad muy superior a la de los tesauros tradicionales, si añadimos muchos topics y muchos tipos de asociaciones. La asignación de las diferentes etiquetas a las publicaciones compartidas en las redes sociales se realizaría en el momento de la publicación, con posibilidad de ser modificadas en cualquier momento. La creación de relaciones entre topics también se podría hacer en el momento de la publicación, pero también existirá la posibilidad de crear más relaciones o modificarlas en todo momento. Por todo esto, creemos que los topics maps son una herramienta ideal para la organización de la información en las redes sociales.

Formalmente, el Topic Map se suele representar en un formato de XML llamado XTM (XML Topic Map). Pero claro, esta no es la mejor manera de visualizarlo. Hay otras maneras de hacerlo, en la que los topics aparecen como globos unidos por líneas que son las asociaciones, pero sería posible crear otras formas de representación gráfica (por ejemplo, una línea temporal, que sería muy útil para representar la evolución histórica de un topic determinado) ya que, como en todos los formatos XML, el contenido no está ligado a su forma de representación gráfica. ¿Esto qué supone? Una gran oportunidad a la hora de hacer browsing, porque no se estará limitado a una única interfaz, sino que se podrá elegir, según el tipo de tarea que se quiera desarrollar.

Pero todavía queda una respuesta importante por responder: ¿por qué los usuarios de las redes sociales deberían gastar tiempo en asignar etiquetas y en establecer relaciones entre los topics? Gene Smith, pionero en el campo de las folksonomías, establece en su libro Tagging: People-Powered Metadata for the Social Web, las razones por las que gente se anima a etiquetar en diversos servicios, pues los usuarios no etiquetan por amor al arte. Las razones que expone son éstas:

Facilidad de uso: es un requisito imprescindible para un servicio de este tipo. Debería ser tan simple como escribir la etiqueta (o etiquetas) y pulsar Finalizar.
Gestión de la información personal: a nuestro jucio, esta es la razón más poderosa por la que los usuarios deciden utilizar un servicio de este tipo. Si el usuario se da cuenta de que al utilizar el etiquetado, en el futuro le será más fácil recuperar su propia información, utilizará el servicio.
Colaborar y compartir: Participar en una comunidad, compartir nuestros intereses, y contribuir al bien colectivo son motivaciones humanas fundamentales, y el etiquetado es una herramienta que contribuye a estos objetivos.
Divertirse: ya hemos visto en herramientas como Twitter que los usuarios muchas veces utilizan las herramientas de etiquetado como un juego.
Expresar lo que piensas: Las etiquetas también se pueden utilizar para expresar lo que piensas sobre un tema determinado, y para que tus contactos lo sepan. Por ejemplo, si etiquetas un recurso como “divertido” no solo estás creando una manera de recuperar posteriormente todo lo que piensas que es divertido, sino que estás dando la oportunidad a tus contactos de saber lo que tú piensas que es divertido.

Pero aun confiando en las anteriores afirmaciones, en muchos casos se puede ahorrar trabajo al usuario mediante el uso de técnicas automáticas. Ya se ha planteado en muchos sitios la cuestión del etiquetado (o clasificación) manual, frente al etiquetado automático. Nosotros proponemos una alternativa mixta. Ya sabemos que el usuario realizará un etiquetado manual si ve que esto le proporciona algún tipo de beneficio personal (o colectivo), pero hay muchas técnicas que provienen del campo de la informática que podrían aliviar este trabajo, y cuando conoces esta serie de técnicas, te das cuenta de la cantidad de posibilidades que ofrecen:

Aprovechamiento y reutilización de metadatos. [ejemplos]
Inductive Query by Example. [explicar]
Clustering.
Stemming.
…

Por último, comentar un producto que encontramos recientemente. Este producto se llamaba Twine, y hoy día no existe.

Twine era una red social que apareció en 2008 con la intención de agrupar a sus usuarios por sus grupos de interés (cada grupo de interés era un “Twine”) y para esto utilizaba tecnologías de la web semántica, específicamente un stándar similar a los Topic Maps llamado RDF (Resource Description Framework).

En muchos aspectos, Twine era una herramienta bastante similar a lo que nosotros estábamos desarrollando, así que imaginaos la sorpresa cuando supimos de él.

Sin embargo, Twine tenía una serie de características que lo alejaban de nuestras propuestas, y es que Twine pretendía asignar las etiquetas automáticamente en todos los casos. Es decir, si alguien compartía un recurso en Twine, este se encargaba de extraer información semántica de estos datos, aunque como sabemos, en casi todos los casos, los recursos web no incorporan formas de descripción semántica. Twine intentaba extraer información semántica de una Web no semántica. Según los creadores de esta red, esto no es imposible, aunque sí requiere unas cantidades impresionantes de financiación. Una financiación que no tenían, y por tanto decidieron vender su tecnología a otra empresa, Evri Inc, que se dedica a la búsqueda semántica y que utilizó la tecnología de Twine para sus propios fines.

Este es el principio de un buen proyecto y de un gran trabajo. Esto solo es un primer acercamiento al problema, y lo que toca hacer ahora es estudiar la viabilidad de las soluciones propuestas.

domingo, 17 de junio de 2012

Post final

Resumen

Propuesta gráfica

Narrativa

lunes, 19 de diciembre de 2011

Análisis de la realidad, metodología y fases de trabajo.