Download Sistemas de recomendación musical

Document related concepts

Pandora (herramienta musical) wikipedia , lookup

Last.fm wikipedia , lookup

SoundHound wikipedia , lookup

ShareTheMusic wikipedia , lookup

Shazam wikipedia , lookup

Transcript
Sistemas de recomendación musical
Gregorio Ignacio López López
Francisco Javier Rodríguez Donado
Inteligencia en Redes de Comunicaciones
5º Ingeniería de Telecomunicación
Universidad Calos III de Madrid
Inteligencia en Redes de Comunicaciones
5º Ingeniería de Telecomunicación
Universidad Calos III de Madrid
[email protected]
[email protected]
ABSTRACT
En este documento se estudian algunos de los portales de
recomendación musical más populares, con el fin de dejar claro su
funcionamiento. Hace especial hincapié en las distintas técnicas
para clasificar la información, aunque también aborda de forma
concisa los algoritmos utilizados para recomendar basados en el
tratamiento digital de ésta. Dado que actualmente la mayoría (si
no todos) los métodos que se utilizan para la clasificación musical
dependen directamente del ser humano, concluye estudiando las
posibilidades de una aproximación a dicho problema basada
exclusivamente en el tratamiento digital de la música como señal.
General Terms
Tratamiento Digital de la Información, Minería de Datos, Internet
Palabras clave
Internet Radio Broadcast, Web 2.0, Sistemas de recomendación
musical personalizada, Filtrado colaborativo, Máquinas basadas
en Vectores soporte
1. INTRODUCCIÓN
Actualmente existen varios portales de radio a través de
Internet que contienen sistemas para una escucha personalizada,
con complejos sistemas de recomendación. Algunos ejemplos son
TagWorld, MyStrand, Last.fm o Pandora.
Para sugerir al usuario música que estiman afín a sus gustos,
utilizan filtrado colaborativo. Sin embargo, existen diferencias
radicales en el método utilizado para clasificar la información que
posteriormente recomiendan.
En este sentido, la mayoría utiliza como criterio de
clasificación la opinión de los usuarios. El principal problema
que presenta este método es que es eminentemente subjetivo. A
Permission to make digital or hard copies of all or part of this work for
personal or classroom use is granted without fee provided that copies are
not made or distributed for profit or commercial advantage and that
copies bear this notice and the full citation on the first page. To copy
otherwise, or republish, to post on servers or to redistribute to lists,
requires prior specific permission and/or a fee.
Conference’04, Month 1–2, 2004, City, State, Country.
Copyright 2004 ACM 1-58113-000-0/00/0004…$5.00.
primera vista esto puede no parecer problema alguno, teniendo en
cuenta que los gustos musicales en sí son claramente subjetivos
también. Sin embargo, parece razonable que el algoritmo de
clasificación debe basarse en criterios sólidos independientemente
de la naturaleza de la información que maneje. Esto queda
patente en estudios como [14], en los que se demuestra que, al
igual que la opinión de nuestros iguales influye en la nuestra
propia, las predicciones sobre el voto de un usuario influyen en su
voto futuro. En este documento se estudiará en detalle el
funcionamiento de Last.fm como principal exponente de esta
opción.
Sin embargo, hay otras soluciones más elaboradas que
tratan de huir de la heterogeneidad del criterio de clasificación
anterior. Pandora fue una de las pioneras en este aspecto al
delegar esta labor en un grupo de expertos en la materia.
Esta solución, a pesar de implementar una clasificación
aparentemente más fina e independiente, sigue implicando al ser
humano, con la subjetividad que ello conlleva. Por tanto, este
documento concluirá abordando la opción de utilizar
clasificadores basados exclusivamente en el tratamiento digital de
la información.
En el siguiente punto, se dará una breve introducción al
filtrado colaborativo, con el único objetivo de dar al lector una
idea muy simplificada de su funcionamiento. Para más
información se recomienda acudir a [13].
2. FILTRADO COLABORATIVO
Con este tipo de sistemas se pretende sugerir nuevos
elementos de un conjunto acotado a usuarios basándose en sus
elecciones anteriores así como en elecciones de otras personas con
un historial de valoraciones similar. Existen dos formas de
recavar la información necesaria para ello. Por un lado, es posible
hacerlo de forma explícita, esto es, el usuario asigna una
puntuación a cada elemento que puede ser un valor numérico
discreto entre un máximo y un mínimo o en el caso binario
simplemente “me gusta”/”no me gusta”. La otra opción es hacerlo
implícitamente, extrayendo la información pertinente de las
acciones del usuario (minería de datos). Evidentemente, también
existen soluciones que involucran ambas, como es el caso del
sistema utilizado en Last.fm que se verá en el apartado siguiente.
Asimismo, Pandora, como también se verá posteriormente más en
detalle, también se apoya en la obtención de información de forma
explícita.
1
Una vez se ha obtenido suficiente información del usuario
se pasa a la fase de predicción y recomendación. Por predicción
se entiende estimar que valoración daría el usuario a cada
elemento, mientras que recomendación se refiere a extraer y
presentar los N elementos más recomendables (Top –N
recommendation).
reproduce en su ordenador. Esta información se envía a la base de
datos de Last.fm (“scrobbled”) utilizando un plugin instalado en
el reproductor de música del usuario. A partir de ella, se elaboran
las estadísticas del usuario en cuestión y se crea su página
personal, que contiene toda la información sobre los temas que ha
ido escuchando a lo largo del tiempo.
En el ámbito del filtrado colaborativo, se distiguen dos
grandes familias de algoritmos:
Algoritmos de filtrado colaborativo basados en memoria o
algoritmos de vecinos cercanos (K-Nearest Neighbour)
Utilizan toda la base de datos de elementos y usuarios para
generar predicciones.
En primer lugar, emplean técnicas
estadísticas para encontrar a vecinos, es decir, usuarios con un
historial de valoraciones sobre los elementos similar al del usuario
actual. Una vez se ha construido una lista de vecinos se combinan
sus preferencias para generar una lista con los N elementos más
recomendables para el usuario actual. Entre sus inconvenientes se
encuentra la necesidad de disponer de un número mínimo de
usuarios con un número mínimo de predicciones cada uno para
poder funcionar. Es el usado por Last.fm para ofrecer a un
determinado usuario una lista de vecinos en base a los perfiles de
todos ellos
Algoritmos de filtrado colaborativo basados en modelo
Desarrollan primero un modelo de las valoraciones del
usuario. Tratan el problema como un problema de predicción
estadística y calculan el valor esperado para cada item en función
de las valoraciones anteriores. Para ello se utilizan distintos
algoritmos de aprendizaje, clustering o redes neuronales como las
Redes de Funciones de Base Radial (RBFN). Por ejemplo,
utilizando clustering se trata de clasificar a un usuario en
particular dentro de una clase de usuarios y a partir de ahí se
estiman las probabilidades condicionadas de esa clase hacia los
elementos a evaluar.
En general, ante las consultas responden más rápido que los
basados en memoria, pero por contra necesitan de un proceso de
aprendizaje intensivo.
Por último, cabe destacar que la complejidad de estos
algoritmos queda patente al evaluar el elevado consumo de CPU y
la cantidad de memoria RAM que necesitan para poder ser
ejecutados.
3. SOBRE LAST.FM
Cuando hay suficiente información, aplica un algoritmo de
búsqueda para encontrar los ‘vecinos musicales’ del usuario, es
decir, aquellos usuarios registrados en el sistema que tienen un
gusto musical similar a él. De esta forma, el usuario tiene acceso
desde su propia página a las páginas de sus vecinos musicales,
pudiendo observar sus estadísticas para así encontrar música afín
y anteriormente desconocida para él.
Por otro lado, Last.fm dispone también de sistemas para
facilitar la información estadística de sus usuarios a terceros, de
forma que cualquier programador puede aprovechar esto para
crear aplicaciones paralelas que complementan al servicio
ofrecido por Last.fm.
Así, una de las características más populares de Last.fm es
la generación y almacenamiento de forma automática todas las
semanas de estadísticas y gráficos musicales detallados obtenidos
a partir del perfil del usuario. Existen varios tipos de gráficos
disponibles: Top de Artistas, Top de Canciones, Top de Albums
así como Top de Artistas Semanal y Top de Canciones Semanal.
Cada uno de estos gráficos está basado en el número de personas
que están actualmente escuchando la canción, el album o el artista
en cuestión, tanto a través de la radio como de un Audioscrobbler
plugin. Adicionalmente, también se ofrecen tops de canciones por
artista y top de canciones por albumes.
Last.fm es una red social, una radio vía Internet y además un
sistema de recomendación de música que construye perfiles y
estadísticas sobre gustos musicales, basándose en los datos
enviados por los usuarios registrados, fundado en 2002.
Actualmente, se trata de la mayor plataforma musical en Internet,
con más de 20 millones de usuarios a lo largo de más de 232
países. Recientemente, el 30 de mayo de 2007, CBS Interactive
compró Last.fm por 280 millones de dolares, dando lugar a la
transacción europea relacionada con la Web 2.0 más grande hasta
la fecha.
Utilizando
“AudioScrobbler”
como
sistema
de
recomendación, Last.fm construye un perfil detallado de los
gustos musicales de cada usuario. Guarda un registro de la
música que escucha el usuario en la radio así como de la que
La principal función que ofrece Last.fm está reservada a sus
suscriptores. Consiste en una emisora de radio personalizada que
basa su lista de reproducción en las estadísticas personales del
usuario. No obstante, sí que ofrece de forma gratuita a cada
2
usuario la emisora personal de los demás usuarios, incluida la de
sus vecinos musicales. Como novedad, recientemente incluyó la
posibilidad de que cada usuario cree una lista de temas
personalizada, accesible para toda la comunidad de Last.fm.
A continuación, se tratará en profundidad el sistema que
utiliza Pandora para recomendar música a sus usuarios así como
el interfaz que presenta y sus peculiaridades.
4. SOBRE PANDORA
Ilustración 3. Botones de 'me gusta' y 'no me gusta' para que
el usuario decida sobre los temas que se reproducen en una
determinada emisora.
4.1 Interfaz de la aplicación
Pandora utiliza un interfaz muy sencillo e intuitivo mediante
el cual el usuario crea sus propias emisoras que van
personalizándose con el paso del tiempo. Inicialmente, los únicos
datos que pide son algunos temas similares a aquello que el
usuario quiera escuchar en una determinada emisora. Conforme el
usuario escucha los temas que el sistema le recomienda para esa
emisora, éste puede decidir si ese tema es apropiado o no para la
emisora en cuestión, simplemente pinchando en el icono del
pulgar hacia abajo (cuando la canción no es apropiada para la
emisora según el criterio del usuario) o pinchando en el icono del
pulgar hacia arriba, indicando de esta manera que el tema en
reproducción encaja con lo que el usuario espera que se escuche
en una determinada emisora. Cada usuario puede crear tantas
emisoras como desee, pudiendo tener de esta manera emisoras
basadas en estilos completamente distintos. Todos estos datos se
guardan en una base de datos en el servidor de Pandora,
elaborando cada vez una oferta más personalizada para cada
usuario. A continuación, mostramos algunas imágenes sobre el
aspecto de la emisora:
Ilustración 1. Creación de una nueva emisora
Ilustración 2. Prueba de una emisora recién creada.
4.2 El proyecto musical Genome (Music
Genome Project)
La principal diferencia entre Pandora y otros servicios
similares es que basa su sistema de recomendación en el proyecto
Genome. Pandora no utiliza el concepto de género musical,
afinidad entre usuarios o puntuaciones. Cuando se crea una
emisora en Pandora, ésta utiliza un sistema muy radical de
recomendación musical personalizada: tras analizar las estructuras
musicales que aparecen en las canciones favoritas del usuario,
reproduce otras canciones que tengan unos atributos musicales
similares. Pandora, como ya decíamos antes, se basa en un
‘genoma musical’ (el Music Genome Project), que consiste en
400 atributos musicales que cubren las características de melodía,
armonía, ritmo, forma, composición y letras. Este proyecto
comenzó en enero de 2000 y precisó de treinta expertos en teoría
musical durante cinco años de trabajo hasta que fue completado.
El Genome Project de basa en un intrincado análisis desarrollado
por personas humanas (no computadoras, que lleva
aproximadamente de 20 a 30 minutos por cada canción de cuatro
minutos) sobre la música de 10.000 artistas de los últimos 100
años. El análisis de nueva música continúa cada día desde que
Pandora comenzó su andadura en Internet, en agosto de 2005. En
mayo de 2003, el proyecto Genome contenía ya 400.000
canciones analizadas de 20.000 artistas contemporáneos. Aún no
contiene música latina e inicialmente no tenía tampoco música
clásica, pero se está creando un proyecto especializado en música
latina, y recientemente se anunció la disponibilidad de música
clásica (el 21 de noviembre de 2007), poniendo a disposición del
usuario cuatro emisoras de música clásica clasificadas por temas,
para aquellos usuarios que quieran introducirse en el mundo de la
música clásica. Estas emisoras son:
•
Symphonic, Classical Period
•
Symphonic, Romantic Period
•
Piano Concerti, Classical Period
•
Opera, Romantic Period
•
Chamber, Baroque Period
Al llegar a Pandora.com, lo primero que se ve el reproductor,
que tiene un aspecto muy agradable a la vista. Se basa en
tecnologías web (no en descargas) y es muy minimalista.
3
Pandora.com es la interfaz con la base de datos del proyecto
Genome. Todo lo necesario para comenzar es escribir una canción
o un artista en el campo principal del reproductor. Por ejemplo, si
escribimos “Ben Folds” y hacemos clic en el botón “crear”,
habremos creado una emisora de radio cuyo nombre es “Ben
Folds Radio”, que reproducirá sólo canciones con atributos
musicales similares a las canciones de Ben Folds.
En lo que respecta a las características musicales de las
canciones de Ben Folds, Pandora escoge aleatoriamente una
canción de Ben Folds y la reproduce. En la parte inferior del
reproductor se puede ver cómo el proyecto musical Genome ha
caracterizado esta canción:
Ilustración 4. Clasificación de una canción por el proyecto
Genome.
La siguiente canción que reproduzca la emisora, compartirá
algunos de estos atributos. En este caso se trata de “Ámsterdam”,
de Coldplay.
Pandora muestra automáticamente los atributos musicales
para el primer par de canciones de la nueva emisora. Tras esto,
puede encontrarse exactamente por qué Pandora está
reproduciendo cualquier canción haciendo clic en la portada del
disco y seleccionando "Why did you play this song?" en el menú.
Por ejemplo, tras “Ámsterdam”, Pandora reproduce el tema "Give
It All Away." De Ben Jelen, averigüemos por qué.
La descripción comienza con “Basándonos en lo que nos
has dicho hasta ahora…”, es decir, que no sólo va a basarse en
que ha de encontrar artistas similares a Ben Folds, sino que el
sistema quiere realimentación por parte del usuario para así
refinar el sistema de recomendaciones de la emisora basándose en
los gustos personales del usuario. A cada canción que se
reproduce se puede asignar el icono de pulgar arriba o pulgar
abajo, siendo ésta la forma de dar realimentación de forma
instantánea, lo que automáticamente cambiará la lista de
reproducción de la emisora. Por ejemplo, si un tema se marca con
el pulgar hacia abajo, el sistema no volverá a reproducir ese
determinado tema en esa emisora y además reproducirá con
menos frecuencia las canciones cuyos atributos sean similares a
los del tema marcado. Esto puede ser editado en la función para
editar las emisoras del usuario, donde aparecen todas las
canciones marcadas con el pulgar hacia abajo.
Marcar un tema con el pulgar hacia arriba tiene el efecto
contrario: aquella canción marcada y las que sean similares bajo
los atributos del proyecto Genome se reproducirán más
habitualmente. La idea es que el usuario esté constantemente
proporcionando realimentación de modo que la emisora aprenda
más y más sobre los gustos del mismo. El resultado es una
emisora personalizada de forma progresiva que efectivamente
reproduce la música que el usuario quiere escuchar. Lleva un
tiempo hasta que esto se consigue, pero la mayoría de los usuarios
están de acuerdo en que el proceso de realimentación funciona.
Algunas otras cosas que pueden hacerse con Pandora son:
•
Añadir más música a una emisora (de forma que ésta la
utilice como ‘semilla’, ya sea una canción o un artista).
•
Añadir una canción a la lista de favoritos, de forma que
el usuario pueda guardar un registro de la música que le
gusta.
•
Comprar música a través de Amazon o iTunes, haciendo
clic en la portada del disco y seleccionando una tienda.
•
Compartir la emisora con un amigo a través de un
enlace por correo electrónico.
•
Minimizar el reproductor, de forma que quede
iconizado mientras el usuario realiza otras tareas con el
ordenador.
•
Crear hasta 100 emisoras.
•
Registrarse en feeds RSS para averiguar qué están
escuchando otros amigos, cuáles son los 20 artistas
principales, y más información.
•
Enlazar a las emisoras Pandora desde un blog (para lo
que Pandora creará el código directamente).
4.3 Detalles técnicos
El reproductor de Pandora es una aplicación Web gratuita
basada en tecnología Flash. No es necesario descargar nada para
usarlo siempre y cuando se disponga de Flash 7 o superior
instalado en el PC. La única diferencia entre el servicio gratuito y
el de suscriptores (36 dólares americanos al año o 12 por 3 meses)
es que la versión de pago no contiene publicidad. Todo lo demás
es igual.
Pandora entrega streaming de música a 128kbps, por lo que
sólo funciona con una conexión de banda ancha. Su licencia
musical viene de las guías de la DMCA y del esquema de
administración de de derechos digitales DRM. En primer lugar,
Pandora nunca reproducirá una canción específica bajo demanda.
Si una canción es añadida a una emisora, ésta la reproducirá
eventualmente, pero Pandora sólo puede ponerla de forma
aleatoria. Además, permite saltar 10 canciones en una hora, es
decir, no es posible ir saltando canciones hasta que se llega a la
canción concreta que se está buscando. Las licencias limitan
también el número de veces que Pandora puede reproducir una
determinada canción o artista en un periodo de tiempo, para lo
que almacena una lista con las canciones que se han ido
reproduciendo. También guarda la información del usuario para
así reconocerlo cuando vuelva a visitar la página.
Probablemente lo más interesante que podemos destacar de
los aspectos técnicos de Pandora es lo relacionado con el proyecto
musical Genome. A no ser que se disponga de un título en teoría
musical, los términos analizados están fuera del alcance habitual
de los oyentes, pero a pesar de eso suele resultar interesante
analizarlos
4
El proyecto Genome no es un grupo sencillo y homogéneo
de atributos. Cada tipo de música requiere distintos géneros y
subgrupos. Existen cuatro géneros básicos en el proyecto
Genome: pop, jazz, rap/hip-hop/ electrónica y músicas del mundo.
De acuerdo con el fundador del proyecto Genome, Tim
Westergren, en una entrevista a “Tiny Mix Tapes”:
…existe un ‘genoma’ común que se presenta en todos los
géneros. Pero… las músicas del mundo, por ejemplo, necesitan
una variedad instrumental mucho más amplia que la que se
presenta en música pop. No tiene sentido realizar todo el trabajo
en la música pop, cuando el 99% de las veces va a ser redundante,
de modo que adaptamos la plantilla para acercarnos lo más
posible a lo que cada género de música necesita. En el Rap, por
ejemplo, se describen con más detalle los parámetros referentes a
las letras que en el ‘genoma’ de un tema pop, ya que el rap está
mucho más centrado en la lírica; patrones rítmicos, ritmo y
formulación; así como cuánta profanidad presenta.
Hablando de profanidad, hay un dato destacable en Pandora:
Sólo reproduce versiones no censuradas de las canciones. La
gente en Pandora trató este tema en profundidad y decidió
permanecer fiel a las intenciones originales de los artistas. Cuando
un usuario se registra en Pandora, tiene que especificar su fecha
de nacimiento, y probablemente ésta sea la razón de ello.
De modo que si queremos analizar qué ocurrió exactamente
cuando creamos la emisora de radio llamada ‘Ben Folds Radio’,
veremos que en primer lugar Pandora localizó una canción de Ben
Folds y extrajo el análisis del proyecto Genome de la misma.
Luego, ejecutó el algoritmo que compara cada canción en la base
de datos de Genome para extraer los datos ‘genéticos’ de dicha
canción con objeto de identificar canciones que tengan atributos
similares. El algoritmo busca coincidencias entre 400 parámetros.
A continuación se muestra una lista de los atributos y conceptos
en los que se basa la búsqueda:
•
Arreglos: la selección y adaptación de una
composición o partes de la misma a instrumentos
para los que no fue inicialmente concebida.
•
Ritmo: el pulso regular de la música.
•
Forma: La estructura de la composición, el marco
sobre el que está construida, basada en la
repetición, contraste y variación.
•
Armonía: La combinación concordante (o
consonante)
de
notas
reproducidas
simultáneamente para producir acordes.
•
Letra: Las palabras que forman una canción.
•
Melodía: una sucesión de tonos compuestos de
modo, ritmo y ‘pitch’ compuestos para conseguir
una forma musical.
•
Orquestación: el arte de arreglar una composición
para su ejecución mediante una orquesta.
•
Compás: La subdivisión de un espacio temporal en
un patrón repetido y definido.
•
Síncopa: Enlace de dos sonidos iguales, de los
cuales el primero se halla en el tiempo o parte débil
del compás, y el segundo en el fuerte.
•
Tempo: la velocidad a la que avanza el compás en
una composición.
•
Voz: la producción de sonido mediante las cuerdas
vocales, utilizada habitualmente en la música. Se
subdivide en seis categorías definidas por la
entonación y el rango, desde el más bajo hasta el
más alto: Bajo, Barítono, Tenor, Contralto, Mezzo
Soprano y Soprano.
Hay que recordar que cada atributo de cada canción se
determina ‘a mano’, es decir, hay una persona detrás de cada tema
que ha identificado las características de voz, ritmos, estructuras y
tempos para cada una de las 400.000 canciones de la base de
datos del proyecto Genome. Es un gran trabajo que
probablemente continúe mientras Pandora Media disponga de
dinero para pagar a sus expertos para que sigan escuchando
música todo el día.
Hay, por supuesto, intereses por el proyecto Genome dentro
del mundo de la música. En primer lugar, se trata de un proyecto
propietario, es decir, no hay posibilidad de un análisis
independiente. En un sentido amplio, el proyecto Genome asume
que los atributos musicales pueden ser analizados de forma
objetiva, es decir, que la mente del oyente puede sacarse de la
ecuación. Algunos expertos dudan que la música pueda ser
cuantificada de esta forma.
En lo que respecta al reproductor, hay un asunto que destaca
especialmente cuando se crea una emisora utilizando un artista
como los Beatles como ‘semilla’. Algunos artistas abarcan una
colección de estilos tan variada que hay infinitas formas en las
que el algoritmo de Genome puede determinar coincidencias. En
ese caso, Pandora podría reproducir música que el oyente no
quiere oír en absoluto. Por ejemplo, si al usuario le gustan los
últimos trabajos de los Beatles, como “Across the universe” o “I
am the Walrus”, probablemente se decepcione si Pandora le
reproduce música similar a "I Want to Hold Your Hand". Por este
motivo, suele ser una opción más acertada escoger una canción
concreta en vez de un artista como ‘semilla’.
Con todas las atractivas características y acercamientos
noveles a la radio personalizada, Pandora suele impresionar a la
gente cuando ésta la descubre. Pero esto no paga las facturas, y
Pandora tiene que utilizar dinero en efectivo si quiere sobrevivir.
En la próxima sección, averiguaremos cómo Pandora planea
convertir el proyecto académico Genome en un artículo comercial.
4.4 El futuro de Pandora
El proyecto Genome, junto con su interfaz de usuario, no son
precisamente los primeros en su clase. El productor musical Alan
Lomax, más conocido por su trabajo en los años 50 y 60 con la
BBC y artistas folk como Woodie Guthrie, Lead Belly y Pete
Seeger, dedicó 30 años a desarrollar un “jukebox” interactivo y de
baile. El Global Jukebox de Lomax establece conexiones sociales,
culturales y regionales entre varias formas de arte. Las conexiones
se basan en un análisis musical similar al que se utiliza en el
proyecto Genome, tanto en atributos musicales, como en
movimientos de baile, que se combinan con una base de datos de
características culturales a lo largo de la historia. De acuerdo con
5
el portal de Martin Edlund, Slate.com, en el “Código de
Madonna” (“The Madonna Code”) [2], el “Global Jukebox”
puede decir que una “fuerte energía vocal está relacionada con la
presencia de leche en la dieta de la sociedad”. En “Alan Lomax's
Multimedia Dream”, Michael Naimark destaca la conexión entre
“bailes con estrechos movimientos del talón al dedo gordo del
pie” y “sociedades cuya cosecha se planta en filas estrechas (como
el arroz)”. El prototipo “Global Jukebox” está almacenado en un
Apple Quadra en el archivo Lomax, en la ciudad de Nueva York.
Varias corporaciones han mostrado gran interés en el invento,
pero ninguna ha encontrado un uso comercialmente viable para él.
De modo que ¿cuál es el plan de Pandora para hacer dinero
del análisis académico? Si tratamos de responder a esta pregunta
desde el punto de vista teórico, el éxito comercial potencial de
Pandora se basa en un concepto económico llamado “La cola
larga” (Long Tail). En la era digital, donde los consumidores
pueden encontrar fácilmente el producto específico que estén
buscando y los productores pueden fácilmente ofrecer nuevos
contenidos para la distribución, Long Tail afirma que dirigir a los
consumidores lejos del camino marcado, es una clave potencial
para el éxito económico. En términos prácticos, el modelo actual
de ingresos parece estar relacionado con la colocación de
anuncios en la versión gratuita, cobrando a los suscriptores que
escojan la versión sin anuncios (alrededor del 15 por ciento de los
ingresos por suscripción van al mantenimiento de la licencia
musical de Pandora y a adquirir ancho de banda), y de enviar
usuarios a iTunes y Amazon para comprar la música que escuchan
en Pandora. Pandora Media también ofrece la licencia de uso de
una versión comercial del servicio de descubrimiento musical a
vendedores de música como Best Buy, Tower Records y AOL,
quienes lo usan para recomendar nueva música a sus
consumidores en las cabinas. De acuerdo con el FAQ [4]
(Frequently Asked Questions, o en castellano Preguntas
Habituales) de Pandora, lo que la compañía no hará es vender su
objetividad. Según palabras de la propia compañía: “Nunca jamás
aceptaremos dinero por reproducir una determinada canción o por
analizarla de forma favorable en Pandora”, por lo que
probablemente no habrá opciones a vender tiempo de escucha.
Si Pandora tiene un éxito comercial real, tendrá que competir
con gigantes de la música, como iTunes. Pandora ya ha trabajado
en equipo con una compañía de electrónica para crear un
dispositivo hardware que libere al ordenador personal de Pandora,
de forma similar a lo que AirTunes de Apple hace con iTunes.
Ilustración 5. Slim Devices' Squeezebox
El “Slim Devices’ Squeezebox” se conecta a una red casera
para reproducir Pandora desde el PC y controlarla desde cualquier
habitación de la casa. Pandora Media está además barajando la
posibilidad de introducir ‘Pandora mobile’ como un reproductor
independiente y como una aplicación para dispositivos como
teléfonos móviles y PDAs.
5. CLASIFICACIÓN MUSICAL
AUTOMÁTICA
El objetivo de este último apartado es dar una idea de las
posibilidades del tratamiento digital de la información (de la
música, en nuestro caso) dentro de los sistemas de
recomendación. Para ello, nos vamos a basar fundamentalmente
en [15] y [16], al considerar que ilustran adecuadamente los
progresos que se pueden estar llevando a cabo en este ámbito hoy
en día.
Como ya se ha mencionado, a la hora de abordar un
problema de clasificación o etiquetado parece razonable recurrir a
métodos en los que no intervengan factores como la
heterogeneidad o la subjetividad. Así, Pandora por ejemplo ha
puesto este problema en manos de expertos en música que
analizan cada canción que incluyen en su base de datos rellenando
una gran cantidad de campos en un intento de caracterizarla como
si de un animal se tratara.
Sin duda alguna, el oído humano, bien entrenado, es un
aparato de medida de altísima precisión y el cerebro una central
de cómputo cuya capacidad no puede igualar ninguna máquina.
Sin embargo, son sensibles a una serie de factores que hacen que
su rendimiento disminuya considerablemente, como el cansancio
o la concentración.
Teniendo en cuenta que en el caso anterior lo que están
haciendo el oído y el cerebro de forma intrínseca es muestrear la
información, extraer sus principales características mediante
ciertos procesos desconocidos y en base a ellas dar ciertos valores
a unos parámetros de salida dados utilizando decisores entrenados
durante años, parece lógico recurrir a métodos automáticos que
traten de implementar dicho proceso y no sean tan sensibles a
factores externos como lo es el ser humano.
Lo primero que habría que hacer, asumiendo que la
información ya está digitalizada, sería analizarla con el objetivo
de obtener una serie de parámetros o medidas que caractericen
adecuadamente la señal y en base a los cuales sea posible decidir
si pertenece a un grupo u otro o cuantificar una serie de atributos
que la definan. Esta elección de características es muy importante
en el análisis de contenidos musicales. A continuación se van a
presentar algunas importantes haciendo especial hincapié no en
sus fundamentos matemáticos y estadísticos sino en la
información que nos dan sobre la señal analizada:
Beat Spectrum
Se trata de una medida para automáticamente caracterizar el
ritmo y el tempo de la música. Música muy estructurada o
repetitiva presentará picos en el Beat Spectrum coincidiendo con
las repeticiones.
Se puede obtener a partir de la música siguiendo los
siguientes pasos:
1.
La música se parametriza utilizando una
representación espectral, lo que resulta en una
secuencia de vectores de rasgos.
2.
Se utiliza una medida de distancia (la euclídea, por
ejemplo) para calcular el parecido entre todos los
pares posibles de vectores de rasgos.
6
3.
Las semejanzas obtenidas se representan en una
matriz bidimensional (matriz de semejanzas) y el
Beat
Spectrum
se
obtiene
encontrando
periodicidades
en
ella
(utilizando
autocorrelaciones, por ejemplo).
Se trata de una medida altamente efectiva en el reconocimiento
automático de voz y en el modelado de tonos y frecuencias
subjetivas contenidas en las señales de audio. Los MFCC se
pueden calcular a partir de los coeficientes de potencia de la FFT
utilizando un filtro triangular.
Una vez obtenidos estos parámetros, podemos aplicar alguno de
los clasificadores conocidos para distinguir el género al que
pretende la canción. De este modo, en [15] utilizan varios
clasificadores multicapa basados en máquinas de vectores soporte
con dicho objetivo, obteniendo los siguientes resultados:
LPC-Derived Cepstrum
La idea básica aquí es que podemos aplicar análisis lineal
predictivo a la música porque una muestra musical puede
aproximarse como combinación lineal de muestras pasadas.
Minimizando la suma al cuadrado de las diferencias entre la
muestra actual y la predicha (en intervalos finitos), se puede
obtener un único conjunto de coeficientes del estimador.
Zero Cross Rate (Ratio de cruces por cero)
Este parámetro puede tomarse como una medida grosera del
contenido frecuencial de la señal. Es muy útil en el análisis de
música. Sin embargo, es apropiada para señales de banda estrecha
y las señales musicales incluyen componentes de banda estrecha y
banda ancha). Por tanto, lo que se utiliza realmente es el ShortTime Zero Crossing Rate (se tienen en cuenta los paso por cero en
instantes de tiempo pequeños).
Se puede observar que, aunque no exentos de errores, los
resultados parecen aceptables, más aún teniendo en cuenta que el
espacio muestral (el número de canciones total) es bastante
pequeño (15 canciones de cada tipo). Sin embargo, habría que
tener en cuenta que ocurre al analizar canciones que fusionan
distintos estilos.
No obstante, éste no es exactamente el problema a resolver
tratándose de sistemas de recomendación. En este caso, lo que
debería hacer el algoritmo es, a partir de las medidas obtenidas
mediante el estudio previo de la señal, cuantificar una serie de
atributos que la definan, algunos de los cuales tendrán que ver con
el género al que pertenece (Music Genome Project automatizado).
De esta manera, los resultados obtenidos son más finos, ya que
dan una idea de cuanto de cada género tiene la canción. Además,
permiten llevar a cabo el objetivo final, sugerir a los usuarios
música que sea de su agrado. Para ello, bastaría con estudiar la
similitud estadística de los atributos de la canción que está
escuchando el usuario o de su perfil con los de las demás de la
Mel Frequency Cepstral Coefficient
7
base de datos (o un subconjunto de ellas) y elegir alguna para la
que se obtenga un coeficiente elevado.
[5] Ike, Elephant. "Tim Westergren Interview." Tiny Mix
Tapes, Jan. 2006.
http://www.tinymixtapes.com/interviews/tim_westergren.ht
m
6. CONCLUSIONES
[6] "The Music Genome Project." Everything2.com.
http://www.everything2.com/index.pl?node_id=1776403
En este documento se han analizado distintos mecanismos
utilizados para etiquetar música en los sistemas de recomendación
musical personalizada. Para ello, se han estudiado como casos
particulares dos de las empresas más importantes del sector,
quedando patente que utilizan técnicas que se encuentran en la
vanguardia de la minería de datos, el filtrado colaborativo y la
estimación entre otros campos del tratamiento digital de señal.
Sin embargo, también se ha detectado que los criterios utilizados
para valorar la música en mayor o menor medida dependen del ser
humano y, por tanto, incurren en la subjetividad y la
heterogeneidad.
[7] "The Music Genome Project." Pandora.com.
http://www.pandora.com/mgp.shtml
Parece razonable que los futuros avances en el tratamiento
de señal den lugar a que el etiquetado de toda esta información se
realice de forma automática, según lo expuesto en apartado
anterior. Pero cabe destacar que habrá que seguir teniendo en
cuenta la opinión de los usuarios, la realimentación del tipo “me
gusta/no me gusta” mencionada a lo largo del documento junto a
otros factores humanos no sólo para que los procesos aprendan y
las recomendaciones sean teóricamente mejores sino también
debido a la inherente naturaleza humana del problema, que
seguramente impida que, en cualquier caso, la tasa de error en ese
tipo de sistemas, esto es, que al usuario le gusten todas las
canciones que le sugieren, sea 0.
[11] "Powered by the Music Genome Project, New Pandora
Service Makes It Dramatically Easier to Find and Enjoy
New Music." Business Wire. Aug. 29, 2005.
http://www.findarticles.com/p/articles/mi_m0EIN/is_2005
_August_29/ai_n14934093
7. REFERENCIAS
[1] "Does Music Have a Genome?" DJ Alchemi. Nov. 28,
2005.
http://alchemi.co.uk/archives/mus/does_music_have.html
[2] Edlund, Martin. "The Madonna Code." Slate.com.
http://www.slate.com/id/2121998/fr/rss/
[3] Farber, Dan. "Tapping into Pandora's music genome."
ZDNet Blogs. Aug. 26, 2005.
http://blogs.zdnet.com/BTL/?p=1761
[8] Naimark, Michael. "Alan Lomax's Multimedia Dream."
The Alan Lomax Collection.
http://www.alanlomax.com/style_globaljukebox_Naimark.html
[9] Pandora.com.
http://www.pandora.com/
[10] "Pandora, the Music Genome Project." Mariva's Guide.
Jan. 23, 2006.
http://www.mariva.com/guide/music/2006/01/pandora-themusic-genome-project.html
[12] Westergren, Tim. "The Music Genome Project."
AlwaysOn. June 2, 2005.
http://www.alwaysonnetwork.com/comments.php?id=P10557_0_4_0_C
[13] Sergio Manuel Galán Nieto. “Filtrado colaborativo y
Sistemas de Recomendación”
[14] Dan Cosley, Shyong K. Lam, Istvan Albert, Joseph A.
Konstan, John Riedl. “Is Seeing Believing? How
recommender Interfaces Affect Users Opinions”
[15] Changsheng Xu, Namunu C. Maddage, Xi Shao, Fang
Cao, Qi Tian. “Musical Genre Classification using support
vector machines”
[16] G.Tzanetakis,G. Essl, P. Cook. “Automatic Genre
Classification Of Audio Signals”
[4] "Frequently Asked Questions." Pandora.com.
http://blog.pandora.com/faq/
8