Download aplicación de redes neuronales para la predicción de

Document related concepts

Redes neuronales probabilísticas wikipedia , lookup

Red neuronal de impulsos wikipedia , lookup

Red neuronal artificial wikipedia , lookup

Propagación hacia atrás wikipedia , lookup

Perceptrón wikipedia , lookup

Transcript
APLICACIÓN DE REDES NEURONALES PARA LA PREDICCIÓN DE
GENUINIDAD DE VINOS MONOVARIETALES BLANCOS COMERCIALES
POR MEDIO DEL PERFIL AROMÁTICO
Raquel Romano, Viviana Trebes , Maria Barbeito
Normas Analíticas Especiales
Subgerencia de Investigación par a la Fiscalización
Instituto Nacional de Vitivinicultura
San Martín 430. Ciudad Mendoza (CP 5500). Argentina
[email protected]
Resumen: Para demostrar de manera objetiva la autenticidad de los vinos blancos
monovarietales comerciales de Argentina, se ha desarrollado un sistema analítico y
estadístico, mediante la elaboración de un banco de datos de vinos microvinificados de
origen indudable y el análisis de sus componentes volátiles, que permite predecir la
pertenencia varietal. En el presente trabajo se han podido diferenciar 4 variedades de
vinos blancos identificando 71 componentes odoríferos por extracción, concentración y
cuantificación por Cromatografía Gaseosa. Posteriormente mediante el uso del
clasificador bayesiano de redes neuronales se ha creado un modelo estadístico de
predicción que ha sido aplicado a vinos comerciales para su clasificación varietal
obteniendo resultados satisfactorios.
Palabras clave: aromas, vinos blancos, clasificación varietal, terroir, cromatografía
gaseosa, redes neuronales
APPLICATION OF NEURAL NETWORKS FOR PREDICTION MONOVARIETAL
GENUINE WHITE WINE BUSINESS BY AROMATIC PROFILE
Raquel Romano, Viviana Trebes, María Barbeito
Special Analytical Standards
Deputy Manager for the Survey Research
National Wine Institute
San Martín 430. Ciudad Mendoza (CP 5500). Argentina
[email protected]
Abstract: To objectively demonstrate the authenticity of commercial single variety of
white wines from Argentina, has developed an analytical and statistical system, by
developing a database of wine micro-vinification of undoubted origin and analysis of
their volatile components, which membership predicts varietal. In the present work
have been distinguished 4 varieties of white wines by identifying 71 odorant components
extraction, concentration and quantification by gas chromatography. Then using the
Bayesian classifier neural network has created a statistical model of prediction that has
been applied to commercial wine varietal classification with satisfactory results.
Keywords: aroma, white wines, varietal classification, terroir, gas chromatography,
neural networks
INTRODUCCIÓN Y ANTECEDENTES
A medida que avanzan los conocimientos y la competencia en el mercado internacional de
vinos, aumentan las exigencias en cuanto a la certificación de la calidad de los mismos. En la
actualidad, a nivel internacional no sólo se exige que el vino sea elaborado exclusivamente a
partir del jugo de uva fermentado, sino que se incluye dentro de esta exigencia los conceptos
de “certificación varietal y del origen geográfico”.
Al igual que en otros muchos alimentos, el aroma de un vino está determinado por varios
cientos de compuestos volátiles de diversa naturaleza química. Entre ellos se han
caracterizado alcoholes, ésteres, aldehídos, cetonas e hidrocarburos, todos ellos a
concentraciones muy bajas y con umbrales de detección que varían entre 10-4 y 10-12 g.L-1
(1,2,3,)
.
Cabe destacar que en la Argentina se considera como monovarietal a aquellos vinos que
contienen un 85% o más de la variedad correspondientemente declarada, de acuerdo a la
Legislación Argentina [4].
El objetivo de este trabajo es demostrar que es posible predecir la variedad de vinos blancos
comerciales de diferentes calidades, mediante el análisis cromatográfico de compuestos
aromáticos (5) y el empleo de un modelo estadístico de predicción, contrastados sobre un
banco de datos de vinos de origen varietal indudable obtenido a partir de microvinificaciones
estandarizadas.
El modelo de predicción utilizado es mediante el uso de redes neuronales artificiales. Los
modelos neuronales probabilísticos (Probabilistic Neural Networks, PNN) surgen en los años
70 y fueron descritos por Meisel (1972), pero no empezaron a tener importancia hasta los
años 90 con Specht. Dichos modelos aparecen de forma natural en el marco de la teoría de la
probabilidad y son en esencia un clasificador bayesiano. Una red neuronal artificial (ANN)
es un sistema de procesado de datos, basado en la imitación del funcionamiento de los
sistemas nerviosos biológicos, y que es capaz de predecir con precisión variables categóricas
(clasificación) y de escala (regresión). Como se esquematiza en la figura 1, las neuronas
biológicas tienen cuatro componentes básicos: dendritas, soma, axón y sinapsis. A través de
las dendritas (canales de entrada de la neurona) entran en la neurona las señales procedentes
de otras neuronas. Si la suma de las señales recibidas en un momento dado excede un cierto
valor umbral, el cuerpo de la célula genera una señal de salida, que viaja a lo largo del axón
(el canal de salida) y es transportada a otras neuronas vecinas mediante la sinapsis.
Figura 1: Esquema de una neurona biológica mostrando sus cuatro componentes básicos.
Figura 2: Esquema de una neurona artificial mostrando sus cuatro funciones básicas:
ponderar las entradas, sumarlas, calcular la salida y comunicarla a otras neuronas.
Tal como se indica en la figura 2, una neurona artificial simulas las funciones básicas de la
neurona natural. La entrada a esta nueva neurona es la señal que llega a ella procedente de una
o más neuronas y la salida significa la señal emitida por ella a la próxima neurona corriente
abajo. La neurona artificial contiene dos algoritmos, uno de los cuales calcula la suma
ponderada de los valores que le llegan por las conexiones de entrada, y el otro, denominado
“función de transferencia” o “función de activación”, genera una respuesta o salida que se
comunica a otras neuronas. La red de neuronas es capaz de “aprender”, lo que se realiza
principalmente mediante el ajuste de los “pesos” de las conexiones entre neuronas, hasta que
la red en su conjunto proporcione predicciones con la suficiente precisión. Este proceso se
denomina “entrenamiento de la red neuronal”. Un peso consiste simplemente en un número
real. Si el peso es positivo, tiende a estimular a la neurona siguiente para que transmita su
propia señal corriente abajo; si el peso es negativo, no provoca esa estimulación. El conjunto
de los valores de los pesos asociados con las neuronas en una red determina las propiedades
computacionales de la misma. Al inicio del entrenamiento, estos pesos suelen ser elegidos de
manera aleatoria.
En la figura 3 se muestra el esquema de una red neuronal sencilla, con neuronas dispuestas
en tres filas o “capas” denominadas capa de entrada, capa oculta y capa de salida. La capa de
entrada tiene tantas neuronas como variables manifiestas, y genera a su vez el mismo número
de salidas, cada una de las cuales se comunica a todas las neuronas de la capa oculta. La capa
oculta suele tener una o dos neuronas más que la capa de entrada. Finalmente, la capa de
salida tiene tantas neuronas como categorías reconocidas existan en los datos (análisis
clasificatorio), o como variables de escala se quieran predecir (predicción multicomponente).
Figura 3: Esquema de una red neuronal diseñada para predecir tres respuestas a partir de cuatro variables predictoras.
Para que la red funcione correctamente es necesario someterla a una etapa de aprendizaje o
entrenamiento. Cuando la red está entrenada, las neuronas de la capa de entrada se alimentan
con los valores de las variables manifiestas para el nuevo objeto. Los resultados de la capa de
entrada se procesan en la capa escondida, y los resultados generados por ésta se procesan de
nuevo en la capa de salida. En análisis clasificatorio, los resultados de la capa de salida o
“respuestas” son las probabilidades de que el nuevo objeto pertenezca a cada una de las
categorías, mientras que en regresión múltiple, las “respuestas” son los valores predichos para
cada una de las variables dependientes (6,7,8).
Los resultados obtenidos mediante redes neuronales fueron contrastados con el sistema de
predicción a través de análisis discriminante.
Materiales y Métodos
Muestras de vinos: para la elaboración del banco de datos se realizaron
microvinificaciones en condiciones idénticas de maceración en frío a 18º C y fermentación
alcohólica con un pool de levaduras seleccionadas sobre 5 muestras de cv. Cereza, 14
muestras de cv. Chardonnay, 8 muestras de cv. Sauvignon blanc y 7 muestras de cv.
Torrontés.
Luego, se seleccionaron
25
muestras de vinos comerciales declarados como
monovarietales en su etiqueta.
Método analítico. Determinación de los componentes volátiles
La fracción volátil de los vinos se extrae partir de 100 ml de vino a los que se agrega
previamente 20 µl de R-octanol como estándar interno y se separa mediante extracción sólido
líquido con resina Amberlite XAD-2 y mezcla azeotrópica de solventes pentanodiclorometano (2:1) [6].
Una vez extraída la fracción volátil, la fracción orgánica se concentra en Kuderna Danish
hasta la obtención de la gota de aceite esencial. Un µl de este aceite se inyecta en modo split
en un Cromatógrafo Hewlett Packard HP-6890 con detector FID, equipado con columna
capilar HP-Innowax (50m x 0,25 mm i.d., 0,25 mm film tickness). Se emplean las siguientes
condiciones cromatográficas:
Gas carrier: Nitrógeno
Flujo de hidrógeno: 30 ml.min-1
Flujo de carrier: 1 ml.min -1
Flujo de aire: 400 ml.min-1
Temperatura de inyector: 310º C
Temperatura de detector (FID):350º C
Programa de temperatura de horno: inicial 45º C durante 5 minutos; rampa 1 de 2º C por
minuto hasta 165º C; rampa 2 de 10º C por minuto hasta 280º C y tiempo final constante de
10 minutos.
Para la cuantificación se emplea el “Método del Estándar Interno” y se expresa el resultado
en concentración de mg.L -1
Con el presente método analítico se han extraído, identificado y cuantificado 71
componentes volátiles que incluyen alcoholes superiores, aldehídos, cetonas, ésteres,
terpenos, metoxipirazinas y terpenoles.
En Tabla 1 figuran los componentes volátiles analizados.
Tabla 1: Compuestos volátiles analizados por CG- FID
Componentes volátiles
Alcohol crotilico
2-pentanol
2-metilbutanol
4-metil-2-pentanol
Acetato de isobutilo
Damascenona
Z-3-hexenol+Furfurilico
E-2-hexenol
Gammabutirolactona
Dipenteno
Acetato de hexilo
Cineol
1-feniletanol
Guayacol
Linalol+Heptanoato de etilo
Alfa terpineno
Z-oxido limoneno
Mentol
Alfa Terpineol
Maleato de dietilo
3,4-dimetilfenol
Citronelol
Citral
p-anisaldehido
Z-cinamaldehído
Transanetol
Timol
Wiskey-Lactona
Acetato de nerilo
Acetato de genarilo
Antranilato de etilo
Isoeugenol
Dodecanol
R-nerolidol
Delta undecanolactona
Delta dodecanolactona
Miristato de etilo
Butanol
Propanoato de etilo
3-metilbutanol
1-pentanol
Hexanal
E-3-hexenol
Cis-2-Hexenol
Hexanol
Alfa-pineno+ Dipenteno
2-feniletanol
D-Limoneno
Alcohol Bencilico
Gamma terpineno
2-isopropil-3-metoxipirazina
Nonanal
E-ox.limon+1-fenil-2-propanol
S y R Citronelal
4-terpineol
2-isobutil-3-metoxipirazina
R-mirtenol
Octanoato de etilo
Nerol
S-mirtanol
Geraniol+Ac linalilo
Citral
Wiskey-Lactona
Carvacrol
Eugenol
Damascenona
Caprato de etilo
alfa ionona
Gamma decanolactona
Beta ionona
S-nerolidol
Laureato de etilo+deltaundecanolactona
Delta dodecanolactona
Metodología estadística de tratamientos de datos
El procedimiento utiliza una red probabilística neural (PNN) para clasificar variedades,
basándose en 31 variables de entrada. De los 322 casos en el conjunto de entrenamiento,
100,0% fueron clasificados correctamente por la red.
Se utilizó como parámetro de espaciamiento el vecino más cercano.
La tabla 2 muestra los resultados del conjunto de entrenamiento al utilizar la red neuronal
entrenada para clasificar observaciones. Entre los 322 casos usados para entrenar al modelo,
100,0% fueron clasificados correctamente.
La tabla 3 de clasificación muestra el número de observaciones necesarias para lograr una
prediccion del 100%.
A partir de dicha red neuronal entrenada se predijeron los 25 vinos comerciales.
Resultados
Tabla 2: Resultados del conjunto de entrenamiento para clasificar observaciones
VARIEDAD
CEREZA
CHARDONNAY
SAUVIGNON
TORRONTES
Total
Miembros
66
126
80
50
322
Porcentaje Correctamente
Clasificado
100,0
100,0
100,0
100,0
100,0
Tabla 3: Observaciones necesarias para la predicción
Actual
VARIEDAD
CEREZA
Tamaño
de Grupo
66
CHARDONNAY
126
SAUVIGNON
80
TORRONTES
50
Predicción para
CEREZA
66
(100,00%)
0
( 0,00%)
0
( 0,00%)
0
( 0,00%)
CHARDONNAY
0
( 0,00%)
126
(100,00%)
0
( 0,00%)
0
( 0,00%)
SAUVIGNON
0
( 0,00%)
0
( 0,00%)
80
(100,00%)
0
( 0,00%)
Porcentaje de casos de entrenamiento correctamente clasificados: 100,00%
En la figura 4 se muestra el diagrama de red obtenido
C ap a d e cap tu r a
C ap a d e p atr ó n
C a p a d e s u m a t o r ia
C a p a d e s a lid a
( 1 0 v a r ia b le s )
(322 cas o s )
(4 n e u r o n as )
(4 g r u p o s )
Figura 4: Diagrama de red
TORRONTES
0
( 0,00%)
0
( 0,00%)
0
( 0,00%)
50
(100,00%)
El 100 % de las muestras de vinos microvinificados clasificaron correctamente según la
hipótesis planteada respecto a la variedad de origen.
De las muestras de vinos comerciales el 90 % clasificaron correctamente según la variedad
declarada en sus etiquetas.
Contrastación del Modelo de Predicción de Redes Neuronales Artificiales con el de
Análisis Discriminante
Los resultados obtenidos mediante redes neuronales fueron contrastados con el sistema de
predicción obtenido a través de análisis discriminante. En este estudio se obtuvieron 28
variables con capacidad de discriminación. Las mismas fueron: Maleato de dietilo,
Dodecanol, D-Limoneno, Cineol, Citronelol, Citral, Acetato de butilo, Acetato de isobutilo,
Alfa
ionona,
Alfa
pineno,
Alcohol
Bencílico,
Carvacrol,
Damascenona,
Deltadodecanolactona,Deltaundecano-lactona,2-iso-butil-3-metoxi-pirazina,2-isopropil-3metoxi-pirazina,Gamma-butirolactona,Gamma-decano-lactona, Gamma-terpineno, Geraniol,
Hexanol, Linalol, p-anisaldheido, Transanetol, Wiskey-Lactona, Z-cinamaldehído, y Z-óxido
de limoneno. Según este estudio el 100 % de las muestras de vinos microvinificados
clasificaron correctamente según la hipótesis planteada respecto a la variedad de origen. De
las muestras de vinos comerciales el 90 % clasificaron correctamente según la variedad
declarada en sus etiquetas.
El gráfico 1 muestra la clasificación varietal mediante las funciones discriminantes por
componentes individuales.
Plot of Discriminant Functions
72
VARIEDADES
CEREZA
CHARDONNAY
SAUVIGNON
TORRONTES
Centroids
Function 2
52
32
12
-8
-28
-40
0
40
80
120
Function 1
Gráfico 1: Funciones discriminantes respecto de la clasificación varietal por componentes individuales.
Se han obtenido por ambos métodos de clasificación y predicción estadística los mismos
resultados.
Conclusión
Se concluye que es posible predecir la autenticidad de la procedencia varietal declarada en
las etiquetas de vinos blancos comerciales independientemente de su calidad, mediante el
análisis del perfil aromático por cromatografía gaseosa y el empleo de un modelo estadístico
de predicción (Redes Neuronales Artificiales) contrastado con un banco de vinos de variedad
indudable.
Referencias
1.
Rapp, A.: Volatile flavour of wine: Correlation between instrumental analysis and sensory perception.
Nahrung, 42 pp. 351a 363. (1998)
2.
Rapp, A., y Mandery, H.: Wine aroma. Esperientia, 42 pp. 873 a 884. (1986)
3.
Guadagni, D.G., Buttery, R. G. y Okano, S.: Odour thresholds of some organic compounds associated
with flavours. J. Sci. Food Agric., 14 pp. 761 a 765. (1963)
4.
Instituto Nacional de Vitivinicultura. República Argentina. Resolución Nº C.20 -2004.
5.
Gunata, Y.Z., Bayonove, C.L.,Baumes,R.L.,Cordonnier, E.: Stability of free and boundfractions of aroma
components of grapes c.v. Muscat during the wine processing: preliminary results. Am. J. Eno. Vitic., 3 7 ( 1 9 8 6)
6.
Uriel, E.: “Data Analysis: Temporary Series and Multivariate Analysis”; AC Ed. (1995)
7.
Douglas G. A., J Martin B.: “Comparing several groups using Analysis of variance” BMJ; 312 pp. 1472 a
1473. (1996)
8.
Martínez C. “Estudio de parámetros alternativos como indicadores del envejecimiento y de la calidad del
brandy de Jerez” Tesis Doctoral. Departamento de Química Analítica. Facultad de Ciencias. Universidad de Cádiz