Download Procedimientos para el Pareo de Bases de Datos.pub

Document related concepts
no text concepts found
Transcript
Volume 1, Issue 1
Enero 2013
Pareo de Bases de Datos
Registro de Cáncer
Informa
REGISTRO CENTRAL DE CANCER
El siguiente boletín se realizó con el propósito de orientar a los
investigadores sobre una de las opciones de colaboración que el
Registro de Cáncer ofrece a la comunidad académica, instituciones
y proyectos de investigación que recopilan información y las
mantienen en bases de datos. Con esto nos referimos a la
comparación de información mediante el pareo de bases de datos.
El Registro recopila información de incidencia (casos nuevos) y
mortalidad (muertes) de cáncer a nivel poblacional, lo que le
permitiría a los investigadores evaluar co-morbilidades. En el
pasado el Registro ha participado en colaboraciones de este tipo
con el Recinto de Ciencias Medicas (Escuela de Medicina, Escuela
de Enfermería, Escuela de Salud Publica), Programa de Vigilancia
de VIH del Departamento de Salud, entre otros, donde se realizaron
pareos muy efectivos y beneficiosos para ambas instituciones.
Para el Registro de Cáncer este tipo de colaboración es beneficiosa
por muchas razones entre ellas porque sirve como mecanismo de
diseminación de la información de cáncer a la comunidad, además
de que sirve como mecanismo para mejorar la base de datos del
propio Registro.
El pareo de bases de datos en el registro se hace bajo procedimientos de alta confidencialidad y mediante acuerdos de colaboración
entre ambas partes. En este acuerdo de colaboración, que
usualmente se hace previo al pareo de las bases, se definen los
procesos del pareo, de la confidencialidad de la información que se
está manejando y los acuerdos para la publicación de información
en carteles y publicaciones científicas.
¿Cómo se realiza el pareo de las bases e datos?
Para realizar el pareo, el Registro de Cáncer cuenta con un programa llamado Link Plus. LinkPlus
es un programa que permite el pareo probabilístico de bases de datos. El mismo fue desarrollado
por CDC y es apoyado por NPCR (National Program of Cancer Registries).
Link Plus es una herramienta de fácil manejo que permite detectar duplicados en la base de datos
del Registro y permite parear la base de datos del Registro con una base de datos externa. en el
cual se colocan unos parámetros de comparación y se le va asignando un peso probabilístico a cada
una de los parámetros. Al compara las bases de datos se asigna una puntuación a todos los casos
que lograron ser pareados. El sistema de puntos se puede dividir de la siguiente forma:
•
Un puntaje alto significa que hay mayor probabilidad de que los casos sean iguales en ambas
bases de datos. O sea, que las personas comparadas sean las mismas.
•
Un puntaje bajo significa que hay pocas probabilidades de que los casos sean iguales en ambas
bases de datos. O sea, que las personas comparadas no son las mismas.
•
Un puntaje intermedio significa que hay que verificar los casos, manualmente, para determinar
si los casos comparados son iguales o no. Esta es la parte que consume más tiempo ya que se
verifican todos los parámetros o toda la información disponible para determinar si estos casos
se marcan como compatibles o no.
Al finalizar la revisión de los casos y de determinar los casos que son compatibles se procede a exportar los casos para obtener la base de datos comparativa final. Es esta base de datos final la que
se le entrega a los investigadores, usualmente encriptada para la protección de la información confidencial.
Preparación de las bases de datos
Para poder realizar el pareo el programa requiere que las bases de datos sigan un formato en específico. Por eso es bien importante que se realice una verificación y limpieza de las bases antes de
compararlas. Uno de los procedimientos iniciales sería identificar los casos duplicados y eliminarlos de la base de datos a comparar (puede ser copia de la base original). Adicional a esto se necesita organizar unas variables en formatos específicos que le vamos a describir a continuación.
•
Variable de Nombres: Se solicita que sea el primero nombre, que estén en letras mayúsculas,
sin espacio, sin acentos, sin ñ y sin otros símbolos. Los segundos nombres se pueden colocar en
una variable aparte con las mismas especificaciones.
•
Variable de Apellidos: Se solicita que ambos apellidos esté en la misma columna separados
únicamente por un guión. También se prefieren en letras mayúsculas, sin acentos y sin otros
símbolos. Un ejemplo de este formato es: FERNANDEZ-NUNEZ
•
Variable Sexo: Se prefiere que sea una variable numérica donde 1 = Hombre y 2 = Mujer. En
esta variable es bien importante que la información concuerde con el sexo del participante para
obtener mejores resultados. Ejm: JUAN con sexo= 1 y no JUAN con sexo=2.
Page 2
REGISTRO DE CÁNCER INFORMA
Preparación de la base de datos (cont.)
•
Variable Fecha de Nacimiento: La fecha de nacimiento, al igual que las fechas en general, se
prefieren en el formato de Año Mes Día pero sin espacios ni símbolos de por medio. Ejm:
19820503. En el caso de que se tenga parte de la fecha desconocida se prefiere que la misma
sea dejada en blanco (pero siguiendo el mismo formato). Un ejemplo seria cuando solamente se
conoce el año; en ese caso se coloca la variable así: 1985 solita. En el caso de que se desconosca el mes
•
Variable de Seguro Social: Esta variable se solicita para poder identificar a los casos y determinar si son la misma persona. El Registro de Cáncer es considerado una Autoridad de Salud
Pública por lo que sigue la ley HIPAA y por eso se realizan los acuerdos de confidencialidad y
de protección de la información. Esta variable le da mas peso en la evaluación de los casos. Esta variable se necesita en formato de texto y que contenga 9 dígitos (los ceros están permitidos
si aplican al Seguro Social). No se permiten los guiones en esta variable el formato adecuado
seria 010101010. En caso de que la información este desconocida se prefiere que se llene el
campo utilizando el numero 9; Ejm:999999999. En caso de que solo se conozcan los últimos 4
dígitos se prefiere que se coloquen solo esos últimos 4 números; Ejm: 1234.
•
Variables de Municipio y Dirección: La variable de municipio o dirección no se utiliza en el
sistema de puntuación probabilística, sin embargo es una variable importante cuando se va a
determinar si las personas son iguales o no. Para esta variable se prefiere que sea el Municipio
y/o dirección de residencia y que estén en letras mayúsculas y sin símbolos como puntos, comas, guiones.
•
Otras variables: Otras variables podrían ser solicitadas (ejm: diagnostico, tratamiento) dependiendo del tipo de investigación que los investigadores requieran para su proyecto. En estos casos los parámetros podrán ser discutidos con los investigadores según sean solicitados.
Una vez esté lista la base de datos para la comparación, utilizando los formatos anteriores, se prefiere que la misma esté en formato de Excel; que cada una de las columnas contenga la información de las variables y que en las filas se encuentren los casos o personas.
Para mayor información
Para consultas sobre los procedimientos del pareo se pueden comunicar al Registro Central de Cáncer a los
siguientes teléfonos:
Nombre del Contacto
Puesto
Teléfono
Srta. Karen Ortiz
Coordinadora de Programa
787-772-8300 ext. 1127
Sra. Naydi Pérez
Coordinadora Unidad de Analisis
787-772-8300 ext. 1112
Sr. Carlos Torres
Bioestadistico
787-772-8300 ext. 1234
Colaboradora/Registradora de Tumores
787-772-8300 ext. 1130
Srta. Maricarmen Traverso
VOLUME 1, ISSUE 1
Page 3