¿Por qué Antonio Meucci?
Yolima Andrea Díaz Chaparro

Editorial

Aseguramiento de la Calidad en la Información Estadística Un estudio de caso
Ernesto Rojas Morales

Reflexiones Sobre los Fundamentos de los Indicadores
Jesús Romo y García

Las Actividades del Instituto Nacional de Estadística de España en el Marco del Sistema Estadístico Internacional
Antonio Martínez Serrano

Propuesta de Creación de una Red de Transmisión del Conocimiento Para la Formación en Estadística Oficial en América Latina y el Caribe
Angela Vivas Martínez

Los Esquemas Internacionales Dentro de la Estrategia del Candane Para la Implementación y Desarrollo de la Certificación de la Calidad de la Información Básica
Diego Raúl Barrios Lequerica

El proceso de certificación del sector transporte
Comisión de Expertos Independientes

La importancia de la Calidad de la Información
Jesús Domingo Aleixandre, miembro de la CEI evaluadora del subsector Transporte.

Informe de Evaluación del IPC-98 e IPP
Comisión de expertos independientes

Las Caras de la Moneda
Entrevistas a Mauricio Cárdenas y Hernando Torres Corredor

El Sistema Colombiano de Difusión de Información Básica Colombiestad
Carolina Gutiérrez Hernández

Calidad Estadística en el Contexto
Bernardo García Guerrero

Evaluación de Calidad de los Datos Estadísticos
Nicolás Dib David

El enfoque costo-calidad para el mejoramiento del proceso de producción estadística
Eduardo Libreros Dávila

Prensa-Libros
Jorge Eduardo Estrada Villegas

Cine Tecnología y Sociedad
Yolima Andrea Díaz Chaparro

Sudoku
Pedro José Fernández Ayala

Separata

Pascal Rivière, INSEE
Director del servicio de armonización de
encuestas a empresas Courrier des statistiques, junio 2003 Traducido del francés por Eduardo Libreros Dávila

Resumen

La elaboración de estadísticas, bien sea mediante encuestas o a partir de registros administrativos, constituye un proceso más complejo de lo que generalmente se piensa. En ella no solamente se invierte un tiempo considerable sino que da pie a interrogantes de interpretación. De ahí se deriva un arbitraje costo-calidad cuyas consecuencias sobre los plazos de publicación no son despreciables. ¿Cómo racionalizar este proceso? Cómo procurarse una ingeniería de la cifra? Para lograrlo es necesario tener visión de conjunto del proceso de elaboración, de sus costos y adoptar un procedimiento de calidad para tener mayor control sobre las decisiones. Este artículo expone los principios generales. En el próximo se tratará, de manera más práctica, el enfoque de calidad, en particular la generación de indicadores de calidad y de costo de la producción.

Abstract

The compilation of statistics, either from surveys or from administrative sources, is much more complex than what is commonly thought. This activity engages enormous amounts of working time and generates, permanently, questions of interpretative nature. This brings about an arbitrage cost-quality that has non-negligible consequences on publication delays.How to develop an engineering of data? To get there we need an overall view of the production process, a good knowledge of the costs at different stages and to adopt a quality control procedure to ensure an improved decision making system. This article, the second of this author published by IB, presents this cost-quality approach in general terms. A third and final one will follow and will present on more practical terms the productions of quality and cost indicators.

Un INE es, entre otras cosas, algo así como una enorme fábrica de producción de cifras. Ciertamente el término “producción” no tiene, necesariamente, buena acogida entre los estadísticos: de una parte porque la referencia parece ser bastante obvia y, de otra, porque las cuestiones importantes se ubican a priori un poco más allá, una vez las cifras se han producido: estimación, pruebas, problemas de inferencia estadística, estudios… Pero quiérase o no, es evidente que los estadísticos “producen”. En la vida real del INSEE, son las direcciones regionales las que tienen el conocimiento de ese oficio, de esta habilidad. Los marcos conceptuales sobre el particular son escasos. Debe decirse que esto no es evidente: cuando se trata de bienes materiales, se puede imaginar, aun con imperfecciones, cual es el alcance de los procedimientos de fabricación, de ensamblaje, de ajuste, de terminado. En estadística se trabaja con información, material que se pule, se transforma. Pero, en qué consiste exactamente la producción? A primera vista todo puede parecer muy simple: se recogen los datos individuales, gracias a las encuestas o a fuentes administrativas, y lo único que queda por hacer es obtener las estadísticas; agregar los conjuntos.

Para una mejor compresión, hay que analizar el proceso de producción asociado. En general se le puede caracterizar por una serie de tareas escalonadas en el tiempo, por los productos que entran y salen, los recursos, las restricciones y los costos. La dificultad radica en racionalizar todo el conjunto. En efecto, la calidad de un sistema radica en su capacidad de satisfacer un cierto número de necesidades. Se buscará, permanentemente, en el seno de los diferentes sub-procesos, el establecimiento de un buen balance entre costo y calidad.

¿En qué consiste el proceso de producción estadística?

En este artículo, se parte de una definición de la producción que puede considerarse restringida: nos limitaremos a los procesos que se inician con datos individuales1, se dejará de lado la etapa final de tabulación, difícil de formalizar, que se considera como un elemento móvil entre la producción y los resultados. El proceso de producción estadística, así considerado, es relativamente lineal, pero su naturaleza puede variar según los tipos de operación: censo, encuestas a hogares, índices de precios, tratamiento de fuentes administrativas.

Dónde comienza y dónde termina la producción? Aunque esta pregunta no evoca una respuesta predeterminada, es útil y pertinente establecer los límites prácticos. Así, en el caso de las encuestas a hogares, o a las empresas, la producción se inicia con la conformación de la muestra y la puesta en operación de la recolección. En efecto, en este momento el responsable de la producción no está ya, en principio, en condiciones de interrogarse sobre el interés de la encuesta; o la validez de los conceptos; o sobre la finalidad de las estadísticas que se van a obtener: Es necesario que, en uno u otro momento, todos estos aspectos se hayan establecido de manera definitiva. Para el responsable es cuestión de organizar de la manera más acertada posible el encadenamiento de las diferentes etapas, pero no de poner en tela de juicio el “fondo” (el campo de aplicación y el cuestionario) ya establecido. De igual manera, la fase de producción se termina cuando se inicia la fase de estudio. Desde luego la frontera que se establece entre estas dos fases es móvil y dinámica. Por lo tanto es frecuente que los primeros análisis de los datos identifiquen errores en los datos, lo cual nos lleva de nuevo a la fase de producción. Al final, el resultado de la producción es una base de datos individualizados, que incluye, para cada unidad estadística encuestada (hogares, empresas, etc.), todos los datos recogidos, procesados y validados. Esta constituye la base de datos que será empleada para toda una serie de tabulaciones (intermedias y finales), y luego por los analistas responsables de los estudios. A grandes rasgos se tiene, en una encuesta estadística, una fase de reflexión fundamental (sobre la oportunidad, los objetivos de la operación, la manera de formular las preguntas, etc.), una fase de producción, luego una fase de estudios y de publicación. Aunque sean las mismas personas las encargadas de esas tres dimensiones, no por ello deja de ser cierto que estamos frente a tres mundos diferentes.

Volvamos a la producción. En la producción estadística general se pueden distinguir varias etapas. En primer lugar la conformación de los listados de las unidades estadísticas sobre las cuales se pretende recoger la información. Después viene el perfeccionamiento del soporte de la entrevista y la preparación de la recolección (cómo organizarse para recuperar los datos?). Después de la recolección y de la captura (en el caso de que los datos se hayan recogido en papel), vienen algunos tratamientos sistemáticos elementales: estandarización de los datos (darles el formato y transformarlos), codificación automática de nombres de variables y de categorías. Seguirán los controles de coherencia, también automatizados, seguidos de algunas verificaciones manuales que utilizan muchos recursos. Terminada esta fase de depuración y verificación, se podrá pasar a los tratamientos automáticos finales: tratamiento de la no-respuesta, diversos controles e imputaciones, tabulaciones elementales.

A continuación trataremos de profundizar estos procesos según los diferentes tipos de operaciones que efectúa el INSEE. Simplificando, en cierta forma, se puede considerar que el proceso de fabricación asegura la elaboración de una matriz: en las filas, las unidades estadísticas (individuos, hogares, empresas, establecimientos, productos de consumo), en las columnas, la información recogida en forma de “variables” (por ejemplo, edad, ingreso, volumen de ventas, personal asalariado, precio). Podría agregarse una tercera dimensión: el tiempo.

El listado de las unidades estadísticas observadas

Sabemos que esto se hace en dos etapas: construcción de la base muestral2 y la selección de la muestra. Para el metodólogo, toda la dificultad reside en el plan de muestreo, que debe llevar a una muestra dotada de buenas cualidades estadísticas. La base muestral (o la población de referencia cuando no hay muestra) trae consigo los problemas del marco que se va a utilizar, de su gestión…y de su calidad. Por esta razón aquí se concentran costos importantes (aunque estamos en el campo de los marcos de referencia y no en el de la producción estadística en sentido estricto). La selección de la muestra presenta en gran parte cuestiones metodológicas, de naturaleza más formal y, en consecuencia, menos costosa que no vamos a tratar aquí.

En el caso de las encuestas a las empresas (o de fuentes administrativas sobre las empresas) el listado SIRENE constituye el marco de referencia. Este listado conduce por sí mismo, se ha visto, a toda la problemática de su producción, ligada con la forma de mantenerlo actualizado, en primer término con relación a los “eventos” (creaciones y disoluciones por ejemplo) registrados en los centros de trámite de las empresas y que constituyen flujos permanentes. A partir de las informaciones que figuran en SIRENE (principal actividad desarrollada, personal asalariado, región,…) se define el marco de la encuesta a las empresas. El tratamiento de un registro administrativo sobre las empresas se somete, igualmente, a la definición de un marco que determine los linderos de la investigación.

Para la mayor parte de las encuestas a los hogares, la base muestral es la muestra maestra, construida con base en un censo (de viviendas)3 y en una sucesión de niveles geográficos: selección de unidades primarias (unidades urbanas y cantones rurales), selección de comunas, selección de distritos en las comunas de má de 2.000 habitantes y, finalmente, selección de viviendas. Se agregan las viviendas nuevas, se retiran las viviendas ya interrogadas. Todo esto trae consigo otros problemas de gestión de la base muestral, tanto a niveles mayores (el de la comuna), como a niveles inferiores a este: el marco de referencia de las viviendas (listado de inmuebles posicionados, la base muestral de las nuevas viviendas) y el marco de referencia geográfico. Los dos son fundamentales para el censo, el cual, al integrarse sobre estas delimitaciones geográficas imbricadas, tiene por sí mismo la vocación de ser generador de bases muestrales.

En el caso del índice de precios al consumidor, se llega al mismo tiempo a la lista de las unidades estadísticas observadas y al soporte de la entrevista. En efecto, se parte de una muestra de “variedades” (algo como categorías de productos) y sobre esta base se constituyen conjuntos de tres dimensiones [variedad, forma de venta4, localidad]; por ejemplo yogurt natural, supermercado, Clermont-Ferrand, lo cual hace más concreta la organización efectiva de las observaciones; de la lista, las direcciones regionales van a deducir, de manera aún más operacional, listas de dos dimensiones [producto5, punto de venta]. Así se obtienen, a la vez, los sitios de recolección y las observaciones de precios que se deben hacer.

Con esta diversidad de ejemplos, se percibe el enorme trabajo que el montaje de la base muestral requiere y que es indispensable para la calidad del producto: la solidez de esta población de referencia es un prerrequisito de alto costo, sin el cual es mucho más costoso tratar de obtener estadísticas precisas. Tanto la administración que hace el INSEE de los repertorios (empresas, personas físicas, marcos geográficos) como el rigor en el establecimiento de las bases maestrales, garantizan el nivel de la calidad.

El soporte de la entrevista

Nuevamente se observa gran cantidad de ejemplos. Hemos visto que el soporte de la entrevista para el índice de precios (el listado de precios) salía de un proceso muy cercano al del establecimiento de las unidades que se debía interrogar (puntos de venta). Se verá que en el caso en que se utilizan las fuentes administrativas, se propone recuperar la información que ya ha sido recogida por las administraciones utilizando formularios ad-hoc (fiscales, sociales, etc).

En cuanto a las encuestas, independientemente de la naturaleza del soporte, hay un trabajo de concepción sobre el contenido de las informaciones que se quiere lograr, sobre la manera de formular las preguntas, de organizarlas, de ordenarlas, etc.

Para las encuestas de hogares, realizadas por entrevista directa, el cuestionario se encuentra en el computador portátil que utiliza el encuestador (procedimiento CAPI, en francés). La elaboración de este cuestionario electrónico6 es el fruto de numerosos intercambios entre los que diseñan la encuesta y los ingenieros de sistemas. Finalmente, no es sino un programa el que permite al encuestador registrar las respuestas, pasar de una pregunta a otra teniendo en cuenta los diferentes filtros y asegurar que los resultados queden almacenados en el formato adecuado en la base de datos. Para cada encuesta existe una aplicación: “formulario electrónico”, que se despliega en la pantalla de los entrevistadores. Hace poco tiempo la recolección de los precios al consumidor también ha sido computarizada7.

Para las encuestas a las empresas, la regla general ha sido la del cuestionario en papel, cuya realización requiere un trabajo especializado que se encarga a los especialistas o en ocasiones se contrata. Las encuestas vía Internet, que aparecen de manera progresiva, constituyen también un instrumento útil de recolección informática, con la diferencia de que no hay necesidad de enviar encuestadores al campo, ni de desplegar los instrumentos en diversos computadores: cada encuestado diligencia el cuestionario entrando al sitio en donde reside la encuesta.

Los cuestionarios del censo, también en papel, son administrados según el método de depósito-retiro: los recolectores los entregan a los hogares y vienen a recogerlos algunos días después.

En un plano conceptual, existen interacciones entre el fondo y la forma. El desarrollo de un formulario electrónico puede estar acompañado de toda una batería de control de inconsistencias, que garantiza la mayor integridad de la información obtenida.

La preparación de la recolección

Si la recolección debe efectuarse mediante encuestadores (censo, encuesta a hogares, toma de precios), uno de los aspectos importantes de la preparación es la organización de las rutas. Con ello se busca optimizar, poco o mucho, el desplazamiento de los encuestadores. Se busca, sobretodo, informarlos de manera tan precisa como sea posible sobre la localización de los hogares o de los puntos de venta que les corresponde visitar. El costo de esta operación es evidentemente proporcional al número total de viviendas o de puntos de venta involucrados. En el caso de un censo, dado el volumen de la operación, se recurre a los “supervisores”, encargados en particular de formar a los encuestadores y de controlar que la recolección sea exhaustiva. Los supervisores mismos se organizan mediante un grupo de administración específico8.

Aunque parezca trivial decirlo, cuando el formulario tiene soporte de papel, hay que imprimirlo. Si se envía por correo (caso casi general de las encuestas a las empresas) debe también ponerse en un sobre, organizar las remesas… todas tareas muy simples en el caso de algunas unidades, pero que adquieren la dimensión industrial cuando se trata de decenas o centenas de miles. En las muestras de gran tamaño y más aún en un censo, esta operación de producción pesada debe programarse con antelación pues el menor granito de arena (dificultades en el mercado de contratación externa, por ejemplo), puede tener un fuerte impacto sobre la fecha de lanzamiento de la recolección, en ocasiones del orden de varios meses.

En el caso de recurrir a fuentes administrativas, aunque pareciera no requerirse, es también necesaria una fase de preparación importante. Se requiere, en efecto, que se concluya un convenio entre el organismo propietario de la información y el INSEE, en el que se acuerdan fechas de entrega, formato de los archivos, su documentación (metadatos)… Tal es el caso de las declaraciones anuales sobre datos sociales9(DADS). El INSEE hace parte de una red de participantes TDS10, para los intercambios con la Caja Nacional de Seguros de Vejez. Otro ejemplo, entre muchos, el convenio entre el INSEE y la Dirección General de Impuestos para el estudio de las declaraciones de impuestos.

La recolección

La recolección propiamente dicha, es decir, enviar los encuestadores al campo y todo el trabajo que éstos realizan, o el envío físico de los formularios para una encuesta por vía postal, también incluye el control de las respuestas: recepción de formularios en papel diligenciados (incluida la lectura de códigos especiales en el caso del censo11) y el teleprocesamiento de las informaciones recibidas en computadores portátiles. En el caso de una encuesta por Internet, es simplemente el desarrollo del sitio y sus accesos. Finalmente, en el caso de utilización de registros administrativos, la recolección se reduce al control y conservación del archivo que la administración en cuestión transmite al INSEE.

La organización de los encuestadores y el seguimiento de los formularios diligenciados (incluso los de no-respuesta o NPAI “no presentes en la dirección indicada”) representan una carga de trabajo no despreciable para las direcciones regionales. Cuando la transmisión se hace por vía electrónica (en particular en el caso de registros administrativos), la carga recae sobre los equipos de producción de los centros de informática, que deben supervisar el buen funcionamiento, el tiempo de respuesta, la integridad de los datos, garantizar el servicio, y anticipar los problemas tan delicados de seguridad. Por lo delicado del tema ya se han establecido procedimientos de calidad en el INSEE.

Tratamientos elementales: captura, integración a las bases de datos, codificación

A medida que los datos llegan, se les debe procesar para que sean legibles y utilizables. Desde luego, deben estar en soporte electrónico. Si se les ha recogido en medio papel, la primera labor que se debe hacer es capturarlos. Esta operación se puede subcontratar o realizarla con personal propio; se puede o no recurrir a métodos de lectura óptica, que economizan bastante tiempo. El hecho concreto es que nada se puede hacer hasta que los datos estén en medio magnético. El costo depende claramente del volumen de información recogida. Puede ser muy elevado, y la actividad debe programarse con buena antelación, sobretodo en el caso de un censo (cuyo costo total se expresa en millones de euros; un negocio muy preciso, que pone en relieve los criterios de calidad de la captura para el contrato entre el INSEE y los terceros).

Supongamos que los datos están en soporte magnético. Estos son aún datos brutos, fruto de la recolección y es necesario integrarlos en una base de datos. La operación posee, evidentemente, una dimensión técnica, pues esta integración no es tan clara, por ejemplo por razones de volumen o por otras. Pero el verdadero problema surge del hecho de que los datos recolectados no corresponden exactamente con los que se difundirán. En este punto se crean las nuevas variables (grupos de edad, contingente asalariado, por ejemplo, o tipo de hogar por el número de personas o por la actividad del jefe del hogar, o aun el cálculo de saldos contables, tales como el valor agregado o el excedente bruto de explotación, realizados a partir de datos elementales recolectados). Las notas que especifican tales remodificaciones son muy frecuentes en el caso de las encuestas de hogares, que por lo general tienen muchas variables. Esta labor se realiza frecuentemente en forma callada, como si fuera exclusivamente técnica, aunque en realidad constituye un aporte de ganancia de información.

La codificación de informaciones en caracteres alfabéticos (profesión, actividad económica, comuna…) puede requerir instrumentos específicos mas sofisticados de codificación automática12 que saben leer una denominación y la traducen en un código. La principal diferencia con la creación de nuevas variables de la que se hablaba en el párrafo precedente es que la operación no es determinista: una proporción importante de denominaciones se van a “resistir”. Todas las denominaciones que no se hayan codificado automáticamente deberán ser objeto de la intervención humana. El comportamiento de la codificación automática se puede controlar jugando con los parámetros del algoritmo de codificación, operación que desempeña un papel importante en los balances costo/calidad.

Los archivos de origen administrativo pueden presentar defectos tanto en la cobertura adecuada del tema como en la identificación de las unidades (empresas, establecimientos, individuos). La detección y corrección de estas deficiencias supone hacer comparaciones con el directorio SIRENE de empresas y establecimientos, o con el directorio nacional de identificación de personas físicas (RNIPP) y aun para ciertos archivos es necesario utilizar estos dos directorios (como en el caso de las declaraciones anuales de datos sociales). Algunos errores no serán corregidos integralmente por métodos automáticos y será necesario acudir a la experticia y al tratamiento manual.

Verificación y corrección

Al término de la etapa anterior, se dispone ya de los datos requeridos, pero su calidad aún no se ha establecido. Es por tanto necesario, en la medida de lo posible, verificar su validez. Es la dimensión semántica de la verificación. Para ello se trata de asegurar la coherencia intrínseca de los datos recogidos o de su coherencia con informaciones externas. Por ejemplo, si se quiere verificar la magnitud de la actividad de una empresa se le compara con la del año precedente, o con la que se encuentra en otra fuente, o se establecerá su relación con una variable del mismo formulario (por ejemplo personal empleado). En el caso de las empresas, en general, a menudo se deberá utilizar la información de fuentes administrativas para asegurar la coherencia de una u otra cifra.

El establecimiento de los controles de coherencia, que se realizarán de manera automática, es una operación larga y difícil, en particular para los datos de las empresas, tal como se desprende del ejemplo que se acaba de citar. Una vez procesadas las unidades estadísticas controladas se dividirán en dos grupos: el de las “dudosas” para las que se considera necesaria una intervención humana adicional y el grupo de las “aceptables”. Pero se debe tener cuidado pues “aceptable” no quiere decir ni “exacto” ni mucho menos “cierto”, simplemente se acepta, tal cual, el conjunto de datos sin más intervención.

En este punto, el elemento crucial es el establecimiento del criterio de optimización para repartir entre “aceptables” y “dudosos”. Si se aceptan muchos casos sin verificación manual, se asumen riesgos en términos de calidad. De otra parte, si el control automático es muy sensible (quisquilloso), se tendrá demasiada verificación manual y, por lo tanto, mayor costo y mayor retardo en la publicación. En la práctica este problema, que recuerda el relacionado con la codificación de denominaciones alfabéticas, es común a todo el conjunto de operaciones estadísticas. Las decisiones, cuyo impacto puede ser considerable en términos de costo13, serán función del nivel de error o de la incertidumbre que se considere aceptable, pero muy especialmente de la influencia que estos errores o esta incertidumbre tengan sobre las estadísticas finales. Aquí surge la necesidad de arbitrar entre costo y calidad.

Realizada la separación, los datos inciertos de las unidades dudosas serán verificados, por las personas autorizadas, a través de un instrumento específico. Cada verificación será resuelta al confirmar el dato cuestionado o al modificarlo… si es posible determinar un valor mejor. En la práctica, el cargo de responsable de verificación incluye también la administración de la recolección, la revisión de las categorías no codificadas (cuando ha habido una codificación automática previa) y la recuperación de un cierto número de datos faltantes (que al fin de cuentas no son sino datos no aceptables de un tipo particular)14. Todas las operaciones estadísticas se instrumentan en esta forma, incluyendo las encuestas a hogares, aun si éstas se benefician de los primeros controles incorporados previamente en el diligenciamiento del cuestionario.

Tratamientos finales

Qué tenemos al finalizar la etapa anterior? Se ha hecho lo máximo en términos de intervención humana, ampliando las operaciones automatizadas de control y corrección. Como ya no se dispone de tiempo ni de medios para ir más allá, todo lo que resta deberá hacerse por medios automatizados.

Lo primero será “tapar los huecos”: no-respuestas parciales aún sin ajustar15, y sobretodo la no-respuesta global. Se codificarán igualmente los nombres que han resistido a las tentativas previas de codificación, esta vez en forma brutal, por ejemplo por métodos aleatorios. En igual forma será necesario tomar decisiones poco ortodoxas en relación con las unidades aún “dudosas” que no han podido ser revisadas manualmente: se les deja como están (lo que equivale a confirmarlas) o se reemplaza la información dudosa por datos imputados.

Parecería que el asunto está concluido al término de estas últimas operaciones de limpieza. Disponemos de una base de datos bastante completa y ha llegado el momento de lanzarse plenamente en los estudios estadísticos. Aunque, en realidad… no del todo. En realidad, será necesario efectuar una serie de tabulaciones de prueba y comparar los resultados globales así obtenidos con estadísticas existentes que hayan sido debidamente validadas. Será un control de consistencia global, no individual sino agregado: lo que se denomina macrocontrol. Y para sorpresa, se descubren, en la mayoría de los casos, varias incoherencias, que pondrán en relieve toda una serie de errores residuales sobre los datos individuales que no habían sido hasta ahora detectados. En este momento, se hace marcha atrás en el proceso, pues se hacen indispensables algunas verificaciones manuales para asegurar la calidad de las estadísticas. Por consiguiente existe un ciclo macrocontrol / verificación individual / macrocontrol, que marcará, ahora sí, la finalización de la producción. Dicho esto, resaltemos que la cronología propuesta, que termina con los “tratamientos finales”, no debe ser tan taxativa. Por ello, en la práctica aparece como importante iniciar los macrocontroles lo más pronto posible, de tal manera que se pueda identificar en dónde van a aparecer los problemas, aunque a menudo se llevan a cabo al final, cuando ya son menos eficaces. Estos macrocontroles, su nivel de fineza y las estadísticas sobre los cuales se soportan, son elementos clave en el control global de la producción. En el marco de esta actividad se pule la calidad estadística del resultado del proceso de producción estadística.

Hasta aquí hemos tratado de delimitar el concepto de proceso de producción estadística con todos sus componentes y todas sus etapas. Este repaso es un antecedente indispensable para poder evidenciar cuales son los márgenes de maniobra dadas las restricciones de costos.

Ciertamente, es necesario ponerse de acuerdo sobre la calidad estadística y sobre la forma en que se puede evaluar.

El error, característica inherente a toda producción estadística

Todo el trabajo consiste en transformar la materia prima de la información, una “piedra bruta”, en un material apto para la producción de estadísticas y la realización de estudios. Por qué esta transformación, en fin de cuentas? Esencialmente porque nuestra piedra bruta presenta todos los defectos posibles e imaginables: errores, incoherencias, datos faltantes, no respuesta total, unidades que no pertenecen al dominio analizado, etc. Estamos enfrentados a una materia rugosa, burda, llena de huecos y asperezas y que no se acomoda fácilmente en los formatos a los que queremos someterla: es la naturaleza misma, nos está dada, no podemos quejarnos. Las etapas de la transformación misma pueden introducir nuevos errores, de captura, de codificación, de depuración, que vienen a sumarse a las incertidumbres probabilísticas “controladas” que trae consigo el proceso de muestreo, de imputación o de reponderación.

Por lo tanto, en estadística el defecto forma parte integrante, en todo momento, del material que procesamos y de todas las fases de su transformación. En estas condiciones, no perdamos de vista que los estadísticos no publican los conjuntos de datos individuales (microdatos), sino resultados agregados, en los cuales se puede claramente admitir un grado de incertidumbre. No estamos en el marco de las producciones industriales en donde se busca eliminar los productos defectuosos (en este contexto las unidades estadísticas): el producto estadístico, que no es más que un agregado de datos individuales imperfectos, se caracteriza por un cierto grado de incertidumbre.

Por eso en estadística el “cero defectos” no existe ni tiene sentido. Pretender lo contrario sería equivalente a suponer que todo defecto es corregible, y que por tanto es posible recuperar para cada dato su valor “verdadero”. Pero, en la práctica, el responsable de corregir las incoherencias no dispone de medio alguno para acceder a este valor supuestamente “verdadero”. En realidad, todas las fuentes a las cuales puede recurrir (otras bases de datos, periódicos especializados, etc.) es posible que presenten anomalías. Además, las definiciones varían a menudo de una fuente a otra, lo cual hace las cosas más difíciles. Se argumentará aquí que siempre es posible, al menos en el caso de una encuesta, llamar directamente al informante, quien es el primer involucrado. Pero si se quiere garantizar que el personal asalariado de una entidad se expresa en el volumen equivalente de trabajo de tiempo completo, es posible que se responda que no, que ese dato no estaba disponible y que, en su lugar, figura el empleo bruto a final del año. En este caso especial, el dato recogido es en sí lo más exacto que hay: pero simplemente no corresponde con la información solicitada.

El error es consustancial a las importantes masas de datos que manejamos: no se le puede borrar. Toda la ciencia de la producción estadística debe ser el controlar el error; confinarlo en límites razonables, pero no eliminarlo. De hecho, la proporción de datos erróneos no es un indicador de calidad para la ingeniería estadística, aunque sí lo es, por ejemplo, en la producción de marcos de referencia. Todo esto nos lleva a interrogarnos sobre el concepto de calidad.

Componentes de la calidad en la producción estadística

Recordemos, para comenzar, la definición de la Organización Internacional para la Estandarización (ISO): La norma ISO 8402 define la calidad en general como: “el conjunto de propiedades y características de un producto o de un servicio que le confieren la aptitud de satisfacer las necesidades explícitas e implícitas”. Así, se subraya que en materia de calidad es necesario observar permanentemente las necesidades y, por lo tanto, en el caso de un proceso a sus diferentes productos. Ilustrativo.

EUROSTAT ha definido los criterios relativos a la calidad de las estadísticas. Son seis: pertinencia, precisión, rezago, accesibilidad/claridad, coherencia, comparabilidad17. Pero recordemos que adoptamos un punto de vista particular18, el de la producción estadística que habíamos propuesto al principio.

En este caso, la pertinencia se encuentra antes de la producción: en el momento en que esta última se inicia es normalmente muy tarde para interrogarse sobre el interés que revisten las informaciones que se pretende recoger. Los problemas de comparabilidad (que se expresan en términos del campo cubierto y de nomenclatura de referencia) preceden también a la producción. Inversamente, la accesibilidad y la claridad aparecen una vez se ha terminado la producción, cuando se trata de confeccionar tablas, cuadros, gráficos, estudios, y de organizar la difusión.

En total no quedan sino tres criterios: precisión, coherencia y rezagos. Resulta claro que en un proceso dado se oponen dos categorías. En efecto, en la medida en que se utilice más tiempo trabajando con los datos, se mejora su precisión y su coherencia19: es cierto que se pierde frescura pero se gana confiabilidad. Desde luego lo inverso también es cierto: si se quiere proceder con rapidez y, por tanto, se pasa poco tiempo en depurar los datos, se corre el riesgo de dejar pasar a través de la red errores graves, y la precisión y la coherencia quedarán alteradas.

En forma general, si se define la confiabilidad como el conjunto de precisión y coherencia, la producción confronta un arbitraje entre rezagos y confiabilidad o, dicho de otra manera, entre costo y confiabilidad. Si en la realidad el costo no es una componente de la calidad (no se dirá que un automóvil es mejor porque sea más o menos caro, pero en cambio se hablará de la relación calidad/precio). Los rezagos y los costos están muy relacionados: en condiciones de recolección similares, con volúmenes iguales de información recolectada y tratada, una encuesta será más costosa si emplea más tiempo en verificación y depuración de datos, y más largos serán los rezagos para su publicación. Así, la particularidad de la producción estadística es que el costo interviene directamente en la calidad, vía el criterio de “rezagos”. El problema de la reducción de costos, o de su control, no es solamente un asunto de gestión, de repartición adecuada de recursos. Debe también considerar el punto de vista de la calidad de lo que producimos.

Esto no es todo. Como la calidad es la aptitud de satisfacer necesidades, se debe recordar que un proceso de producción estadística tiene una vocación de producción de estadísticas, pero a él pueden agregarse objetivos conexos. Por ejemplo, la encuesta de presupuestos familiares es indispensable para preparar las muestras de las variedades de productos que servirán de base para el establecimiento del índice de precios. La encuesta de arrendamientos y servicios domiciliarios, aporta elementos de información que también intervienen en el cálculo del índice. Las encuestas anuales a las empresas se utilizan para actualizar la actividad principal que se ejerce a nivel de la totalidad de la empresa (APEN) en el directorio SIRENE. Existen múltiples ejemplos que evidencian las numerosas interconexiones entre los procesos de producción, para los cuales el enfoque de calidad no puede independizarse.

Los costos

La producción estadística es una operación costosa, tanto en términos de las cargas de trabajo como de los recursos financieros empleados. La evaluación de los costos permite ver en qué fases se concentran los trabajos que más utilizan recursos y conduce, de paso, a interrogarse sobre el interés y el sentido mismo de esos trabajos. Esta evaluación debe realizarse en paralelo con la evaluación de la calidad si se quieren establecer los arbitrajes.
Cuáles son estos costos? Sin pretender ser exhaustivos, pues el tema es muy amplio, se puede establecer un primer listado referido al flujo de la producción estadística que describimos en la primera parte de este artículo, haciendo la distinción entre dos tipos de costos: de una parte, los costos que son proporcionales al tamaño de la muestra y de otra, aquellos que son independientes del tamaño de la muestra. Siguiendo la literatura sobre gerencia de la producción20, los costos del primer tipo se denominarán “costos variables” y los del segundo tipo “costos fijos”. Estos últimos están conformados principalmente por los costos de concepción de la investigación. Incluyen la dimensión metodológica (para el diseño del soporte de la entrevista, la conformación de listados, la recodificación de datos21, la codificación de categorías, el control, la depuración el tratamiento de datos faltantes, los macrocontroles, la estimación, el cálculo de varianzas) , la dimensión informática (comportamiento del proyecto, arquitectura técnica, preparación de los instrumentos requeridos para el correcto desarrollo del conjunto), la dimensión organizacional (organización del trabajo, principalmente en las direcciones regionales y organización de la producción informática). Los costos iniciales de concepción y desarrollo incluyen los servicios de consultoría (temas de organización, ergonomía, comunicación, apoyo a la supervisión, etc.) y la adquisición de diferentes materiales, programas de computador o infraestructura. Mirando con detalle, no se debe olvidar que detrás de todos estos gastos está el pesado trabajo de los contratos (principalmente la redacción de pliegos de cargos) y el seguimiento de su ejecución.

A lo largo del proceso aparecen otros costos fijos: costos de administración, de coordinación de supervisión del trabajo del personal de campo22.

Al final del proceso, cuando el trabajo regresa al terreno de los que lo concibieron, aparecen otros costos fijos, determinados por la cantidad de información que se quiera publicar (que no depende del número de unidades estadísticas trabajadas, sino de la cantidad de información recogida para cada una de ellas). Teóricamente, no se trata ya de diseñar métodos sino de aplicarlos. Aquí se incluyen los macrocontroles, la fundamentación, la tabulación y el cálculo de la precisión que preceden a todas las fases de comentarios, publicaciones y estudios.

Entre los costos variables mencionemos en primer lugar los de la recolección: pago de encuestadores, o para las encuestas por correspondencia embalaje, direccionamiento y servicio de correo. Aunque estos aspectos pueden parecer triviales, el simple costo de envío puede ser un problema real, a tal punto que, en ocasiones, puede ser necesario reducir el tamaño de la muestra (lo que ha sucedido en varias encuestas). La organización y el seguimiento para un censo corresponden a la categoría de costos variables, los cuales se reparten sobre el conjunto del territorio tomando como base los supervisores.

Los costos de captura están en la misma categoría, pero debe observarse que no existen cuando la recolección se hace en forma electrónica23: sea por encuestadores equipados con microcomputador portátil o con pizarra electrónica (el encuestador captura e integra este costo en la recolección), sea por formularios en Internet (el entrevistado captura). En la misma manera, los datos de origen administrativo son a menudo proporcionados en soporte electrónico, pero no es siempre el caso. Por ejemplo, parte de los boletines estadísticos del estado civil llegan al INSEE en soporte papel pues no todas las comunas están informatizadas.

El costo de codificación manual es función del número de categorías que no han sido codificadas automáticamente. Es un costo variable asociado al número de unidades estadísticas consideradas; al número de categorías recogidas para cada una y a la tasa de falla de la codificación automática. Este “eliminación de casos sin codificar” (nombre de profesiones, de diplomas…, identificación de personas físicas o jurídicas) representa un costo importante pues la determinación del código correcto supone frecuentemente gran pericia.

Igualmente, todo el trabajo de verificación-depuración constituye un costo variable, función esta vez del tamaño de la muestra y de la proporción de unidades “no aceptables”, que no se pueden incorporar en esa forma a la base de datos y que requieren la intervención humana. Debe señalarse que en el caso de encuestas, la administración de la recolección (seguimiento de envíos y recibos de información, de rutas de encuestadores, de reentrevistas,…) hace parte del trabajo del supervisor del personal de campo en la misma forma que las verificaciones de coherencia, y por ello, en términos de costo, no es claro que se deban separar estas dos actividades. De la misma manera, en el caso de tratamiento de datos de origen administrativo, es frecuente que estos controles-depuraciones manuales se traten a la par con la corrección de los no codificados, mencionados anteriormente.

Control de la relación costo-calidad

Hemos tratado de precisar un poco los conceptos de calidad y de costo. Debemos ahora ocuparnos de cómo de arbitrar, de la mejor forma, entre estos dos parámetros. Tengamos bien presente en esta consideración que la calidad será aquí, en producción estadística, un instrumento de manejo y no de por sí un resultado. Esto no es un obstáculo para proporcionar en paralelo indicadores de calidad sobre nuestras estadísticas, tal como los que exige EUROSTAT. Al final, el arbitraje se basa, idealmente, sobre el alcance estratégico de las estadísticas producidas. Dicho en otra forma, en principio debería en buena parte ser la responsabilidad del Consejo Nacional de Estadística (si se trata del nivel nacional). Pero aquí entramos en otros campos y el tema merecería un estudio completo. Olvidemos este inciso y concentrémonos en el proceso de producción estadística.

El simple hecho de ver las cosas desde el ángulo de un arbitraje costo/calidad, puede traer a la discusión la taylorización del trabajo, la reducción de los costos, con todas las consecuencias sociales que esto genera. Pero el problema aquí presentado no es el de la optimización clásica de la relación costo/calidad en el sentido en que la toman los industriales, pues ya se ha mencionado la especificidad del producto estadístico.

Para comenzar, como ya se mencionó, costo importante quiere decir rezago importante, y la oportunidad de las estadísticas es un elemento esencial de su calidad. No es raro que a los INE les lancen puyas en los casos de publicación tardía. Independientemente de toda consideración administrativa, la reducción de los rezagos (por tanto de los costos) es un objetivo importante en el camino de una mejor calidad de las estadísticas.

Un segundo aspecto que actúa a favor de una especificidad del producto estadístico es la dificultad de visualizar la ganancia en calidad que aporta un trabajo adicional, en particular tratándose de la fase de verificación de los datos.

Es la diferencia de calidad tan apreciable? Al cabo de un tiempo, ya tratadas las anomalías mayores, no es evidente que la ganancia sea elevada24. La dificultad para visualizar la ganancia claramente es angustiosa para quien ha concebido el trabajo y también los responsables de la producción: la reflexión sobre calidad y costos debería contribuir a dar un sentido al trabajo de estos últimos, a medir sus aportes. De allí en adelante se tratará de “control de los costos” más que de “reducción de costos”.

Qué hacer? Es indispensable hacer que el proceso sea legible. Se puede hablar en términos generales como lo hemos hecho en la primera parte. Pero, idealmente, el ejercicio se debe individualizar, operación por operación, mirando en detalle las operaciones a priori más costosas, allí donde los márgenes eventuales de maniobra serán verdaderamente “productivos”. Para cada una de las etapas el criterio será el de elaborar indicadores de calidad (con una óptica de precisión y coherencia, como ya se ha mencionado) que podrán mirarse de acuerdo con los costos.

La mayor parte del tiempo los costos elevados son los variables, o al menos es allí en donde se ubica el margen de maniobra. Dedicar tiempo a los trabajos de costo fijo, hacer avanzar la reflexión y el análisis en materia conceptual y metodológica, es una manera sana de progresar, principalmente en los procesos de producción muy costosos en su conjunto. Por ejemplo, con una óptica de racionalización de la producción, es eficaz invertir en metodología en cuanto al cálculo de la precisión, de control y macrocontrol, de ajustes finales.
En cuanto a los costos variables, hemos mencionado los costos de recolección, de captura, de corrección de los datos no codificados y de verificación-depuración. Parecería difícil influir en los costos de recolección de las encuestas a hogares sin afectar la calidad de este producto (la entrevista personal constituye una garantía de confiabilidad de las informaciones recogidas). Para las encuestas a empresas, el recurrir a Internet (o a cualquier sistema informatizado de recolección) es un método de reducir los costos de captura que no puede despreciarse, máxime cuando no necesariamente conduce a una degradación de la calidad. Sin embargo, aún es la regla general que estas encuestas se hacen en soporte papel y, por lo tanto, es necesario capturar la información recibida. Lo mismo sucede con los censos.

Quedan dos etapas: la eliminación de los no codificados y la verificación-depuración. Allí se sitúan las verdaderas posibilidades de arbitraje. Para cada una de estas dos etapas, tenemos un programa de tratamiento automático de los datos (codificación automática, control de coherencia automático) que determina qué casos se deben revisar manualmente.

En el caso de la codificación (descripción de profesiones, actividades, etc.) es posible, mediante los parámetros del programa desarrollado, jugar simultáneamente sobre la eficacia de la operación (porcentaje de descripciones codificadas automáticamente) y sobre la confiabilidad del resultado obtenido (porcentaje de buenas codificaciones entre los codificados). Naturalmente la tasa de confiabilidad será tanto más elevada, cuando la tasa de eficacia sea más baja. Pero si la tasa de eficacia es baja, la carga de trabajo manual será elevada. Se trata, en efecto, de un arbitraje calidad/costo, con indicadores bien identificados. La incorporación de parámetros podrá hacerse en “laboratorio” apoyándose en resultados obtenidos en operaciones anteriores de codificación automática (y, como referencia, sobre el comportamiento conocido de la codificación manual).

Las tareas de verificación, corazón de los arbitrajes

Concentrémonos ahora en la etapa de verificación-depuración que los anglosajones denominan data editing. Es crucial en términos de costos: según ciertos autores representa cerca del 40% del costo total de una encuesta25.

Habíamos visto que se dividía en dos fases, una automática y una manual. El programa establecerá cuales son las unidades “aceptables”, es decir, que se pueden tomar tal como están. Las “no aceptables” deberán ser retomadas una a una y debe anotarse, y no es anodino, ya que buena parte de éstas se revelarán como correctas después del examen26. Por tanto podemos, a priori, basarnos en dos indicadores: la proporción de unidades aceptables y, después, dentro de las no aceptables, la proporción de ellas que son en realidad correctas (todo esto teniendo en cuenta sub- poblaciones y variables).

En estas condiciones, si se mira de cerca, no es del todo exacto que todas las unidades no aceptables se verifiquen en forma manual, sencillamente porque no hay bastante tiempo. Y cuando el tiempo se acaba se utilizan los métodos automáticos: por ejemplo se va a tomar el resto de unidades dudosas como si fueran faltantes y se les aplicarán los tratamientos finales correspondientes (imputación, o reponderación del conjunto).

Al final debemos distinguir tres categorías de unidades: primero, las aceptables, luego las no aceptables verificadas en forma manual(es allí en donde está el costo de verificación) y, por último, las no aceptables tratadas automáticamente al final del procesamiento (costo despreciable).

A partir de allí, racionalizar la verificación equivale a actuar sobre las proporciones correspondientes a estas tres categorías, en función de indicadores objetivo, que establecen el grado de incertidumbre que no deben sobrepasar en cuanto a las variables objetivo y los dominios de difusión objetivo. Se propone aquí una estrategia de cinco puntos27.

En primer lugar, se deben dar los medios para optimizar el criterio de repartición entre aceptables y no aceptables, lo que implica, ante todo, hacerlo legible: en general, la indicación entre aceptación automática y verificación manual se encuentra inmersa en una serie compleja de tareas. Por ello, el responsable mismo de la operación no tiene acceso a un “marcador”, es decir, a un instrumento que le permita influir sobre esta delimitación y que le indique las consecuencias sobre los resultados estadísticos.

En segundo lugar, se requerirá maximizar la eficacia de la fase de verificación manual, comenzando por las unidades más importantes, aquellas cuyo impacto potencial sobre las estadísticas (su precisión, su coherencia) es más fuerte28. Hay que establecer prioridades. Para ello se calcula, para cada unidad no aceptable, lo que se denomina un “score”, que de alguna manera mide la importancia que tiene verificarla29. A partir de ese momento las verificaciones se efectúan comenzando por las unidades de mayor score y continuando, paso a paso, en forma decreciente. Naturalmente la definición del “score” depende de los objetivos de la operación estadística analizada y del detalle con que se vayan a difundir los resultados. En el caso de encuestas a empresas, ciertas categorías poco frecuentes de la población (por ejemplo los proveedores de acceso a Internet) podrán ser consideradas insignificantes o, al contrario, esenciales según el tipo de encuesta considerado.

En una tercera etapa, será necesario determinar en qué momento parar: cual sería la calidad de las estadísticas objetivo si se interrumpiera en ese momento toda verificación manual? Tenemos, en consecuencia, necesidad de “scores” globales y no de “scores” unidad por unidad. Tales indicadores están estrechamente ligados con el nivel de difusión previsto. Entre más fino sea, mayor será el número de unidades que se deben verificar. Nuevamente, los objetivos de difusión, de utilización, constituyen un punto de partida inevitable. Los macrocontroles, mencionados al final de la primera parte juegan aquí un rol esencial y por ello la importancia de establecerlos lo más pronto posible. Constituyen, en realidad, una ayuda preciosa si no se dispone de un “score” global definido formalmente: si todas las relaciones de agregados y todas las evoluciones en los agregados, permanecen dentro de límites razonables, se dispone de una indicación positiva que facilita la decisión de parar, fundándose en elementos tangibles.
Cuarta etapa: Controlar calidad y costo es también mejorar la calidad de verificación manual, desarrollando la capacidad de experticia de los responsables (mediante la formación apropiada, por ejemplo en el manejo de nomenclaturas de actividades, profesiones, etc.), dotándolos de instrumentos informáticos que facilitarán su trabajo y abriéndoles el acceso a fuentes de información exteriores. En efecto, validar es una cosa, depurar es otra, y para que el encargado pueda proponer efectivamente una modificación, relacionada con lo que parece ser una anomalía, es esencial que otros elementos de información le permitan tomar una decisión. En numerosos casos es difícil hacerlo: no siempre se puede resolver todo.

Finalmente, la quinta componente de una estrategia de mejora y control de la calidad: Será necesario, en el caso de una operación recurrente (encuestas periódicas, por ejemplo), administrar la mejora continua del 'proceso, de un período a otro, es decir, darse los instrumentos que permitan “corregir la mira”. Por ejemplo, si la tasa de no respuesta a una pregunta muestra ser muy elevada, se le modificará o suprimirá. Si un control automático conduce a rechazar como anómalos un número muy grande de datos cuya exactitud está comprobada, deben ajustarse los parámetros respectivos. El RRP (Censo renovado de población) es sobre este particular un ejemplo, debido a la importancia cuantitativa de los medios comprometidos: la progresión continua permite obtener ganancias en términos de rezagos y una mejor gestión de los recursos.

Elementos de conclusión

En la primera parte se ha tratado de hacer claridad sobre el proceso de producción estadístico en general: toda consideración sobre la calidad implica proceder de tal manera que se puedan identificar los apalancamientos para actuar. Este análisis puede evidenciar la importancia de tareas poco analizadas, como puede ser la recodificación después de la recolección de variables de la encuesta a hogares. La representación simplificada del proceso nos ha servido posteriormente de base para identificar en dónde están los márgenes de maniobra y cómo aprovecharlos.

Una primera constatación, fuerte, es que el error es consustancial al proceso, que no se trata entonces de erradicarlo sino de controlarlo estadísticamente. La calidad que se busca no se establece como una proporción de elementos defectuosos sino por el grado de precisión y coherencia de las estadísticas que se van a obtener. Por lo tanto, toda iniciativa en materia de calidad está fundamentalmente ligada a las necesidades, a los objetivos: sin una definición clara de objetivos30 no es posible definir indicadores de calidad, realmente útiles al seguimiento y control de la producción. La calidad y el costo se expresan igualmente en las diferentes etapas del proceso y, en cada una de ellas, se hace necesario tener indicadores de evaluación específicos: esto es particularmente importante para las etapas más costosas, como la codificación de categorías descriptivas o la verificación-depuración que muestra ser en la práctica la más difícil de escrutar y cuyo control es el más importante. Para avanzar en este sentido, se debe ante todo contar con principios claros (criterios de selección de unidades dudosas, de priorización, de terminación) e instrumentos asociados; hacer una reflexión sobre las informaciones disponibles para los ejecutores en forma tal que la depuración sea posible. Pero a largo plazo, en una óptica de mejora permanente de la calidad, es necesario procurarse indicadores de calidad útiles, que permitan corregir el proceso de producción de un año a otro haciendo énfasis en tal o cual etapa. Allí reside la importancia de los indicadores de calidad que serán objeto de un próximo documento…

1 Lo cual excluye la Contabilidad Nacional y también el índice de la producción industrial en donde se tienen datos agregados desde el inicio de proceso. El trabajo que en estos casos se realiza es de naturaleza diferente.

2 En una sola etapa si se trata de una fuente administrativa (aunque…) o de una encuesta exhaustiva.

3 Recordemos que las muestras de encuestas a los hogares, son en realidad muestras de viviendas. Este concepto está cambiando con el concepto de unidad de vida.

4 Por ejemplo supermercado, hipermercado.

5 Hay por tanto diferentes niveles: las entradas de la nomenclatura de productos (por ejemplo, yogurt, queso fresco) las variedades (yogurt natural, yogurt con bifidus, yogurt dulce con 40% de grasa, etc…) y los productos (caja de 12 unidades de yogurt de tal marca). Un producto debe corresponder a la definición de la variedad de la cual se va a muestrear, en la misma forma que el punto de venta debe estar asociado a la forma de venta respectiva

6 Se utiliza el programa Blaise desarrollado por la Oficina Central de Estadística de Holanda, muy ampliamente difundido en el conjunto de los INE.

7 Ver el artículo de Dominique Guédès, Indice de precios al consumidor. Courrier des Statistiques, no. 105-106, junio 2003 pp. 19-21.

8 Ver los artículos de Alain Godinot (pp. 5-12) y de Pierre Muller (pp. 39-43), en la misma entrega del Courrier des statistiques citado en la nota anterior.

9 Los DADS son esencialmente las declaraciones de los salarios pagados a las cuales están obligados los empleadores. Más exactamente, los empleadores están obligados a declarar anualmente al fisco y a la Seguridad Social el monto de las remuneraciones de naturaleza salarial que pagan a cada uno de sus empleados.

10 Transferencia de datos sociales.

11 La lectura o escaneo de los códigos de barra, similar a la de productos vendidos al detal.

12 En el INSEE se utiliza esencialmente el programa SICORE (sistema de codificación de respuestas de encuestas). Un caso particular de codificación en el que se emplean otros instrumentos es aquel en el que se busca identificar una unidad en el marco de referencia (en el listado SIRENE para personas jurídicas a partir de su razón social y su dirección, en el RNIPP para personas naturales, a partir de su estado civil).

13 En encuestas sencillas se pueden dividir los costos de verificación a la mitad, como lo hace el Instituto Británico de Estadística. Cf. Underwood C. (2001), Implementing selective editing in a monthly business survey. Pr4oceeding of the 6th GSS Methodological Conference, London, 25 June.

14 Debemos hacer notar que las etapas de control automático están asociadas en algunos casos con operaciones de corrección (algunas variables dudosas se corrigen automáticamente) y/o de imputación de no-respuesta parcial. Este es el caso de las encuestas anuales a las empresas.

15  Es claro que la no respuesta se puede tratar por reponderación y no por imputación.

17 Un séptimo criterio, la completitud, se refiere al carácter más o menos exhaustivo de la estadística, tratándose, en particular, de la cobertura de los diferentes sectores de la actividad económica.

18 Cf. Rivière P, Calidad y Estadística, traducción publicada por IB, No. 2 Diciembre 2006 pp. 100-113

19 Sin embargo, no es completamente evidente que todas las intervenciones humanas (en particular la verificación) conduzcan al mejoramiento de los datos. La superverificación puede ser nociva. Ver sobre este particular Granquist L., Kovar J.G. (1997), Editing data survey: How much is enough?, Survey Management and Process Quality, New York, Wiley, pp. 415-435

20 Bondel F. Administración de la producción, Dunod 2002

21 Se trata de un costo a menudo mal conocido. Describir toda la lista de variables deseadas a partir de las variables recolectadas constituye, para ciertas encuestas, semanas y aun meses de trabajo para los estadísticos y decenas de páginas con notas explicativas.

22 Se puede objetar a este respecto que la magnitud del trabajo (sobretodo para los supervisores) no es independiente de los volúmenes de datos que se deben tratar.

23 Pero esto genera costos fijos no despreciables en material de creación de cuestionarios electrónicos.

24 Cf. Hedlin D (2003). Score functions to reduce business survey editing at the UK Office for National Statistics. Journal of Official Statistics, Vol. 19, No.2. El autor muestra, para el caso de una encuesta mensual sobre el volumen de negocios en los servicios, que la mayoría de las verificaciones tienen un impacto despreciable. Compara las técnicas de verificación y las pone en práctica.

25 Cf. el artículo ya citado de Granquist y Kovar p. 418 Nota 19.

26 Observación clásica en el campo de data editing, Cf. Por ejemplo el artículo de D. Hedling o el de Granquist y Kovar.

27 Rivière P. (2003), “General principles for data editing in business surveys and how to optimize it”. Documento metodológico de la UMS, No. 0203.

28 Y no por aquellas que contienen el mayor número de errores potenciales.

29 Lawrence D., McKenzie R. (2000). The General Application of Significance Editing. Journal of Official Statistics. Vol. 16 No. 3, Septiembre. La idea fundamental es la de cimentar la verificación sobre el impacto y no sobre la posibilidad de error.

30 Hemos visto que existen objetivos diferentes de los estrictamente estadísticos, por ejemplo alimentar un directorio u otra encuesta.