La psicología del desarrollo es nuestro marco de trabajo. Las siguientes consideraciones son un preámbulo para enfocar la evolución de los recursos comunicativos en el niño pregramatical. El panorama teórico presentado a continuación despliega un mínimo conjunto de nociones que, dentro de la ontogénesis, están relacionadas con el progresivo dominio de la actividad semiótica y ubican al lector en posición de poder apreciar el abordaje empírico de la investigación.
1. Las interacciones neonatales y tempranas
Desde los ya lejanos tiempos de Wallon, Piaget, Gesell y otros pioneros en la observación del niño, los debates en torno de la naturaleza humana, esto es de los aspectos psicológicos dados en el origen mismo de la vida del sujeto, se han visto considerablemente renovados durante el último medio siglo (para un racconto de jalones importantes: Dornis, 1993; Mehler & Dupoux, 1990; Rochat; 2001; Slater & Lewis, 2007). En los años 70, Meltzoff y Moore descubrieron una habilidad imitativa en los neonatos que ha azuzado el contrapunto sobre las habilidades humanas innatas. Sometidos a un estímulo de ciertas muecas (apertura de la boca, exhibición de lengua, protrusión de labios), los bebés mostraron poder replicar la misma acción a pocos días (12–21) de haber nacido (Meltzoff & Moore, 1977). Más adelante, Meltzoff y Moore obtuvieron resultados semejantes con recién nacidos de en promedio 32 horas de vida, incluyendo un caso extremo a 42 minutos de nacido (Meltzoff & Moore, 1983, 1989). El posterior hallazgo de las neuronas espejo (Gallese, Fadiga, Fogassi & Rizzolatti, 1996), pretendidamente decisivas en materia de la sintonía que puede establecerse entre dos individuos (pues se activan tanto durante la ejecución de una conducta como ante su sola percepción en otro), fue un aporte de nueva evidencia para debatir cómo el sujeto humano (y el de otras especies próximas) tiene aptitud, quizá desde un momento inaugural, para forjar enlaces con conespecíficos[1].
Como atestiguan los estudios de la imitación neonatal, los bebés no nacen absolutamente ciegos (sí son miopes y un poco astigmáticos –Mehler & Dupoux, 1990–), su corto alcance de visión (20 cm aproximadamente) es funcional para entablar con el estímulo del rostro humano una determinada especularidad imitativa. Otros sentidos más maduros en el nacimiento verifican un discernimiento muy precoz y sensibilidad para identificar con quién se está ligado de manera prenatal (horas después del parto, los bebés pueden discriminar “los olores del cuerpo, de la leche y del líquido amniótico de su madre de los de otra mujer” –Rochat, 2001/2004, p. 122–). La experiencia acústica intrauterina se hace evidente en la pronta identificación de voces familiares (De Casper & Fifer, 1980) o de formas melódicas (Cooper & Alsin, 1989; 1990). Con sólo 2 días de vida los recién nacidos ya revelan preferir su lenguaje nativo (Moon, Panneton Cooper & Fifer, 1993).
La audición humana, tan sutilmente desarrollada en el momento de nacer, va a combinarse con una aptitud oral no menos destacable. A diferencia del resto de los primates, en nuestro aparato fonatorio la laringe se halla descendida, lo que condiciona ventajosamente la ductilidad de la garganta para la emisión de diferentes tipos de sonido. Se ha comprobado que, fuera del hombre, otros primates hacen uso de señales de sonidos en las que inclusive pueden describirse contornos melódicos (por ejemplo gibones –mencionado en H. Papoušek, 1996–), pero en ellos los sonidos son harto estereotipados, mientras que en el individuo humano, con más vasto repertorio, permiten el habla. Es indudable que, antes de capitalizar como habla las habilidades de la oralidad, el niño debe modelarlas sucesivamente en diferentes planos técnicos (prosodia, fonemas, unidades de significado de extensión variable: palabras, sintagmas), y aprender a usar este instrumento en su constante vínculo con otros individuos. En las dos primeras semanas de vida, han podido identificarse tres formas del llanto del neonato: llanto de hambre, llanto de cólera y llanto-dolor, cada uno con características reconocibles, y algo más tarde (tercera semana) un llanto de atención, que reclama al adulto más allá de las necesidades básicas (Wolff, 1987). Además del llanto, en los primeros meses el recurso de la oralidad sirve al bebé para llamar al semejante, para coordinar con él conductas (alternar, en turnos, emisiones asemánticas [sin código]), para ir en pos de un objetivo o meta (alocuciones imprecisas que contextualmente sirvan para requerir del otro cierta mediación) y para situarse en con-sonancia con el otro por el mero gusto de ello, para establecer una comunidad de estados afectivos (emisiones destinadas a copiar las del adulto, a vibrar o a estar con él).
Ambas destrezas del bebé, la fina discriminación de los sonidos procedentes de otros sujetos humanos y aquella emisión oral en circunstancias de intercambio, se alimentan recíprocamente según un patrón que ha de tasarse como un facilitador del proceso de adquisición lingüística. Las vocalizaciones preverbales (aquellas que el niño balbucea antes de la proferencia de palabras), junto a la capacidad temprana para procesar el habla del adulto, conforman una herramienta que armoniza escenas de intercambio fonatorio entre el bebé y su madre (protoconversaciones –Beebe, Stern & Jaffe, 1979; Trevarthen, 1980–) y han llevado a la noción de musicalidad comunicativa, que designa el cuerpo de elementos de sonido y movimiento que el niño pequeño aprende a percibir y modular, conforme con variables que definen decisivamente a las actividades musicales (altura, intensidad, timbre, ritmo y melodía –Malloch & Trevarthen, 2009[2]–). Esta primera musicalidad se halla en los fundamentos de las relaciones intersubjetivas, moldea los patrones de intercambio, nutre la mutualidad de los participantes y fomenta en el niño una experticia, en términos vocales, que allana el terreno para el desembarco del lenguaje, esto es, para la semantización de los sonidos[3].
Según la acepción que se ha adoptado para la comunicación (proceso semiótico que compromete a un individuo en el rol de emisor y a un receptor, real o virtual, para el que aquél ha puesto en signos, de manera intencionada –lo que no es sinónimo de intencionalidad consciente–, un contenido intencional o decodificable), la musicalidad de este período no admite el calificativo ‘comunicativa’. Si para la comunicación debe existir un código, por ello mismo una semántica, la musicalidad propia de este período no cuadra en la categoría, pero esa es una discusión de otro lugar que aquí puede sortearse reemplazando ‘comunicativa’ por ‘temprana’ (H. Papoušek, 1996), ‘expresiva’, ’empática’ o ‘interactiva’. Por lo demás, en cuanto al nombre ‘musicalidad’, es una habilidad, como hemos subrayado, que desborda el ámbito de los sonidos e involucra el movimiento corporal y las interacciones físicas del niño y el adulto. Estas interacciones están comandadas por patrones temporales (pulsos, fluctuaciones, elaboraciones –Dissanayake, 2001–) que organizan el compuesto de sonido-movimiento (Español, 2008, 2014; Español & Shifres, 2015; I. Martínez, 2014; Shifres, 2014; Schögler & Trevarthen, 2007). Éste se hace evidente, de parte de los bebés –aún limitados por las posibilidades expresivas de un cuerpo inmaduro– en la reacción hacia aquellos estímulos que les ofrecen los adultos: juegos de movimiento, de sonido, de sonido-y-movimiento que funcionan como la puerta de ingreso al mundo cultural (Español, 2008). Una disposición para sintonizar naturalmente con el patrón de sonido y movimiento del adulto (programas de sintonía y de armonización –Rivière, 1986; Español, 2010a) organiza su conducta de ida y vuelta para con los semejantes. Por extensión, y de manera más concreta, esta matriz sonido-movimiento es el primer nivel de encuentro con la lengua, constituye aquel espacio inaugural en el que los bebés son convocados a discriminar sonidos, a segmentar la cadena del habla de su medio cultural más inmediato, a copiar ritmos y cadencias. Este ejercicio escande el flujo de sonido y movimiento y es, por tanto, una forma de análisis y reconocimiento de patrones intermodalmente organizados.
Se llama modalidad a los canales sensoriales que brindan acceso a los estímulos del mundo[4]. Sería suficiente con hablar de los sentidos exteriores si no fuera porque existe información que es amodal: que no está atada a un único canal. Mientras que olores y colores, gustos detectados por papilas y texturas al contacto de la mano o de cualquier porción de piel se consideran como unimodales (específicos de una modalidad, excluyentes del resto), los datos sensorios sin especificidad, vale decir que se registran por distintas rutas perceptivas (ritmo, duración, intensidad) se asumen de carácter amodal (capaces de ingresar en el sistema cognitivo por una modalidad u otra). La percepción de información que es simultáneamente bi– o multimodal se denomina intermodal; la percepción de propiedades amodales en la información estimular se llama transmodal (Bahrick & Hollich, 2008), nombre en el que se aprecia cómo la amodalidad recorre las modalidades y las comunica, pasa de una en otra como si fueran porosas y no–modulares (en sentido fodoriano).
Existe un debate alrededor de la noción de integración originaria (o no) de las modalidades senso-perceptivas que en la actualidad habría alcanzado una resolución. William James (1890) pensaba que las percepciones neonatales no eran sino un caos incoordinado y multisensorial que el niño lograba integrar de a poco. El abordaje piagetiano iba en la misma dirección, pero fue sugerido algo después que el modo primigenio de la percepción era la intermodalidad (Gibson, 1969). Desde hace un tiempo se están realizando experimentos que respaldan la postura de una percepción que evoluciona desde la intersensorialidad hacia la discriminación de los canales de ingreso de información (Lewcowicz, 2000). Bahrick, Lewcowicz y Walker-Andrews, separadamente, han aportado resultados clave para apuntalar esta versión de la primera realidad del niño (Bahrick & Hollich, 2008; Lewcowikz, 2000; Walker-Andrews, 1997). La transmodalidad perceptiva y la llamada redundancia intersensorial (identidad de contenido estimular en dos o más modalidades diferentes –Flom & Bahrick, 2007–) se acoplan perfectamente con las formas en las que el adulto dirige hacia el niño una acción integral, performativa, de rango multimodal (Español, 2010a, 2010b; Español & Schifres, 2015). Español y Schifres (2015) acuñaron la expresión ‘performances dirigidas al bebé’ para dar cuenta del carácter sonoro-kinético de la actuación de los adultos ante los bebés. La señal del habla (prosodia y fonología de tipo segmental), la expresión del rostro, el movimiento, el tacto y el comportamiento general que ofertan los adultos al niño pequeño ocurren muy precisamente en el formato de performances, ejecuciones ‘actorales’ destinadas a un espectador al que, dada su falta de experiencia, hay que brindarle todas las facilidades.
La multimodalidad performativa se vincula a las habilidades mencionadas de la musicalidad temprana, las cuales conforman la base formal (el andamiaje) del ‘dialecto’ de lengua materna o maternés que los adultos dirigen al niño preverbal. El maternés (o motherese –Fernald, 1985, 1989; Fernald & Kuhl, 1987; Fernald & Simon, 1984; Gleitman, Newport & Gleitman, 1984; Snow, 1986–) resulta una variante enunciativa altamente específica que los adultos ejecutan intuitivamente para llamar la atención de los bebés, interactuar con ellos y favorecer una primera comprensión de la cadena de habla. A tales fines, el adulto procede con supresión de palabras relacionales, exageración de la prosodia, vocalización amplificada, sobremarcación de pautas acentuales. En relación puntual con el aprendizaje de la lengua, el maternés es la conducta verbal excesiva, formalmente agigantada, que destaca –para un receptor que todavía no es parte de la lengua– ciertos rasgos que le simplifican su segmentación y el reconocimiento de porciones con semántica pre-lexical. Ello permite al niño, por ejemplo, establecer que ciertos tonos corresponden a interrogaciones o a mandatos, que cierto tipo de pausa indica una separación de temas en los intercambios, etc. Son las primicias del lenguaje y del idioma que ya está esperando al niño en su medio inmediato: el pasaporte al interior de su compleja trama y a la vez una salutación de bienvenida que el bebé, por musical, se encuentra en posición de poder comprender. Se ha señalado que la oralidad del maternés comparte propiedades con un motionese (una etiqueta que, para cuidar en castellano la proximidad con el original y el paralelo de sonido con el concepto de maternés, podemos traducir, haciendo uso de todas las licencias, como idioma motornés o bien motricinés). Por tal se entiende un correlato corporal de las afectaciones expresivas que se emplean de modo natural en las interacciones con bebés (Brand, Baldwin & Ashburn, 2002; Brand & Shallcross, 2008; Brand, Shallcross, Sabatos & Massie, 2007). También se ha establecido la noción de un maternés multimodal (Gogate, Bahrick & Watson, 2000), en el que la enunciación verbal y la actuación del cuerpo se conciben solidariamente combinadas en una actitud y tratamiento generales de las expresiones dirigidas a bebés[5].
Con o sin maternés (se sabe de culturas donde aquellos rasgos hiperbólicos del maternés se hallan ausentes –Schieffelin, 1981–), de alguna forma ocurre que las escansiones temporales en motivos-frases (en un sentido musicológico) y las variaciones aplicadas sobre las repeticiones comunicativas se vuelven patentes al bebé, de suerte que, por distintos canales, éste logra acceder a las claves del ritmo, la aceleración, la intensidad, la duración entre las expresiones a que asiste o le están dirigidas. Donde al contorno y la cadencia naturales de una lengua pudiera faltar una forma de modularlos para los bebés, un maternés, será posible suponer allí unas melodías kinéticas (Luria, citado en Sheets-Johnstone, 2009, p. 61), que brindan acceso hasta el soporte o la estructura temporal que comanda los pulsos y los ritmos, la emoción y la organización de la señal del habla entretejida con los movimientos del adulto.
Aquí se impone la siguiente salvedad. En el origen, la idea de modalidad era aplicada a la aferencia estimular (a las operaciones receptivas de la información del medio), pero ha sido más tarde indiferentemente utilizado para designar también procesos de agencialidad: para indicar una expresión de gesto o vocalización (Iverson, Capirci & Caselli, 1994; Locke, 2007). Esta acepción más laxa es la que recogemos: se emplea la designación ‘modalidad’ tanto para aludir a los canales senso-perceptuales (sentido aferente de la información) como a aquellos andariveles de expresión del individuo (sentido eferente). También se utiliza, de un modo indistinto, el término canal para aludir a los formatos gestual y verbal de comunicación.
Esta versión del concepto ‘modalidad’ como input y a la vez como output, entrada y salida del sistema cognitivo, permite plantear que, tal como hay información de tenor amodal entre las posibilidades receptivas, senso-perceptuales, de los individuos; de manera análoga, el procesamiento cognitivo de la información semántica en el aspecto expresivo puede concebirse como independiente de las restricciones de un canal o una modalidad. Por consiguiente, la generación de signos puede postularse, en el nivel mental, como un proceso de tipo amodal. La estimación de que bajo las emisiones de gesto y palabra existe un planeamiento sin modalidad, luego transmodalmente concretado en producciones efectivas, se encuentra en McNeill (1985, 1992, 2005), y ha sido utilizada, en paralelo, como una estrategia explicativa de la filogénesis lingüística (Corballis, 2002; Hewes, 1973 –infra 2.3.3.–). Las investigaciones sobre las primeras expresiones de gesto y palabra combinadas (Butcher & Goldin-Meadow, 1993; Capirci, Contaldo, Caselli & Volterra, 2005; Capirci & Volterra, 2008; Iverson & Thal, 1998) parecen prestar aval a la postulación de un mecanismo de procesamiento semántico-cognitivo compartido por ambos tipos de signo y, según ello, de modalidad inespecífica.
2. El otro
Al interior del vínculo adulto-bebé, atravesado por imitaciones neonatales y por las características de musicalidad que hemos descripto, se plantea el problema de determinar qué tipo de otro es el del niño de esta edad, qué clase de intersubjetividad se pone en juego en los primeros tramos de la vida psíquica. Las investigaciones sobre imitación facial han abonado los debates en torno a los usos más tempranos de las distintas modalidades en la interacción. Meltzoff (2005) ha postulado la existencia de un sistema innato de mapeo activo intermodal (MAI) que permitiría al bebé, desde el comienzo de la vida, traducir las entradas visuales a ciertas ejecuciones musculares de tipo replicativo. Existiría un enlace por el que el cachorro humano puede convertir los datos ingresantes de la percepción (visual) a una modalidad diversa en sus ejecuciones. Pero la conversión (mapeo) viso → motriz puede también rastrearse en el sentido inverso, esto es, sobre un vector motor → visual. Si detectar en otro una expresión induce el acto imitativo, el movimiento de la boca en el bebé, sumado a la visión del mismo movimiento en otro (imitación a cargo del adulto), le permite establecer que el partenaire está comprometido, en ese mismo instante, con la ejecución de aquello mismo que él se encuentra realizando. De acuerdo con ello, para Meltzoff, cuando el bebé percibe cierta acción facial en otro, la identifica visualmente por los vínculos con las inervaciones asociadas de los músculos interesados en los movimientos percibidos. El reconocimiento de que el otro se puede mover igual que yo (al ver la boca en movimiento se activan en el bebé ciertas inervaciones musculares asociadas a esa percepción), llevaría a la experiencia (no inferencia) de que el otro es como yo y, por ende, a una precaria forma de conocimiento pre-mental del interlocutor (Meltzoff, 2005).
Sin embargo, la imitación neonatal podría explicarse suponiendo menos. El MAI funciona como una primera conexión de percepción-acción con otros sin necesidad de que el proceso implique más que un mecanismo ciego, esto es, una aptitud para tomar contacto superficialmente con el semejante (sin un compromiso con la idea de que el otro imitado sea un sujeto como yo).
Las consideraciones anteriores relativas a la percepción de estímulos con propiedades amodales, la agencialidad y el movimiento, sugieren alternativas para elucidar la construcción del otro como un semejante. En lo más básico concuerdan con lo que ha sido llamado, en la psicología y las ciencias cognitivas, ‘giro corporal’ (Sheets-Johnstone, 2009; Español, 2012). Este viraje encarna el abandono de la concepción tradicional cognitivista, que entendía todo conocimiento en términos de representaciones y computaciones con estricta prescindencia del soporte material (era indistinto si el conocimiento transitaba por circuitos electrónicos o cerebrales si las funciones del caso resultaban comparables [Putnam, 1967]). Hoy sin embargo no se entiende, en general, que la empatía bajo la concepción del otro como otro-sujeto o semejante sea forzosamente cognitiva en términos de representación mental. El ritmo de los movimientos y la percepción del habla de los semejantes pueden aducirse como una variante explicativa más parsimoniosa del ligamen adulto-bebé, sin alusiones mentalistas ni la presuposición especular del otro-como-yo [6]. Para el cognitivismo de hoy, la cognición inaugural se encuentra atada al cuerpo y a la posibilidad del movimiento. De esta manera, hay en el niño puentes alistados para empatizar y establecer con el adulto los más fuertes lazos de vinculación: puentes establecidos sobre un nexo de experiencias compartidas físico-afectivas, anclados en la corporeidad, nacidos de tempranas relaciones cara a cara, cuerpo a cuerpo, piel con piel, entre la voz y la audición, sobre las que más tarde se edifican relaciones más distantes y mediadas por objetos, signos, símbolos.
En esta relación, más bien de comunión que comunicativa (según la definición de comunicación del cap. 1), la captación de propiedades amodales por el niño se encuentra complementada por fenómenos de entonamiento, conductas con que el adulto recoge instintivamente los patrones temporales de la vocalización y el movimiento del pequeño en alguna modalidad diversa a la que este utiliza en su expresión (Stern, 1985; Stern, Hofer, Haft & Dore, 1985). Por ejemplo, el canturreo silábico que libraría un bebé alzado en los brazos puede trasponerse en golpecitos suaves del adulto hechos sobre la espalda, los que, percibidos, permiten que aquél reencuentre las particularidades rítmicas de su emisión vocal. A diferencia de lo que acontece al imitar (habilidad que comparten los dos protagonistas de la relación), el entonar es un comportamiento que se halla documentado sólo en la acción del adulto. Surge de sus esfuerzos por empatizar con la conducta todavía imprecisa del niño pequeño (por cierto asemántica, pero con suficiente grado de expresividad vital para transparentar las propiedades del tono afectivo general). Lo que se ofrece a las habilidades perceptivas del bebé empalma perfectamente con sus aptitudes psico-físicas de receptor precoz capaz de pescar rasgos amodales. Como afirma Español, la colección de los sonidos, movimientos y contactos que el adulto dirige al bebé podría estar andamiando el arquetipo diádico, alternante, de las experiencias intersubjetivas (Español, 2010a). La intensidad, la pauta temporal (la pulsación, el ritmo) o la pauta espacial (los esquemas de movimiento que el entonamiento muestra) son un eco de aquello que el niño experimenta en su ser-cuerpo.
El emparejamiento temporal entona ciertas propiedades (presemánticas) de la emisión del niño y proporciona una adecuada contraparte a sus estados de atención y de emoción. Eso que el partenaire adulto proporciona al niño en su acción de entonar le pone delante su propia experiencia vivencial de una manera diferente a la de las imitaciones. Si éstas replican formas exteriores (de un sonido, gesto o movimiento), el acompañamiento adulto entonador rescata de la exteriorización del niño aquellos componentes que subyacen a las diversas modalidades y no constituyen patrimonio de ninguna.
El entonar está documentado hacia el noveno mes (Stern, 1985); algunos estudios lo han adelantado hasta los 2–3 meses de los niños, aunque de todas formas a esta edad sea todavía más importante la reproducción imitativa (sólo alrededor de los 6 meses la frecuencia de acciones de entonamiento por parte de los adultos supera al volumen de la acción imitativa –Jonsson, Clinton, Fahrman, Mazzaglia, Novak & Söhrus, 2001–). En cualquier caso, lo que aquí interesa es que en la imitación facial de los neonatos se observa una transferencia intermodal a través de la cual la forma estimular es convertida a otro canal (input visual → propiocepción del movimiento muscular del rostro), mientras que en el entonar del partenaire adulto se halla en juego, si bien por supuesto también una forma, no tanto una configuración de superficie, una apariencia, sino una determinada configuración estructural latente bajo la modalidad utilizada. La actividad de entonamiento toca entonces una cuerda diferente a la de la experiencia imitativa, porque aquello que el adulto reproduce de los movimientos y las proferencias del bebé no es una cualidad invertida en espejo, sino unos determinados caracteres amodales subyacentes. Los patrones de entonamiento exhiben pues una emotividad formal, sin contenido y presemántica. En tanto la imitación es el reflejo de lo que hace el otro, en cambio –y al contrario– la acción de entonar es un eco realizativo de lo que afectivamente motoriza, en el bebé, sus movimientos[7].
Si el mecanismo neonatal de imitación no logra penetrar bajo la faz externa de la comunión con el adulto (imagen y sonido), en el entonamiento se alcanza el nivel más puro de los rasgos amodales que Stern bautizó formas de la vitalidad (Stern, 2010): movimiento, tiempo, espacio, fuerza y direccionalidad/intencionalidad[8]. Estos cinco atributos amodales (péntada de Stern) traslucen el estado de ánimo y proveen el contenido experiencial que es entonado. En el entonamiento de formas de la vitalidad se reintegra al bebé, se le devuelve, su propia vivencia emocional, y con ello tiene lugar un tipo diferente de experiencia interactiva.
La exploración del mundo circundante por el niño ha transitado hasta el momento dos caminos diferentes: el del intercambio con los otros y el del intercambio con las cosas (éste a partir de los 3–4 meses). En el comienzo ambos se dan por separado. Hacia los 9 meses ocurre el fenómeno de la atención conjunta, que marca la transición de una primera instancia de intersubjetividad (estrictamente dual) a otra ulterior, llamada secundaria, de conformación ternaria dada la inclusión de objetos (Trevarthen, 1980, 1998). Esta inflexión por la que el niño preverbal consigue triangular sus intereses respecto de los objetos con otra persona (y a su vez captar los intereses de los otros sobre algún objeto o acontecimiento) se debe a la forma de coordinación atencional por la que podrá comenzar a emparejar “sus actos sobre el mundo con los actos sobre el mundo que realizan los demás” (M. Martínez, 2010, p. 19).
La relevancia ontogenética de la atención conjunta está fuera de discusión: lo que agita el debate es lo que implica cognitivamente. Allí está el germen de la teoría de la mente (la capacidad de realizar atribución de pensamientos, sentimientos e intenciones a otros y a sí mismo), pero no es posible resolver si hay implicadas representaciones o el proceso puede elucidarse dentro de los límites de la inferencia perceptual. Según esta alternativa, propone Juan Carlos Gómez que atención conjunta no implica tal vez una noción del otro por fuera de la mirada y de la atribución de intencionalidad que se encuentra también presente en otras formas de primates. El otro resulta, de esta suerte, un ente con la peculiaridad de poder atender a otros distintos entes en el mundo, vale decir un ente intencionado que se reconoce como tal a través de la percepción de su conducta (Gómez, 2005). Las alternativas teóricas para abordar el logro de atender conjuntamente a un cierto objeto no son cosas que se deban aquí evaluar con más detalle; la idea sólo nos compete como un eslabón en nuestro recorrido hasta el concepto de semiosis comunicativa. Con esta restricción, y en términos ontogenéticos, cabe afirmar, al margen de toda la discusión, que aquel otro del niño se transforma esencialmente cuando éste consigue verlo como un objeto-con-mente (Rivière, 1991). En la transformación habrá pasado de ser (1) una entidad especular (ente imitable-imitador), a (2) un ente empático con quien se puede compartir un tono emocional, a (3) un ente con quien es posible interactuar en un registro de intereses prácticos (dar y tomar), y finalmente a (4) un ente por medio del cual satisfacer demandas sobre objetos (una entidad atencional cuyo interés se puede dirigir a conveniencia usando signos) y a la vez alguien con el que compartir las inquietudes y los atractivos que alienta el entorno (también a través de signos). En (4), la primera opción supone un otro mediador en la consecución de fines, mientras que la segunda requiere una perspectiva en la que el otro cuenta él mismo como un fin (aquí el recurso al partenaire no está detrás de una ganancia personal sino que apunta, simplemente, a compartir con él una experiencia). A este desdoblamiento corresponden, respectivamente, los gestos denominados protoimperativos (empleados para solicitar o demandar) y los protodeclarativos (que conducen la atención del interlocutor hacia un lugar, objeto o situación por convidarle, nada más, una experiencia personal).
Esta mudanza conceptual sugiere que el bebé ha cambiado el otro con quien entablaba interacciones afectivas y ritualizadas por un sujeto capaz de compartir con él la referencia. Se ha dado el paso, de este modo, para que pueda plantearse el hecho significativo (intencional e intencionado). Es como si el bebé hubiera dejado de inquirir al otro –de manera figurada–: “¿estás conmigo?”, o de buscar con él una emotividad o sintonía del cuerpo, para proponerle estar con él respecto de algo: “¿estás conmigo en ésto?”, “¿ves lo que yo veo?”. La atención conjunta, al disponer las coordenadas dentro de las que el bebé puede valerse de medios semióticos para determinados fines, configura la matriz ternaria con la cual la intencionalidad-propósito puede apartarse de la acción directa sobre los objetos, o de la instrumentación de exteriorizaciones para la satisfacción (que fueran primeramente manifestaciones espontáneas de afectividad), y de aquí en adelante infuir en la conducta y en el pensamiento de otros recurriendo a la expresión deliberada y orientada al mundo. Aunque antes el bebé se hallaba por supuesto inmerso en un mundo semiótico, es desde este momento que parece comprender cómo lo signos permiten actuar sobre las cosas de un modo vicario, sin llevar a cabo conductas precisas sobre los objetos. La atención conjunta es, pues, el articulador que prepara el terreno para que comiencen, en el niño, los actos de comunicación.
Claramente es el otro del niño la razón de su interés por compartir. El niño busca al otro y por este camino llegará a comunicarle contenidos a través de signos. Existe en él, incentivada por supuesto desde los cuidados y la atención parental, determinada vocación del otro (genitivo del tipo objetivo), concibiendo el término desde el matiz etimológico (llamado) y entendiendo por su parte al otro como aquel destino natural de las apelaciones infantiles. Desde el primer momento, los bebés conjuran la atención del otro usando vocalizaciones espontáneas y carentes de la orientación de meta que caracteriza luego a las acciones con intencionalidad marcada, lo que deja reconocer que ya hay una determinada propensión a la socialidad. Aun cuando no haya todavía ni comunicación ni intencionalidad en la acepción convencional, las vocalizaciones de este tipo, que responden a una vocación social prefigurada en nuestra especie, pueden entenderse como vocativas con entera propiedad.
El sempiterno problema del otro como un ente con distinta realidad mental ha basculado periódicamente entre abordajes teóricos de primera persona (introspección de Wundt, teoría de la simulación en épocas recientes) o de tercera persona (la teoría-teoría). Sólo hace relativamente poco se ha recuperado una visión de segunda persona y vulnerado aquella polarización. En el amanecer del nuevo siglo (obviando antecedentes) se ha expandido un mirador de segunda persona, que ubica en el centro de la controversia las interacciones, fuente y a la vez contexto de la subjetividad y de la alteridad, éste un binomio cuyas partes, como partes segregadas, deben emplazarse en un estadío posterior. Está en el interés de la investigación ontogenética que la estrategia de centrar los desarrollos del sujeto entre sí mismo y un segundo foco o alter ego ha redimido la cuestión de cuál es la fidelidad a la que está obligada la psicología, dado que el instrumento y las limitaciones de abordaje han desvirtuado, en nombre del mayúsculo rigor científico, no pocas veces el fenómeno por estudiar. Las objeciones a las perspectivas de primera y tercera personas no son quizá siempre válidas, y eventualmente una como otra resultan explicaciones lúcidas para ciertos procesos de interrelación, pero alineamos el presente estudio con “la idea de la prioridad ontogenética de los procesos que describe la perspectiva de segunda persona y de su continuidad en algunas experiencias específicas durante momentos posteriores de la infancia y la adultez” (Español, 2012, p. 160).
3. La modalidad oral[9]
Se analizarán en los párrafos siguientes las habilidades perceptivas y expresivas del niño pequeño pregramatical en lo que atañe a la modalidad oral. Como es sabido, las habilidades de la comprensión lingüística anteceden a las de expresión o producción, e igual sucede en el momento preverbal, durante el cual puede apreciarse que la musicalidad del habla dirigida al niño es la primera pista para que pueda empezar a segmentar la cadena indiferenciada de sonidos con que el semejante le propone interactuar (Jusczyk, Hirsch-Pasek, Kemler Nelson, Kennedy, Woodward & Piwoz, 1992). De esta manera, la percepción de la señal del habla condicionará la adquisición de la estructura fonológica de la lengua materna.
3.1. La percepción de la señal del habla
La marcación del ritmo, el contorno melódico del habla dirigida a los infantes, las pausas implementadas y demás factores de los que se vale el comunicador adulto son aspectos a los que el sujeto preverbal es naturalmente sensible y se encuentran documentados hace largo tiempo (M. Papoušek, 1995). Sobre esta base, se ha afirmado que existen pautas universales en la relación prosodia-estado emocional. La comparación transcultural sobre la acústica del maternés ha revelado que las madres norteamericanas, chinas y alemanas hablan al bebé en tipos melódicos idénticos para contextos comunicativos similares. En la sospecha de que un idioma tonal como es el mandarín implicaría mayores restricciones en el uso de la entonación (visto el tono hace a las diferencias léxicas), se ha comprobado que el valor formal (morfémico) del tono respeta la melodía expresiva en la cadena de habla dirigida a los bebés (M. Papoušek, H. Papoušek & Symmes, 1991). Las diferencias encontradas fueron solamente de ‘expansión’: las madres norteamericanas son más expansivas en el uso de aquellos patrones de expresividad hallados también en las madres chinas y en las alemanas (diferencia en grado, con origen cultural). En consecuencia, los universales melódicos del habla materna no están influidos por la estructura lingüística, la tradición, la edad, el sexo o la crianza del niño, sino determinados por las constricciones de la biología específica (species-specific) (M. Papoušek, 1987; M. Papoušek, 1995; Trehub, 1990). En las díadas de interacción entre adulto y bebé se observa cómo el maternés sigue las pautas de una musicalidad dentro de la que encuentra un cauce natural y universal, cauce que lleva en sí las posibilidades de todas las lenguas tonales y no tonales.
A los 2 meses, los bebés segmentan la cadena acústica del habla por el reconocimiento de unidades no fonéticas sino silábicas. Jusczyk mostró cómo a esta edad no hay sensibilidad para identificar las diferentes consonantes o vocales, pero sí para detectar los segmentos silábicos (Bertoncini, Biljeljac-Babic, Jusczyk, Kennedy & Mehler, 1988; Jusczyk & Derrah, 1987), lo que implicó asumir que era la sílaba, no los fonemas, la pieza determinante de la percepción del habla en la primera infancia. Si la emisión oral está forzada a respetar las constricciones del tracto vocal y las de la liberación del aire, el ritmo y sus características de pausa, altura, acento, etc., estos factores son también la pista principal, en cualquier lengua, para el posterior desciframiento de la cadena del habla. De acuerdo con ello, tanto la mora japonesa como el acento trocaico de la lengua inglesa son factores añadidos a esta primordial pericia de segmentación (F.G. Rodríguez, 2010). Si el habla se compone de sonidos que a nivel fonético no acusan pausas entre sí, tal como lo refleja la espectrografía, la sílaba funciona como primera herramienta con la que el bebé empieza a desenganchar, por regularidad, las unidades de sonido que más tarde darán los fonemas y morfemas de la lengua.
Alrededor de los 6 meses los bebés tienen la habilidad de distinguir pausas correctas en la enunciación, interrupciones colocadas en los puntos de cesura de dos contenidos proposicionales, discerniéndolas de pausas incorrectas (Hirsch-Pasek, Kemler Nelson, Jusczyk, Wright Cassidy, Druss & Kennedy, 1987; Jusczyk & al., 1992; Kemler Nelson, Hirsch-Pasek, Jusczyk & Wright Cassidy, 1989). La fuerza de las pausas (temporalidad y pulso) se vio respaldada por distintas experiencias en que los bebés mostraban su capacidad para reconocer pausas correctas e incorrectas en fragmentos musicales (Jusczyk & Krumhansl, 1993; Krumhansl & Jusczyk, 1990). Estos patrones suprasegmentales se encuadran entre las propiedades amodales, revelando cómo el instrumento de la temporalidad sirve al niño pequeño para la descompresión de la compacidad acústica del habla y, por su medio, para comenzar con la decodificación del S-código que es la estructura fonológica de su lengua materna.
Con estos resultados (en los que la pista acústica dio pruebas de ser la primera variedad de parsing en el habla), se esgrimió la hipótesis del bootstrapping prosódico como estrategia del aprendizaje de la lengua[10]. La habilidad de los bebés para reconocer fragmentos del flujo del habla por características prosódicas exageradas en el maternés abrió la puerta para suponer que este mismo recurso podía ser la clave para el reconocimiento de estructuras sintagmáticas particulares. Pero esta línea de investigación se mostró insuficiente para dar cuenta acabada del progreso de la comprensión gramatical (Gerken, Jusczyk & Mandel, 1994). La idea de que entre la prosodia se escondieran todos los secretos de la adquisición morfosintáctica quedó frustrada: el maternés no condiciona el proceso de adquisición lingüística más que muy generales en constricciones que orientan al niño, esencialmente, acerca del tono emotivo de la enunciación (Karmiloff & Karmiloff-Smith, 2001; Gerken & Aslin, 2005).
Los trabajos de H. y M. Papoušek más estos resultados obtenidos por Jusczyk (la idea, por una parte, de que hay en las expresiones de la oralidad emocional cierta prosodia que atraviesa las fronteras culturales y, por otra, la de que las marcas musicales habitúan de a poco la audición de los bebés a los sonidos de su lengua) llevan a aceptar que sin cierta pericia en el manejo de las propiedades amodales no sería posible el ulterior aprendizaje de las unidades significativas mínimas que llevarán, en el mediano plazo, hasta el lenguaje. Para arribar hasta la comprensión de los primeros elementos léxicos debe tener antes lugar, desde las propiedades amodales y sobre la base de un marco de buen entendimiento empático con el adulto, el desarrollo de la habilidad para quebrar el torrente del habla en paquetes discretos de sonido, siguiendo la pista de las sílabas y la prosodia.
3.2. La expresividad oral del niño: de las protofonaciones a las holofrases
Las vocalizaciones protofonatorias son modulaciones imperfectas de sonidos sin significado, que cumplen empero un rol central, y predictivo, en el contexto de la adquisición lingüística (Karousou, 2003; Karousou & López Ornat, 2005; López Ornat & Karousou, 2005; Murillo & Belinchon, 2013; Serra et. al., 2000). Al gagueo-laleo (según la oclusión: velar o linguo-palatal) sigue más tarde, aproximadamente a los 6 meses, el llamado balbuceo canónico: el repertorio de emisión oral del niño se organiza en torno a la unidad silábica, en el comienzo bajo su variante reduplicativa (iteraciones de las fórmulas CV/consonante-vocal o VCV/vocal-consonante-vocal: ba ba ba), luego en el arreglo a un balbuceo melódico (con alternancias vocal-consonante de más largo aliento y dibujando un contorno melódico: aaaaabÁ). A los 10 meses, surge el balbuceo variado o modulado, que exhibe mayor destreza en la gama tonal-melódica de los sonidos de la lengua y en su tempo. Apoyándose en los contornos melódicos y en un conocimiento progresivo de los componentes fonológicos y fonotácticos del propio idioma, más el ejercicio inevitable de audición de los sonidos efectivamente proferidos (que funciona como un correctivo por medio del cual las vocalizaciones tienden a adaptarse a los registros auditados en la enunciación adulta), los niños consiguen aplicar estos recursos a la producción de vocalizaciones sígnicas.
Hacia los 12 meses la madurez laringo-bucal, la cupla cognitiva de emisión/audición y las habilidades psicológicas de la atención conjunta y de cierta incipiente lectura de mente se encuentran a punto como para converger en las primeras producciones de palabra. A partir de ese punto y hasta los 18 meses se suele delimitar una fase expresiva caracterizada por las holofrases: palabras aisladas, correctas o aproximadas, con significados que van más allá de la pura nominación. Cuando en determinada circunstancia el niño verbaliza ‘agua’, los adultos saben normalmente si se trata allí de un nombre (de una identificación) o bien una solicitud: /quiero agua/. La comprensión de cualquier holofrase implica el reconocimiento de la intencionalidad del niño y a la vez una decodificación certera de las coordenadas pragmático-contextuales compartidas, sin las que resultaría difícil distinguir, en ‘agua’, acusativo de nominativo.
Se encuentran aquí, como otro tipo de expresiones holofrásticas, las amalgamas, pegoteos de un par (o más) de voces que se emplean en bloque y nunca separadas, como si se tratara de una misma y única palabra. El niño ubica con justeza, en sus intervenciones, ‘aca-tá’ /acá está/ o ‘no-tá’ /no está/ sin aparentemente haberse percatado de que la emisión es un compuesto. Las partes ensambladas no han sido hasta este momento objeto de una disección.
Hacia el final de este período holofrástico, los niños pueden comenzar a producir cadenas de palabras que no constituyen articulación sintáctica (Serra & al., 2000). Aunque espaciadas por silencios, corresponden a una sola y unitaria acción enunciadora, ya que los términos responden a una sola idea de fondo. Al mismo tiempo, por medio de análisis espectrográficos (Branigan, 1979) se hizo el descubrimiento de que la fracción final de una palabra tenía idéntico contorno de emisión tonal que el que, pausa mediante, lucía la primera parte de la palabra siguiente. Esto llevó a pensar en una suerte de continuidad para la serie de palabras secuencialmente enunciadas.
Otra estructura pregramatical de este período son las llamadas construcciones verticales (Scollon, 1976), donde la secuencia de emisiones –sobre un tópico particular– se apoya en las intervenciones del adulto: ‘¿Qué querés?’ | ‘Abba’ | ‘¿Agua?’ | ‘Mucha’. Sin forzamiento se puede apreciar cómo el niño ha sumado al nombre de la cosa un complemento de significado. El interlocutor brinda el soporte, con su participación, para que aquél cumpla mejor con su intención enunciativa. Este formato enunciativo refleja el soporte protoconversacional de los primeros intercambios.
Alrededor de los 18 a 20 meses, sin que estas formaciones (ni eventuales vocalizaciones ininteligibles) dejen de tener lugar, los niños comienzan a combinar sin mediación de pausa dos palabras sobre un mismo objeto, evento o situación. En la mayoría de casos no hay presencia de elementos conectivos, sino adjunción de términos de referencia y de predicación. Debido a la ausencia de los articuladores del lenguaje adulto, esta estrategia ha sido caracterizada como de habla telegráfica. Si bien el rótulo sesga en cierta medida la interpretación de este tipo de producciones, porque de hecho también hay palabras de carácter funcional, éstas son prevalentemente un eco de las expresiones auditadas y no un ejercicio de pleno dominio intelectual. Este período de dos palabras (o de primeras composiciones) se extiende en promedio hasta los 27 meses (con todas las salvedades cronológicas presumibles –Pine & Lieven, 1990–). Para entonces, las verbalizaciones gradualmente empiezan a tener más unidades, y ocurre la aparición de estructuras morfosintácticas reconocibles (Serra & al., 2000).
En lo que hace al lenguaje, queda sumariamente inventariada esta secuencia: balbuceo canónico → (balbuceo reduplicativo/ balbuceo melódico) → balbuceo variado → holofrase → primeras composiciones verbales presintácticas[11].
4. La modalidad gestual y el comienzo de la expresión comunicativa
La atención conjunta surge del propio interés por los objetos y los semejantes y revela, en los bebés, discernimiento de que los demás, tanto como ellos mismos, se vinculan intencionalmente con el entorno de objetos. Sobre esta base, durante el último cuarto del primer año de vida, se produce la expresión intencionada, con la cual el niño ingresa, en calidad de agente, al universo de la comunicación (no a la semiosis, por supuesto, que estaba presente desde los inicios, ni tampoco a los fenómenos de comunicación en su más vasta generalidad, de los que ya participaba en tanto receptor de los mensajes de los otros). De acuerdo con la noción de intencionalidad de meta, por primera vez el niño ha separado medios/fines usando los signos con valor de medio para causar un efecto sobre el interlocutor. En el debut del acto comunicativo del sujeto, el signo es gesticulativo (no son propiamente signos las señales que el bebé ha podido modular con anterioridad). La forma inaugural de la expresión intencional, intencionada, sígnica, social e individual es por lo tanto el gesto con el que el bebé indica a su partenaire algo del mundo que ha captado su interés. Se trata en principio de los gestos deícticos, los que, como ya hemos desplegado, satisfacen dos finalidades: requerir del otro cierta mediación respecto de lo señalado (gestos protoimperativos) o compartir una experiencia (mostrar por el hecho de mostrar y establecer un lazo atencional sobre el objeto: los protodeclarativos).
Estos dos signos primordiales quedaron establecidos, perdurablemente, al promediar la década de los 70 (Bates, 1976; Bates, Camaioni & Volterra, 1975; 1976). Se ha conservado su designación y se ha convalidado su importancia. El gesto preverbal es la herramienta primeriza con que el niño, todavía bebé, produce signos en su más propia acepción: acciones despegadas de alcanzar sobre las cosas resultados prácticos y que se elevan, de este modo, por encima de su condición de acciones. Ello faculta a una expansión del universo del bebé en que se supera la primera realidad del semejante como otro-instrumento de satisfacción y como contrapolo con quien compartir formas de la vitalidad y emociones discretas, de manera tal que por el signo ambas esferas (mundo y semejantes, lo otro de sí mismo/los otros distintos de sí mismo) se incluyen en su comportamiento de manera vinculante.
El primer gesto se presenta normalmente, para los protodeclarativos y los protoimperativos, bajo la morfología común del pointing (el dedo índice extendido). Entre ambas funciones existen profundas diferencias cognitivas, pues mientras que el protoimperativo se puede entender como conducta positivamente reforzada al recibir del otro lo solicitado, la protodeclaración supone en cambio que, dado que el niño no recibe nada, una determinada comprensión del otro como sujeto capaz de compartir su percepción y su interés por los objetos (Camaioni, 1993). En rigor, esta segunda funcionalidad se halla igualmente reforzada cuando el interlocutor atiende a lo que el gesto le haya señalado, pero el retorno de la gesticulación es en definitiva un premio inmaterial, el establecimiento de una relación con excusa en las cosas. El vínculo intersubjetivo, en el comienzo restringido a la agencialidad ecomotriz (imitaciones neonatales, intercambios por formas de la vitalidad, interacciones protoconversacionales), ahora se proyecta, por iniciativa del infante y por la mediación del signo, sobre el mundo de las cosas, pero es a partir de la gesticulación protodeclarativa que puede considerarse al pointing como práctica que liga la interioridad del niño con la de los otros (comprendidos como otros-sujetos de experiencias de la clase que él mismo posee).
Al extender su mano hacia un objeto el niño hace entender preverbalmente una solicitud (/dame/), o bien usa el objeto como trampolín para acceder hasta el adulto (hasta su condición mental) y transmitirle su interés (una intención en el sentido fenomenológico). El niño se halla en condiciones de pedir o declarar mediante el gesto lo que en corto tiempo manifestará a través de las palabras. Esta continuidad montada sobre el eje comunicativo permite entender al gesto como precursor de la expresión verbal, aunque su rol de tal debe ser apropiadamente demarcado. No es precursor de la palabra en la misma medida en que lo son las protofonaciones (los sonidos de la lengua son el hilo conductor que lleva de las vocalizaciones preverbales hasta la generación de sintagmas y de oraciones –Karousou, 2003; Karousou & López Ornat, 2005–); lo es, sin duda, como primer instrumento dirigido a un semejante para interactuar de forma claramente intencional-intencionada.
La asociación entre gesto y palabra cursa diferentes fases en el desarrollo del sujeto. En un comienzo colaboran en pie de igualdad para confeccionar composiciones que son las primeras expresiones de dos componentes (sobre ello, infra sección 5), luego sucede haber composiciones de palabra (y el lugar del gesto durante este tiempo es lo que indaga este trabajo), y todavía más tarde, con la gramaticalización del habla, el gesto queda marginado de las reglas de articulación a las que, por sus cualidades de tipo significante, no puede integrarse[12].
El reperfilamiento de la condición del gesto respecto de la palabra, la cual por su parte obtiene de la gramaticalización un máximo de versatilidad, no implica sin embargo que el aporte del signo gestual a la modalidad oral, devenida lingüística, se haya desvanecido o vuelto tangencial. En la experiencia cotidiana se puede evocar el tan común olvido de palabras y el fenómeno de punta de la lengua (por el que una amnesia accidental no suprime el recuerdo de rasgos formales asociados: cantidad de sílabas del término, tipo de acentuación, fonemas –Brown & McNeill, 1966–), casos en que el gesto acude a reemplazar el signo esquivo, lo que sin forzamiento de interpretación permite colegir que las dos variedades de expresión –gestualidad, palabra– comparten un mismo diccionario cognitivo o léxico mental.
4.1. Definición del gesto
La definición de gesto, como la de otros conceptos de uso cotidiano, dista de ser apropiada para una investigación científica. Al mismo tiempo, ésta no aporta una caracterización unánime. El gesto incluye a veces la expresión facial y postural, y a veces deja a un lado toda acción que incluya objetos. Algunos expertos decidieron descontar (Butcher & Goldin-Meadow, 1993) los casos rituales (por ejemplo, sacudir la mano para saludar), los casos de imitación (sin contemplar que el gesto imitativo, en tanto gesto, es realizado para el interlocutor y no como una acción refleja) e incluso determinadas formas lúdicas de simbolización, como cuando los niños se valen del cuerpo y los objetos para crear ficciones (montar a caballo en un palo de escoba, llevarse a la oreja el tubo del teléfono –formas del como si infantil que, si son efectuadas convidando al semejante alguna significación, no son tan sólo acciones físicas de juego sino comunicación–). El argumento con que algunos han resuelto marginar el caso lúdico de simbolización apunta a la dificultad de distinguir si el niño está ritualizando una nueva rutina o si se trata de una verdadera acción de comunicación. Con vara menos restrictiva, otros especialistas consideran como gesto de pleno derecho la expresión del rostro y cualesquiera empleos del cuerpo que sean portadores de significado (Crais, Douglas & Cox Campbell, 2004). Adam Kendon, figura central de los estudios sobre el gesto y responsable de su creciente importancia en la semiótica de nuestros días, entiende ser gesto la acción voluntaria ejecutada para fines de expresión, pero –consciente de la vaguedad de esta definición– subraya que
Las distinciones y las clasificaciones que inevitablemente son creadas toda vez que se discute el gesto [it] reflejan las diferentes comprensiones que los estudiosos del gesto han tenido acerca de cómo funciona. Los particulares sistemas de clasificación desarrollados son instrumentos útiles de trabajo para una investigación dada, pero no deberían considerarse como otra cosa (Kendon, 2004, p. 85).
En nuestro estudio el gesto es definido como aquella comunicación que el individuo realiza mediante el cuerpo, esto es: toda conducta que involucre signos no verbales partiendo de la motilidad y llegando al canal visual. Esto comprende el caso del galope con palo de escoba, el de la mímica con el teléfono y otras variantes similares, siempre que en el contexto de la situación pueda asumirse que existe en efecto una intención de tipo comunicativo, ya fuere consciente o inconsciente, y que por ende es portadora de intención y de contenido significado a un receptor. El rasgo distintivo del signo gestual, a diferencia del signo palabra, es que posee una complexión holística (Goldin-Meadow, 2005), o global-sintética (McNeill, 1992), una compacidad semántica no degradable. Si la palabra se flexiona y/o se acomoda a los dictados en virtud de los que puede generar significados de mayor complejidad, el gesto constituye una unidad semántica sin partes. Su movimiento sí puede escindirse, pero al quebrar su integridad formal desaparece en simultáneo toda significación porque el gesto carece de morfemas. Esta desemejanza es lo que vuelve interesante analizar qué ocurre entre gesto y palabra cuando esta comienza a poder combinarse con otras palabras y sale con ello a relucir su condición diferencial.
El movimiento gesticulativo se ejecuta en tres tiempos estándar: preparación o arranque (onset), el golpe –cuando ofrece su morfología acabada– y posterior relajación (McNeill, 1992). Por esta anatomía, la gesticulación se vuelve discernible de otras formas de expresión que emplean el cuerpo. El gesto es breve, por así decir va y viene, se proyecta hasta su forma consumada y se disuelve. Si el niño quisiera hacer entender su deseo –por ejemplo– de jugar al avioncito, y abre los brazos en símil de vuelo para, acto seguido, devolverlos al reposo, entonces habrá gesticulado; si al contrario el niño se demora en el placer del volar lúdico y sigue con ambos brazos extendidos, ya no entenderemos que haya meramente gesto sino juego, ficción plena, y que el niño se está moviendo en un distrito conductual distinto (dentro del que, por supuesto, podrá ejecutar conductas comunicativas).
En esta tesitura sería inadecuado desechar de cuajo la expresión facial. Es menester, no obstante, la siguiente distinción. Ella es semiótica invariablmente, pero sólo cuando sucede initencionadamente se convierte en comunicativa (con arreglo a nuestra concepción de base). Cuando la configuración semiótica del rostro es la reacción refleja con que, de forma automática, se exterioriza un estado afectivo sin que medie una intención de transmitir, no hemos de computarla como comunicación. Si al contrario el niño infla las dos mejillas para, presumiblemente, referirse a un individuo gordo o aludir a la gordura, o si declina los dos labios por las comisuras y eleva las cejas para responder a una interrogación con signo de ignorancia, entonces se reconoce allí una significación montada para la decodificación, y ambos ejemplos se puntúan como semiosis comunicativa. Se discrimina, de este modo, entre aquella expresión alojada en la cara y aquella actuada ex profeso. La risa, la sonrisa y otras manifestaciones espontáneas son desafectadas de nuestra categoría de gesto por ser una resonancia de los estados internos de emoción en la musculatura corporal, y particularmente de la cara, salvo en aquellos casos donde se producen para un interlocutor con pretensiones de afectarlo (Ekman & Friesen, 1982).
En paralelo, parece atinado recortar del gesto comunicativo los que pudiera librar el individuo para sí, los casos de autogesticulación (Delgado, Gómez & Sarriá, 2010; Español & Rivière, 2000; Español, 2006; Goldin-Meadow & Wagner, 2005; Goldin-Meadow, Nusbaum, Kelly & Wagner, 2001; C. Rodríguez, 2009). Sucede a menudo que el niño pequeño sostiene del gesto, mayormente un pointing, cierta operación mental de reconocimiento en la que el interlocutor, si hubiera, no cumple ningún papel. El gesto autodirigido ciertamente apunta más allá de sí en cuanto que signo y en cuanto está vinculado a un referente, por lo que no cabe reducirlo a mera acción, pero se trata de un empleo del signo que está más emparentado con procesos cognitivos intra-subjetivos que con intercambios comunicativos. Tal como ocurre con los casos del habla autodirigida, donde la palabra no está destinada a transmitir sino a ordenar los propios pensamientos; el gesto también, si es de esta clase, no busca hacer comprender un contenido a un interlocutor sino ayudar a concebirlo de un modo más claro. De hecho, en un gesto así coinciden emisor y receptor: todo consiste en ordenar de un modo conveniente la propia ilación mental, en prestarle un tipo distinto de asistencia, en fecundar o explicitar ideas para el mismo sujeto gesticulador (Alibali & Goldin-Meadow, 1993; Goldin-Meadow, 2006; Goldin-Meadow, Alibali & Church, 1993; Goldin-Meadow & Momeni Sandhofer, 1999; Stevanoni & Salmon, 2005; Wagner Cook & Goldin-Meadow, 2006). Habrá que recordar, quizás, que el carácter social del signo era uno de los cinco rasgos de nuestra definición de comunicación. Contra lo que pudiera suponerse, de otra parte, el autogesto no es en realidad un estadio ulterior de la semiosis infantil, sino que se anticipa al gesto comunicativo (Bates et al., 1975) o hace su aparición al mismo tiempo que él (Español & Rivière, 2000).
4.2. Las distintas clasificaciones del gesto
Existen distintas clasificaciones para el gesto. La división más aceptada separa los gestos deícticos y los representacionales (Butcher & Goldin-Meadow, 1993; Goodwyn & Acredolo, 1993; Iverson & al., 1994). Los deícticos remiten la atención del interlocutor hacia un objeto o situación al que se encuentran espacio-temporalmente vinculados (el dedo índice extendido funciona como vector que apunta aquí y ahora al referente). Están subdivididos entre las variantes pointing: señalar; showing: mostrar; reaching: intento de alcanzar; request: solicitar (mantenemos las voces inglesas que se han adoptado de manera casi consuetudinaria). Los gestos representacionales son denominados, bajo otras rotulaciones, ya referenciales (Caselli, 1990), ya simbólicos (Acredolo & Goodwyn, 1988), ya icónicos (McNeill, 1992; Namy, Campbell & Tomasello, 2004). Corresponden a la significación icónica y por ello no precisan de contigüidad espacio-temporal con relación al referente. La evocación figurativa, al dar la forma del objeto o de la situación que se quiere ilustrar, vuelve reconocible el contenido de la comunicación (se abren de par en par las manos y los brazos para indicar /grande/, o se frotan las palmas como en la acción de lavado para sugerir, precisamente, /lavarse las manos/).
Junto a esta distinción pionera deícticos/representacionales, algunos estudios han considerado una tercera clase de no menos importancia, la de los convencionales (Capirci et al., 1996; Iverson& Thal, 1998). En ellos, la faz significante se vincula por puro capricho cultural con su debida contraparte de significado (una tipología de gestos donde, a diferencia de los anteriores, no existe motivación intrínseca de forma y contenido). Si la motivación consiste en que el agente sígnico surja de cierto modo a partir del objeto que el signo conjura, ya fuere debido a una proximidad indexical o a alguna semejanza icónica, el gesto de este tercer tipo vincula, por el contrario, el aspecto significante con el correlato ideacional-referencial mediante puro arbitrio. En los estudios que, como el presente, persigan continuidades y rupturas entre el gesto y la articulación verbal no puede prescindirse de la gesticulación inmotivada. No cuando aquel relevo que opera el lenguaje, al ocupar el centro de la escena comunicativa, convencionalizará los signos de la interacción fuera de todo viso motivacional, esto es, por mor de la arbitrariedad[13].
McNeill (1992) aporta una categorización más exhaustiva de los tipos mínimos gestuales, forjada a partir de la gestualidad adulta y que explicita posibilidades que es difícil hallar en los niños de temprana edad. Reconoce gestos deícticos e icónicos, y en relación con estos agrega la novedad del gesto metafórico, figurativo como el gesto icónico pero distinto porque su significado es un concepto abstracto (ej.: el movimiento de presentación de un pensamiento al interlocutor, como si se dijera ‘esto es así’, llevando hacia adelante las dos manos separadas, conservando su distancia, en ademán de proponer o mostrar algo físico, corpóreo, el ‘esto’ de la locución). Luego incorpora una categoría tomada en préstamo de otros estudios (Efron, 1941; Ekman & Friesen, 1969): el gesto beat, gesto de marcación o acentuación en el que la morfología se vuelve irrelevante (a diferencia del papel que cumple entre los tipos anteriores); se trata del gesto que otorga a un determinado contenido un rango de importancia superior al de los otros signos agenciados (dentro de un parlamento, por ejemplo, la palabra o la idea más importante es destacada por medio del índice extendido o por un golpe que subraya su papel central). Según McNeill:
Los beats revelan la concepción del discurso narrativo del hablante en tanto que totalidad. El valor semiótico del beat yace en el hecho de que indica la palabra o frase que acompaña como significativa, no por su propio contenido semántico, sino por su contenido pragmático-discursivo (…). Así, los beats distinguen cierta información que no lleva adelante la línea argumental sino que provee la estructura dentro de la cual la línea argumental se despliega (McNeill, 1992, p. 15).
Aparte de los beats, una quinta categoría reúne gestos cohesivos: gestos ilativos que, al contrario de los beats, menos que subrayar, brindan continuidad al tratamiento de distintos tópicos dentro del habla discursiva, o bien separan planos y niveles de articulación (mover la mano abierta para atrás sugiere, en un relato, precedencia temporal). Son el equivalente de los conectores del discurso; como tales, no parece que en principio se puedan hallar ejemplos en el repertorio de los niños pregramaticales. Finalmente, los gestos convencionales son asimilados a los gestos arbitrarios integrantes de sistemas normativos y carecen de interés para McNeill (cuando, no obstante, hay gestos arbitrarios que funcionan fuera de toda inscripción gramatical: los emblemas, como el pulgar levantado –Ekman & Friesen, 1969; Kendon, 1988–).
Figura 5. Clasificación de los tipos de gesto I.
Comparación de dos propuestas diferentes: Iverson y Thal (1998), respetuosa de los tipos más tradicionales; McNeill (1992), de más fina discriminación, aunque anterior [14]
Fuera de la morfología y de la maniobra vincular por la que el signo se une con el referente (al tiempo que lo funda en calidad de tal), es obligatorio no perder de vista las funciones que la gesticulación posee desde un enfoque comunicativo general. En otros términos, importa enriquecer los estudios formales sobre el gesto contemplando para qué usa el niño, en esta etapa, este tipo de signo: qué sabe hacer con él. A los 18 meses encontramos, junto con los usos conativos y declarativo-informativos (que despuntan, como ya hemos dicho, hacia el final del primer año), distintas funciones que nutren el intercambio con el semejante y el dominio progrediente, por parte del niño, de su modus (ars) communicandi[15].
Sin los detalles de la multiplicidad de subfunciones que, de un tiempo para acá, se están documentando específicamente para el pointing (indicar objetos in absentia, informar predicativamente al interlocutor adulto –Liszkowski, Carpenter & Tomasello, 2007–), se puede cartografiar el territorio de las funciones del gesto, en comunión con las de la palabra pregramatical, usando las categorías de las funciones del lenguaje. Bühler (1934) estableció una terna elemental, irreductible, de funciones del lenguaje. Cuando el signo se emplea con la finalidad de transmitir un pensamiento sobre un referente, la comunicación lingüística reviste afán informativo; cuando recurre al otro con el objetivo de ordenarle o requerirle alguna prestación se usa con funcionalidad apelativa, y si el sujeto ilustra con palabras su particular estado de ánimo o su parecer respecto de un hecho concreto se asume que allí él se expresa, y la función es expresiva. Las tres funciones corresponden respectivamente a la 3ª, la 2ª y la 1ª personas gramaticales, un paralelismo suficientemente llamativo como para que Bühler circunscribiera allí todas las aptitudes del discurso. Más tarde Jakobson aumentó este número todavía estrecho y aportó el modelo de funciones del lenguaje que, con sus defectos e impurezas, permanece hoy día como primera referencia en este tema (Jakobson, 1960). Incorporó la función de contacto (o fática de Malinowski), donde aquello que se diga importa menos que el mantenimiento abierto del canal (la posibilidad de intercambiar con tal o cual destinatario); la función poética (atenta a la buena forma, forma estética, de plasmar el mensaje); y la función metalingüística, vuelta hacia el código y a distinguir dos planos o niveles del mensaje, uso y mención. Austin (1962) sumó casi contemporáneamente una última función, función performativa (=ejecutiva), donde la palabra hace a la vez que comunica: por ejemplo, cuando se realiza una promesa (1ª persona en presente de indicativo), esa promesa ocurre en la acción de enunciarse[16]. El cuadro estándar de funciones quedó así configurado, con independencia de otros ejercicios de categorización muy atendibles (ej.: Dale, 1980; Halliday, 1975, 1978, 1982[17]).
Esta categorización ha sido, entre otras cosas, censurada con el argumento de que el uso del lenguaje apela harto regularmente a más de una función. Ello no inhibe, sin embargo, que exista una franca utilidad en disponer de clases que organicen la palabra desde la finalidad que el emisor persiga de forma consciente o inconsciente. Sobre los alcances, los aciertos y asimismo las insuficiencias de esta clasificación existe una bibliografía copiosa, pero, por sobre todo tipo de objeciones, el esquema general se ha mostrado fecundo. Hay que asentar no obstante que, siendo un esquema de funciones del lenguaje, aquí es incorporado más allá de sus fronteras naturales y como instrumento para distinguir funciones comunicativas, lo que abarca al gesto, la expresión facial y corporal. Desde el principio será conveniente explicitar que no se espera que todo el conjunto de funciones comunicativas se halle presente en intercambios de edad pregramatical. Por poner un ejemplo, la función metalingüística suscita la impresión de ser, de manera exclusiva, una valencia de la comunicación más avanzada (porque presupone un nivel básico o lenguaje-objeto, y por encima otro que lo contenga). Un similar prejuicio afecta a la función poética, según la cual hay un trabajo de creación y de embellecimiento difícil de imaginar en un momento tan temprano, cuando el repertorio sígnico es tan limitado y no hay presencia de reglas combinatorias.
5. La relación gesto-palabra
El tratamiento de esta subsección se desenvuelve sobre dos planos diferenciados. El primero es el del desarrollo ontogenético, imprescindible aquí para delimitar el campo de nuestro trabajo empírico. El segundo concierne a planteos conjeturales que abordan la relación gesto-palabra desde el mirador filogenético (la hipótesis bickertoneana del protolenguaje original vs. la hipótesis Hewes-Corballis sobre un primitivo lenguaje gestual).
5.1. La relación gesto-palabra en niños pregramaticales
Antes de que el lenguaje se establezca como sistema de signos concertado por determinadas reglas de orden, la gestualidad es ya un medio solvente para gestionar la comunicación, y sabe hacerlo tanto por sus propios medios como por medio de acoplamientos con signos de la modalidad oral. La yuxtaposición de gesto y vocalizaciones parece indicar que ambos recursos colaboran de modo eficaz en las interacciones de tipo semiótico. Tal como afirma McNeill, “los gestos y el habla crecen juntos. No deberíamos hablar de adquisición del lenguaje sino de adquisición de gesto-lenguaje” (McNeill, 1992, p. 295). Sin embargo, existen dos lecturas del modo en que el gesto y la palabra se vinculan durante los dos primeros años de vida del niño.
Por una parte, a diferencia de muchos especialistas para quienes la morfología del gesto en esta etapa ya es reconocible en forma y contenido (y distinguible de la mera acción), McNeill considera que el gesto genuino no tiene lugar sino hasta que aparece la palabra verdadera (la que ha revelado todas sus aristas de signo gramatical), por lo que únicamente desde entonces, al haberse distinguido el uno de la otra (hasta ese punto de la misma estofa), pueden co-ocurrir como dos variedades sígnicas discriminables. Según su perspectiva, hasta los 18 meses de manera aproximada el gesto y la palabra no co-ocurren porque el gesto y la palabra no son formas diferentes de expresión. Esta exigencia de que el gesto y la palabra se hayan diversificado, afirma, coincide con la frontera cronológica en la que los signos se transformarían en símbolos. En tanto que aquel primer gesto no es un símbolo, porque refiere apenas por una ruta indicial (deixis) y por iconicidad rudimentaria (fundido con una mímesis de la cosa aludida –“más cercana a la enacción”, McNeill, 1992, p. 296–). El gesto auténtico, que es símbolo, está liberado de copiar la cosa. Mientras que el niño use su cuerpo representacionalmente, su comunicación permanece mezclada con la acción imitativa, que ha de pensarse como un protogesto (1992, p. 300). El gesto y la palabra verdaderos superan un estadio inicial en el que la homogeneidad entre ambos permitía composiciones entre iguales.
Hasta que el gesto no se constituya enteramente como un signo diverso de la expresión verbal, protogestos y palabras son dos unidades sígnicas de una estofa común, aunque discurran por modalidades diferentes (‘modes’ o ‘channels’, en su denominación –McNeill, 1992, p. 299–). Esta visión del gesto depende en particular de la acepción de símbolo adoptada por McNeill y de la restricción de co-ocurrencia. La versión de McNeill se apoya en la teoría de Werner y Kaplan, según la cual el niño prima facie actúa el significado de su comunicación, pone su cuerpo para imaginarizar el referente de forma de ser aquello que así representa. Según este enfoque, en el comienzo no habría ese distanciamiento que es propio del símbolo en su calidad de vínculo arbitrario de ‘significado más significante’ (lo que en Piaget sólo consigue el signo) y habría en cambio un desarrollo progresivo en dirección a una creciente dosis de abstracción (Werner & Kaplan, 1963).
La perspectiva de McNeill debe enfrentar diversas objeciones. Primero, el protogesto tiene ya la forma y funcionalidad del gesto posterior, pauta más fuerte que el corte por co-ocurrencia junto con las unidades de palabra auténtica. Segundo, el gesto icónico o representacional, aquel que significa asemejando el signo al referente, no se modifica en forma ni en función cuando co-ocurre con la verbalización. Tercero, la separación entre el significante y el significado, y el progresivo vaciamiento de motivación en pos de la arbitrariedad no se han visto verficados en pruebas recientes. En efecto, el gesto icónico o representacional y el arbitrario están ambos presentes hacia los 18 meses (Namy & al., 2004), confirmando que la adquisición de la función semiótica no se halla organizada por un curso evolutivo motivado → inmotivado (Campbell & Namy, 2003; Namy, 2001; Namy & Waxman, 1998, 2000; Woodward & Hoyne, 1999). El hecho se condice con el surgimiento del signo verbal (símbolos en McNeill) en general antes de la emergencia de la gesticulación icónica.
Mérito indiscutible de McNeill, cuya lectura de la condición gestual temprana nos parece sin embargo equivocada, es proponer una estructura cognitiva compartida subyacente a locuciones y expresión gestual, una organización común donde las dos clases de signos (convergentes en el 90 % de los casos de la comunicación gestual adulta –McNeill, 1992–) coinciden tanto en la cronometría de su expresión como en la afinidad semántica. Esta estructura funciona según McNeill a partir de que el gesto y la palabra se hayan independizado, vale decir desde que han adquirido sus perfiles caracterológicos diferenciales.
Las objeciones antes señaladas nos llevan hasta una posición contraria, que admite a las manifestaciones significativas no verbales realizadas por los niños como gestos de pleno derecho. En el período holofrástico, gesto y palabra cooperan en la configuración de comunicaciones integrales (Butcher & Goldin-Meadow, 1993; Capirci & Volterra, 2008; Capirci et al., 2005; Capirci et al., 1996; Gogate et al., 2000; Gullberg, De Boot & Volterra, 2008). El pasaje del gesto puro y la palabra aislada al manejo solvente de la lengua natural está marcado por una fase intermedia en que las unidades de uno y otro tipo, gestual y verbal, se asisten para armar las primeras composiciones de significado. Como hemos destacado ya en la Introducción, antes de que en la etapa de las dos palabras el niño pueda anexar dos unidades léxicas, en la etapa holofrástica despuntan los enlaces de significantes bimodales que suponen las primeras formas de combinación semántica en el niño. Se ha distinguido, en el comienzo, un acompañamiento de gesto y palabra donde las dos unidades portan un mismo significado, el cual de esta manera se refuerza (redundancia), y luego un emparejamiento en que las dos mitades del mensaje (ambas modalidades) aportan por separado información diversa sobre un solo y mismo referente (Butcher & Goldin-Meadow, 1993; Goldin-Meadow & Morford, 1985, 1990). Esta separación entre composiciones redundantes y suplementarias se vio enriquecida con una categoría intermedia que llevó los tipos de composición a tres: equivalente (redundancia exacta de la información vehiculizada por las dos clases de signo), complementaria (diferente aporte informativo sobre un mismo referente) y al cabo suplementaria (información sobre dos referentes). Ejemplo de la primera variedad compositiva es el gesto de pointing coincidiendo con un deíctico verbal (señalamiento de un objeto y dicción ‘esto’). De la segunda, el pointing más la enunciación del nombre del objeto (señalamiento de un autito y dicción ‘–tito’ /autito/, que suma a la localización un juicio conceptual). De la tercera, el pointing del objeto ahora asociado con la dicción ‘mi’, marcando una vinculación sujeto-objeto que expresa la idea de posesión (/yo esto/ o /esto mío/). Según algunas investigaciones, hay un progreso que lleva de las composiciones cognitivamente más sencillas (las equivalentes) a las más complejas (las suplementarias, donde cada signo es portador de un diferente contenido ideacional) (Butcher & Goldin-Meadow, 1993; Capirci et al., 2005). Tomadas en bloque, la composición equivalente y la complementaria se oponen a la suplementaria en que ambas versan sobre un mismo y solo referente, pero mientras que en aquélla el gesto y palabra coinciden ciento por ciento en cuanto al tipo y cantidad de información, en ésta aportan contenidos diferentes. Estas dos variedades de composición se enfrentan, por su parte, a la suplementariedad, la cual implica un referente (en acepción muy lata) para cada unidad sígnica del par, de forma que ninguna de las partes del mensaje puede dar por separado la idea del conjunto. La suplementariedad es, pues, a su modo particular, una expresión predicativa (pointing de un juguete y comunicación verbal de alguna propiedad: ‘roto’, ‘amarillo’, ‘vuela’). En la medida en que ello expresa una protoproposición (/esto amarillo/ o /esto vuela/) supone un avance en el camino hacia la gramaticalización.
La composición suplementaria es el antecedente formal más directo del acoplamiento unimodal de dos palabras que caracteriza la etapa inmediatamente subsiguiente. Ello autorizaría a pensar que se trata de un mismo y único armazón, de una misma dinámica porosa a la inserción de gestos o palabras, y que aquellas expresiones que luego aglutinan dos palabras son variantes sucedáneas de una primera versión de dos modalidades, de suerte que las limitaciones en el uso de signos de la modalidad verbal propiciarían en primer término el empleo de un signo de la otra modalidad. El crecimiento del vocabulario y de las aptitudes para la modulación (el cada vez más aguzado proceso mental de signos de esta clase), más la creciente destreza para componer palabras, irán poco a poco permitiendo que las expresiones composicionales de modalidad oral se rijan por reglas, se vayan lingüistizando, pero ello estaría prefigurado por una fase anterior y bimodal. Las composiciones de gesto-palabra en el formato de suplementariedad constituirían la forma inaugural por medio de la que el sujeto humano podría concertar dos diferentes representaciones/conceptos mentales en una expresión compleja de dos elementos.
En el futuro este binomio de gesto y palabra experimentará un viraje por mor de la adquisición de la morfosintaxis. Si en el período holofrástico el gesto se integra con signos verbales en pie de igualdad, lo que McNeill advierte (y de lo que efectuamos, ciertamente, una valoración opuesta), desde este momento se dividen aguas: el gesto conserva su formato holístico, mientras que la palabra se convierte en unidad discreta susceptible de articulación. Entre una y otra condición, se pierde el rastro de lo que sucede durante el período de dos palabras, momento de transición por el que el gesto pasa de ser signo como la palabra a acompañar de una manera ‘ajena’ o exterior la comunicación verbal gramatical (porque precisamente “hacia los 27 meses de edad, en cualquier lengua del mundo, los niños dan los primeros pasos en la definición de la gramática de su/s lengua/s” –López Ornat, 2011–). La adquisición de la morfosintaxis, con claras ventajas comunicativas (mayor aptitud para plasmar ideas complejas, máxima velocidad motriz en la tarea de articular, economía de esfuerzo, independencia del aquí y ahora, etc.) tiene sobre los gestos una función alienante respecto de su inicial fraternidad con los signos verbales. Para cuidar la distinción entre las yuxtaposiciones de gesto-palabra previas y ulteriores a las expresiones con morfosintaxis empleamos composiciones y adjunciones de manera respectiva. Cuando gesto y palabra sólo se componen, no son más que partes de un idioma anómico y aglutinante; en la articulación verbal, la yuxtaposición de ambas modalidades (adjunción) obliga al gesto a respetar una gramática a la que se acopla. La mudanza entre ambos tipos bimodales necesita todavía de un abordaje pormenorizado. Aquí esperamos realizar sólo una módica contribución.
Figura 6. Tipos de composición gesto-palabra.
Ref.: G=gesto, P=palabra. En gris el objetivo de esta investigación
En aval de la propuesta de McNeill sobre un dispositivo de procesamiento único para signos verbales y gestuales, pueden mencionarse dos distintos tipos de evidencia. De una parte, en relación con la gramática espontánea de la gesticulación en situaciones especiales; de otra, en relación con la sutil integración de gesto y expresión verbal en la acción de comunicar. De acuerdo con el primer aspecto:
- Los niños sordomudos nunca expuestos a lengua de señas desarrollan por sí solos una codificación gesticular que incluye propiedades principales del lenguaje (arbitrariedad entre el significante y el significado, un acotado set de signos básicos recombinables, inflexiones morfológicas, un criterio formal de ordenación, enunciados genéricos, una pragmática tan rica como para permitir la comunicación temporalmente desplazada, habla privada y niveles metalingüísticos –Goldin-Meadow, 2005, 2006–). Esto aboga en favor de una aptitud humana innata para la gramaticalidad (lo cual no debe confundirse con un innatismo ya gramatical).
- Ha sido experimentalmente demostrado que cuando se pide a las personas contar una historia o describir algún evento sin usar el lenguaje verbal, rápidamente se genera en ellas un vocabulario gesticulativo de formas estables y una ordenación componencial. “Las consistencias en el secuenciamiento también se desarrollan [en el gesto], sugiriendo una sintaxis rudimentaria (Goldin-Meadow, McNeill & Singleton, 1996; McNeill, 1992)” (Kendon, 1997, p. 120). En instalaciones de estudios de radio, por ejemplo, donde los trabajadores no pueden valerse del canal fonoarticulatorio, o en los monasterios donde el voto de silencio obliga a prescindir de la palabra, llegan a configurarse verdaderos sistemas de signos. Estos sistemas suelen inspirarse en la morfología y sintaxis de las lenguas que vienen a reemplazar (Barakat, 1975). Kendon informa que los Walpiri de Australia usan signos gestuales como equivalentes de morfemas (incluyendo los desinenciales) de la lengua hablada (Kendon,1997).
En cuanto al segundo aspecto señalado:
- Existe sincronicidad entre los elementos expresados verbal y gestualmente. De los tres tiempos típicos del gesto estándar (preparación, golpe y relajación), el segundo suele coincidir con la sílaba tónica de la palabra composicional o, si se trata de composiciones adjuntivas, con la de la palabra a destacar. Aunque ello podría sugerir que el gesto simplemente se aplica a un mensaje cuyo contenido se encuentra ya estructurado por las pautas del lenguaje, esta interpretación, que relega los gestos a un claro segundo plano de mero acompañamiento, se ve desmentida por el hecho de que el gesto aporta, en muchos casos, una información ausente en la modalidad oral. Si hubiera en efecto una estructura previa de lenguaje y exclusivamente de lenguaje, habría que dar cuenta de cómo se ha delegado por completo a otra modalidad un contenido sin el cual la palabra restante pierde precisión y hasta sentido, y explicar por qué ese contenido habría reconvertido su característica discreta originaria al carácter global-sintético propio del gesto.
- En los casos de afasia de Broca, donde se da el derrumbe de la comunicación gramatical, también el gesto se encuentra afectado en su función cohesiva y se comporta mayormente de manera iconográfica. Para la afasia de Wernicke, caracterizada en cambio por el deterioro de la comprensión (y fundamentalmente del vocabulario), los gestos figurativos disminuyen y aumenta la tasa de una gesticulación de movimientos amplios sin significado (conectivos). Esta correlación en la que el daño neurológico de las habilidades del lenguaje encuentra resonancia en la gestualidad aboga por considerar al gesto y al lenguaje en un estrecho vínculo. Tanto que acaso habría que suponer a los dos síndromes como una forma patológica no del lenguaje, sino de unas competencias expresivas de tipo más general.
Todo esto vuelve al menos admisible la postulación de que debe existir para la comunicación intencional una organización común a los formatos de gesto y palabra (McNeill 1992).
Figura 7. Ontogénesis de la comunicación oral-gestual.
La zona en gris oscuro y el signo de interrogación marcan el objetivo cronológico-temático de nuestro estudio
Figura 8. Clasificación de las composiciones de gesto-palabra.
Comparación Butcher y Goldin-Meadow (1993) y Volterra et al. (2005). La zona en gris y el signo de interrogación marcan el objetivo cronológico-temático de nuestro estudio
Según Volterra et al. (2005) la composición equivalente se rige por un patrón de enlace entre dos unidades exclusivamente de tipo representacional (el adjetivo ‘gordo’ y el gesto de /gordo/), lo que deja por fuera colaboraciones fundadas en la deixis. La composición complementaria, por su parte, pide sin defecto que el enlace incluya un gesto deíctico (el cual será, de una manera regular, acompañado por una unidad representacional: ‘flor’ y pointing, ‘mesa’ y showing), cuestión que impide computar los casos en que dos signos representacionales puedan aludir diversamente al mismo referente, destacando, por ejemplo, una característica por la palabra (un sustantivo, un adjetivo), y otra por un gesto icónico. La composición suplementaria vincula dos componentes sin vinculación semántica (‘no’+ showing de un juguete relaciona el objeto de marras con un atributo, en este caso, negativo /esto no/). Aquí adoptamos la tripartición de las composiciones bimodales indicadas, pero solamente en sus definiciones nominales y haciendo las salvedades anteriores en el registro operacional.
En un importante antecedente para este trabajo, McEachern y Haynes (2004) buscaron subsanar la falta de estadísticas en los estudios previos (con limitado números de sujetos involucrados o, cuando se lo aumentaba, reducidos en la cantidad de observaciones). Realizaron un trabajo con 10 niños de entre 15 y 21 meses, recubriendo parcialmente la etapa de dos palabras a razón de una sesión por mes. Pudieron verificar que ningún niño vinculaba dos palabras antes de integrar bimodalmente el gesto con signos verbales de modo suplementario (3 de los 10 niños lo hacían a la par, el resto a posteriori). Por lo demás, las investigaciones sobre gesto-palabra se detienen a los 18-20 meses de manera aproximada, cuando comienzan a registrarse las composiciones de palabras solas (unimodales) y el gesto resignaría protagonismo (Capirci et al., 1996; Butcher & Goldin-Meadow, 2000; Özçalistan & Goldin-Meadow, 2005; Iverson & Goldin-Meadow; Volterra et al, 2005). Andrén (2010) abordó el estudio de los gestos (con y sin acoplamiento de signos verbales), entre los 18 y 30 meses, proponiendo 3 períodos de transición: a los 20-21 meses, se produciría un aumento de actos comunicativos (habla y gestos) por minuto; a los 24 meses, la frecuencia de las emisiones de la oralidad verbal superaría a la de las composiciones gesto-vocalización; a los 28 meses, se produciría un aumento en la frecuencia de las de palabras con número superior o igual a tres constituyentes. Hay que aguardar a que el corpus de datos se nutra a futuro, y que se indague con mayor profundidad la colaboración de ambas modalidades en los de los niños pregramaticales. Nuestro trabajo apunta en esa dirección.
5.2 Las teorías sobre el papel del gesto en los orígenes de la gramática
Nuestro trabajo está ordenado por la idea de comunicación intermodal y por la idea de la composición de signos como instancia precursora del lenguaje. Sin embargo, ambas nociones no están siempre aliadas. Derek Bickerton ha destacado, partiendo de sus estudios sobre el pidgin (lingua franca constituida por mera aglutinación de términos sin régimen gramatical), que la creolización (su gramaticalización) puede tomar tan sólo una generación. Los niños hawaianos no necesitaron más que exposición al pidgin de sus padres para inyectar a sus formas expresivas pautas de articulación (Bickerton, 1984). Otro caso muy conocido de creolización se dio en con el Idioma de Señas Nicaragüense. Hasta la administración sandinista, el país no tuvo instituciones para sordos. Cuando se establecieron, los niños llevaron la gestualidad común que habían forjado a un formato de lengua normativizada (Senghas & Coppola, 2001; Senghas, Kita & Özürek, 2004). En ambas situaciones, la creolización se activa desde un pidgin primitivo. Este protolenguaje-pidgin puede compararse con la etapa prelingüística del niño antes de la morfosintaxis. Por ello, aun sin seguir a Bickerton en su opinión de que la rápida creolización del pidgin ofrece respaldo al concepto innatista de lenguaje (Calvin & Bickerton, 2000), la idea de un protolenguaje nos presta un servicio de primera magnitud, al insinuarse como la antesala desde la que se desplegaría el nivel gramatical. Basta con evitar la presunción de una gramática de tipo universal e innato y subrogarla por un desarrollo paulatino sobre el que intervienen distintas funciones cognitivas.
La creolización –en nuestros términos, la gramaticalización– de unidades semánticas independientes responde por cierto a una capacidad universal en nuestra especie. La novedad consiste en postular que reciba el apoyo natural y no menos universal de otra modalidad. Como se ha visto, los niños logran comunicarse de forma efectiva componiendo signos intermodalmente antes de la emergencia de reglas gramaticales. Otras especies de primates han podido encadenar series de gestos del American Sign Language (ASL) o de lexigramas con clara atinencia conversacional (Fouts, Hirsch & Fouts, 1982; Gardner & Gardner, 1969, 1978; Rumbaugh, 1977), algo que los ubica, si no en posesión de una gramática en sentido estricto (aunque hay distintas opiniones al respecto –Savage-Rumbaugh, Shanker & Taylor, 1998–), al menos en el nivel de los protolenguajes desde ambas líneas argumentativas se puede plantear un momento en la comunicación (onto- y genética) anterior a la expresión reglada unimodalizada.
La estrecha relación gesto-palabra en niños preverbales ha dado sustento a ensayos que pretenden explicar el surgimiento del lenguaje oral. El protolenguaje, aun si carece de elementos conectivos, posee sin embargo una elocuencia suficiente para promover interacciones eficaces y podría haber sido utilizado junto con la gesticulación. Las habilidades gesticulativas compartidas con otros primates alientan la hipótesis de que un ancestro del hombre moderno y sus parientes vivos más cercanos (chimpancé, bonobo, orangután, gorila) debió de poder comunicarse usando signos no verbales que podía enhebrar consecutivamente. Esto podría llevarnos hasta el Homo ergaster (1.900.000-1.000.000 de años a. C.), capaz de actividades que requieren comunicaciones más sofisticadas que el gruñido. La utilización de signos para referir y una destreza para componerlos antes de que tracto fonatorio humano se hubiera configurado a la manera actual (dado que la laringe no habría descendido sino hasta unos 150.000 años y, siguiendo a Lieberman, todo el proceso no habría culminado sino hace 30.000 años [Lieberman, 1998]), serían otros tantos datos para interpretar que el Homo ergaster pudo haber usado un canal no verbal para la transmisión de información. Corballis (2002) y antes Hewes (1973) sostienen que la expresividad facial-manual sería el recurso originario del lazo social y el pensamiento compartido hasta que el acto comunicativo se volcó más tarde a la modalidad oral. Conforme con su visión, la habilidad fonética (y fonémica) se habría acomodado sobre una anterior inteligencia apta para ensamblar distintas unidades sígnicas y transmitirlas. La asociación oral-gestual habría llevado luego la capacidad para ordenar los símbolos hasta la zona levo-lateralizada del neocórtex, donde está el asiento del lenguaje. Así se entiende que la lengua de los sordomudos se refleje en esas mismas zonas cerebrales afectadas en la producción y comprensión de la palabra con flexión morfosintáctica (Holle, Gunter, Rüschenmeyer, Hennenlotter & Iacoboni, 2008; Willems & Hagoort, 2007; Xu, Gannon, Emmorey, Smith & Braun, 2009). La capacidad para la ordenación de signos habría sido reabsorbida al interior del hemisferio izquierdo del cerebro por la fuerza y la ductilidad del aparato fonatorio del hombre moderno (Corballis, 2002). La comunicación verbal sería por tanto resultado de que la mayor plasticidad de los recursos de emisión vocal captara y explotara insuperablemente la antedicha competencia natural para ordenar secuencialmente el pensamiento y convertirlo a signos exteriores. El movimiento hacia la vocalización semántica podría haberse gestado, entonces, desde un acompañamiento de la significación gestual: asociaciones de semiosis quiro-fonatorias que consumarían, a su debido tiempo, la emancipación del signo oral.
Esta teoría, por el momento de difícil verificación, recoge sin embargo algunos elementos importantes que reflejan en la filogénesis la afinidad del gesto y la palabra. Muestra una colaboración entre modalidades que se vuelve a hallar dentro del escenario del aprendizaje de toda primera lengua. La yuxtaposición y seriación de unidades semánticas y la composición intermodal podrían haber tenido, en el origen del lenguaje articulado, un papel precursor tan importante como el que se aprecia en cada caso de ontogénesis lingüística. En el capítulo siguiente se despliega el desarrollo ontogenético de las habilidades de lenguaje en el niño pequeño y, de la mano, los debates entre teorías innatistas y funcionalistas respecto de su naturaleza cognitiva.
- ‘Conespecífico’ no es término del castellano, pero el concepto que en inglés concierne a la designación conspecific no tiene correspondiente en nuestro idioma. Su equivalente más aproximado, ‘congénere’, resulta inadecuado para reflejar con propiedad la escala natural y las cuestiones asociadas que aquí tienen interés.↵
- La armonía no cabe en la primera musicalidad en términos estrictos, pero acaso aquella concordancia de sonido y movimiento se puede pensar como una forma germinal y mixta del fenómeno ulterior de rigurosa pertinencia musical.↵
- El lenguaje no es en realidad sólo sonido más significado (o más precisamente, representación-sonido y representación semántica). Con ello estaría apenas constituida la unidad fono-semántica (signo lingüístico) que debe componerse en oraciones (entre ambas instancias media la gramaticalidad). Es necesario poner de relieve que el sonido de la oralidad es sólo un ingrediente o factor accesorio, en modo alguno una característica esencial de la capacidad lingüística, como surge del hecho de que las lenguas de señas de los sordomudos, lenguas en un sentido preciso, son gramaticales (Stokoe, 1960). Así pues, no hay lenguaje propiamente dicho sin gramática. Ello implica no obstante distinguir lenguaje de habla, dado que a esta segunda puede faltarle gramaticalidad. El habla es la capacidad para verbalizar satisfactoriamente y poder entablar un diálogo con la solvencia suficiente como para despejar un eventual malentendido. Desde tal definición, hay un habla rudimentaria, apuntalada sobre coordenadas contextuales y en otras modalidades comunicativas, y un habla gramatical. En nuestro texto, la distinción permitirá plantear que el niño es un hablante relativamente diestro antes de que su léxico se haya gramaticalizado, o que, dicho de otra manera, es un hablante relativamente competente antes de que se tengan datos objetivos de alguna otra competencia de tipo gramatical latente. Discriminar lenguaje de habla (palabras hiladas con sentido, dotadas o no de una sintaxis), lenguaje de verbalización (que puede limitarse a una palabra aislada) y asimismo lenguaje de oralidad (el uso del canal con vocalizaciones de cualquier tenor, desde las inmaduras a las léxicas) es simplemente un modo de asentar cómo entendemos, en nuestro trabajo, las diversas relaciones interiores a la habilidad lingüística. La separación entre lenguaje y habla no equivale a la de competencia y actuación, dado que en estas dos facciones del hecho lingüístico se asume haber ya orden gramatical.↵
- En todo este párrafo y el subsiguiente seguimos de cerca, para cada tópico de los involucrados, la exposición de M. Martínez (2010).↵
- La lengua materna, en tanto lengua, debe distinguirse cuidadosamente del llamado maternés, una forma de hablar al niño, de cargar las verbalizaciones de emotividad y musicalizar para él los rasgos distintivos del idioma.↵
- ‘Mentalistas’ en cuanto involucran que el sujeto pueda concebir al otro como un ente más complejo que lo que las conexiones vivenciales de esta tierna edad permitirían conjeturar.↵
- No se trata en Stern de aquel afecto de las emociones básicas (alegría, tristeza, enojo, etc), sino de lo que se ha llamado estado anímico o emocional: tono afectivo en que se encuentra el organismo y sobre el cual se emplazan emociones como alteraciones súbitas de relativamente corta duración (James, 1884; Thayer, 1989). Esta afectividad de fondo, que tiñe todo el comportamiento y las vivencias del sujeto, es exteriorizada según un criterio intermodal, pero es, ontológicamente definida, un rasgo de amodalidad.↵
- Intencionalidad, ésta de Stern, que se debe discriminar de las que ya hemos definido. No es la intención representacional, ni la que rige una separación de medios/ fines, sino más bien una cierta proclividad del movimiento en el espacio, un dirigirse, un proyectar el cuerpo en la espacialidad.↵
- Para todo el resto de capítulos del texto se ha guardado esta secuencia expositiva: primero los gestos y después las vocalizaciones, pero aquí hemos alterado este orden por cuidar la pauta cronológica, donde las primeras vocalizaciones anteceden a la gesticulación.↵
- Parsing (de pars orationis: parte del discurso oral) alude a las operaciones de segmentación con que el sistema cognitivo descifra el mensaje del input verbal. En este caso, por tratarse de una etapa preverbal, lo fraccionado no son todavía más que las unidades previas para luego penetrar en los complejos vericuetos de la lengua. Por su parte, la designación bootstrapping ha sido vertida al español como elicitación o facilitación, alternativas que no hacen justicia a los matices de la denominación original en lengua inglesa. ↵
- Si por una parte es cierto que la periodización por cantidad de términos (período holofrástico/de dos palabras) puede cuestionarse desde otros criterios, éste es el abordaje dominante en la bibliografía especializada (por ej. Tomasello & Brooks, 1999). Se ha señalado sin embargo que la adquisición lingüística es multiestratégica (Peters, 1995). Nelson (1973, 1981) ha sugerido que en el desarrollo del lenguaje junto con un estilo de corte referencial, existe otro guestáltico u holístico, centrados respectivamente en la palabra o en un parsing de tipo fonoprosódico. En respaldo de la postura que aquí hemos aquí adoptado cabe destacar, por una parte, que también es la más difundida en investigaciones sobre gesto en su entrecruzamiento con la lengua oral (Butcher & Goldin-Meadow, 1993; Capirci, Contaldo, Caselli, & Volterra, 2005; Capirci et al., 1996; Capirci & Volterra, 2008; Goodwyn & Acredolo, 1993); por otra, que una táctica analítica nunca haría mella a un abordaje fenomenológico sin pretensión explicativa, dado que si determinados niños proceden en el comienzo por fraccionamiento y no por adición (partiendo de enunciar paquetes léxicos no analizados), habrá con todo siempre algún momento en que deban pasar por la unidad semántica palabra, la cual primero acoplarán por pares y luego en cadenas ensambladas sintácticamente. Esto sucede porque la palabra es la unidad-segmento básica para aludir al mundo, y asimismo el factor necesario para la articulación. Por consiguiente, las dos estrategias, la referencial y la expresiva (=holística, gestáltica o prosódica) convergen necesariamente en ella y en la habilidad del niño para combinarla con creciente libertad creativa. De allí que la elección metodológica de separar una fase específica de dos palabras se encuentre justificada. Esta particular dicotomía de estilos en el primer tramo de la adquisición lingüística reflejaría por otro lado los debates en torno a la filogénesis de la palabra. La discusión entre un comienzo holístico y otro compositivo en los niños pequeños se replica en dos posturas semejantes dentro del debate paleoantropológico (Wray, 1998, 2000; Mithen, 2006 vs. Bickerton [protolenguaje-pidgin], 1995). No obstante, la idea de las diferencias estilísticas de adquisición ontogenética se ha visto rebatida por el ulterior descubrimiento de que, en realidad, los dos estilos estarían condicionados por el desarrollo de los progresos lingüísticos normales (Bates et al., 1994). Los niños holístico-expresivos no logran después mayor dominio de palabras funcionales que el que se evidencia en los niños referenciales (quienes, por la hipótesis de los estilos, deberían llegar a ser más hábiles combinadores telegráficos, cosa que no sucede –Bates et al., 1994–). Así, las variaciones en materia de vocabulario parecen estar sujetas a una seriación que, para ambos estilos, conduce de términos referenciales a predicativos (así se designa en Bates et al., 1994, a verbos y adjetivos) y por último a palabras de clase cerrada (funcionales –Bates et al., 1994–). Como un añadido que brinda asimismo aval a nuestra periodización, cabe indicar que en el aprendizaje de lenguas de señas se recorren las mismas etapas que en la adquisición de las lenguas verbales: un balbuceo manual, facilitado por un maternés gestual, luego una etapa de holofrases y, más tarde, antes del surgimiento de marcas morfosintácticas, una etapa de signos apareados (Karmiloff & Karmiloff-Smith, 2001).↵
- Con todo, a falta de palabra, en los sujetos sordomudos la aptitud manual releva a la modalidad oral de conferir al pensamiento y a la comunicación un tipo comparable de sistematicidad (Armstrong, Stokoe & Wilcox, 1995; Corballis, 2002). Como se ha consignado supra (nota 15), hace ya largo tiempo que está demostrada la gramaticalidad de las lenguas de señas (Stokoe, 1960). De otra parte, se ha registrado en niños sordomudos nunca expuestos a lengua de señas (bajo la falsa premisa de que así no distraerían recursos cognitivos del aprendizaje de la lengua oral –una aventura educativa que ha tenido resultados desastrosos–) que se genera de un modo espontáneo, para aquellos gestos con los que se comunican, una morfosintaxis de nivel elemental (Goldin-Meadow, 2006). La habilidad gramatical es atributo de la especie humana en general sin restricciones de modalidad.↵
- Es oportuno recordar que lo convencional y lo arbitrario, aunque suelan tomarse el uno por el otro, no deben mezclarse. Es cierto que Piaget afirma que los signos “son arbitrarios o convencionales” (Piaget & Inhelder, 1969/1984, p. 64), pero en rigor las convenciones forman un conjunto más abarcativo que el de los enlaces arbitrarios. La convencionalidad es un requerimiento básico para que el signo medie entre dos individuos que se comunican, la arbitrariedad en cambio sólo cabe a algunos signos, de forma canónica al signo lingüístico de la estructura saussureana (Eco, 1976; Español, 2004). En lo que concierne al gesto, se puede plantear en su interior la partición entre convencionales-motivados y convencionales-arbitrarios o no motivados.↵
- Iverson & Thal (1998) integran gestos representacionales y convencionales (línea punteada).↵
- La conatividad supone apelación y comprende lo imperativo de los protoimperativos y otras formas comunicativas de carácter vinculante, como los pedidos y preguntas. Cintia Rodríguez (2009) ha identificado gestos de valor protointerrogativos.↵
- Es curioso el hecho de que la última de las funciones comunicativas que fuera reconocida en los estudios del lenguaje coincida precisamente con la que fue destacada en primer término dentro de los estudios sobre gestos preverbales. Bates & al. (1976) llamaron performativos a los gestos protoimperativos y protodeclarativos.↵
- Las categorías de Halliday (1982) pueden cartografiarse en líneas generales sobre el repertorio más convencional. Por pares ordenados (Halliday/Jakobson): función interactiva/función informativa, funciones instrumental y regulativa/función conativa, función informativa/ídem, función personal/función expresiva (las excepciones son la función exploratoria e imaginativa, ligada a los ejercicios de indagar y descubrir, y la función de libre juego; pero la primera cae por fuera de los intereses comunicativos y concierne a la inquietud intelectual del niño; la segunda, por su parte, tanto puede comprender lo comunicativo como resultar, enteramente, una práctica lúdica).↵