0 notas0% acharam este documento útil (0 voto) 119 visualizações25 páginasBAUER, Martin AARTS, Bas. A Construção Do Corpus
especificando o objeto de pesquisa
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu,
reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF ou leia on-line no Scribd
2
A CONSTRUGAO DO CORPUS: UM PRINCIPIO PARA A.
COLETA DE DADOS QUALITATIVOS
Mortin W. Bauer & Bas Aarts
Palavras-chave: corpus; distorgio da amostragem (nao cobertu-
1a, percentual de resposta); paradoxo corpus teérico; homogenci-
dade; referencial de amostra; populagio; estratégia de amostra-
gem; relevancia; saturagio; representacées (variagio interna); es-
tratos e fungdes (variagao externa); amostra representativa; sin-
cronicidade.
‘Toda pesquisa social empfrica seleciona evidéncia para argu-
mentar ¢ necessita justificar a selegao que é a base de investigacio,
descrigéo, demonstragio, prova ou refutacio de uma afirmagao es.
pecffica. A orientagao mais elaborada para selecionar a evidéncia
nas ciéncias sociais € a “amostragem estatistica aleatéria” (ver Kish,
1965). A competéncia da amostra representativa € inconteste. Em
muitas areas de pesquisa textual e qualitativa, contudo, a amostra re-
presentativa nao se aplica. Como selecionar pessoas para uma pes-
quisa com grupos focais? Temos intengio, de fato, de representar
uma populacio através de quatro ou cinco discusses com grupos fo-
ais? Infelizmente, até agora nao se deu a tal assunto suficiente aten-
ao. Na pratica, os pesquisadores muitas vezes tentam justificar 0 ra-
cional de uma amostragem que parece distorcida, como se fosse a es-
colha de uma falsa analogia. Neste capitulo, n6s propomos a “cons-
trugio de um corpus”, como um principio alternativo de coleta de da-
dos. Empregamos definigdes consistentes para nossos conceitos ba-
sicos: “amostragem” significa amostragem estatistica aleat6ria; “cons-
trugio de corpus” significa escolha sistemdtica de algum racional al-
ternativo, que sera explicado a seguir. Amostragem e construgao de
corpus sao dois procedimentos de selecio diversos. Do mesmo modo
39PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM.
que amostragem representativa, nés trilhamos o caminho interme-
diario entre a contagem de uma populacao ¢ a conveniente selecao.
A selecao nao sistematica viola o principio de prestagdo de contas
publica da pesquisa; a construgéo de um corpus, porém, garante a
ficiéncia que se ganha na selegao de algum material para caracteri-
zar 0 todo. Deste modo, a construgio de um corpus e a amostragem
representativa séo funcionalmente equivalentes, embora sejam es-
truturalmente diferentes. Empregando este tipo de linguagem, con-
seguimos uma formulagio positiva para a selecéo qualitativa, em vez
de defini-la como uma forma inferior de amostragem. Em resumo,
nés defendemos que a construgio de um corpus tipifica atributos des.
conhecidos, enquanto que aamostragem estatistica aleatoria descreve
a distribuicao de atributos j4 conhecidos no espaco social. Ambos os
racionais devem ser cuidadosamente distinguidos para se evitar con-
fuses sobre pesquisa qualitativa e falsas inferéncias a partir dela.
Desenvolvemos esta argumentagio em wés etapas. Primeiro, re-
visamos brevemente os conceitos centrais da amostragem represen-
tativa e fazemos alusio a problemas que surgem de populagoes que
nao podem ser conhecidas. Em segundo lugar, discutimos a constru-
40 de um corpus no campo em que ele foi desenvolvido: a lingiifsti-
ca, Finalmente, abstraimos regras desta pratica, como orientagbes
para a selecao de informacées na pesquisa social qualitativa,
Amostragem representativa na pesquisa social
A pratica de fazer inventérios sobre a populagao possui uma lon-
ga histéria: governos quiseram saber que tipo de habitantes eles go-
vernam a fim de orientar sua politica. A curta histéria da amostra-
gem aleat6ria comegou no fim do século dezenove, em um clima de
opinides conflitantes entre pesquisadores: alguns acreditavam em
uma contagem completa, alguns na amostragem, ¢ outros em estu
dos de caso singulares. Apenas uma alianca néo santa entre pesqui
sadores de estudo de caso e pesquisadores que lidavam com amos-
tragens aleatérias pode dar fim & dominagdo dos que defendiam a
contagem completa (O’Muircheartaigh, 1977).
A amostragem garante eficiéncia na pesquisa ao fornecer uma
base légica para o estudo de apenas partes de uma populacao sem
que se percam as informacées ~ seja esta populagio uma populagéo
de objetos, animais, seres humanos, acontecimentos, aces, situa
—40—
Mo2. A CONSTRUGAO DO CORPUS.
Ges, grupos ou organizacbes. Como pode o estudo de uma parte
fornecer um referencial seguro do todo? A chave para decifrar este
enigma ¢ representatividade. A amostra representa a populacao se a
distribuigio de algum critério € idéntica tanto na populagio como
na amostra. Os parametros de uma populacio sio calculados através
das estimativas observadas na amostra. Quanto maior a amostra,
menor a margem de erro destas estimativas, embora o préprio
Processo dle amostragerh possa trazer outros erros. Em principio, é
necessario provar que os critérios da amostra e as variaveis focais de
fato se correlacionem. Na pritica, contudo, presume-se em geral
que se a amostra representa a populagio a partir de um determina-
do ntimero de critérios, entao ela representara também a populacao
naqueles critérios nos quais alguém esteja interessado: 0 pesquisa.
dor pode entrevistar 2000 ingleses, cuidadosamente selecionados
conforme idade, sexo e classe social, ¢ ele tera seguranga para carac-
terizar as opinides da nacio, digamos, sobre modificacao genética
de alimentos, dentro de uma margem conhecida de erro. Isto é pos-
sivel seguindo-se o racional da amostragem, o que trard enorme eco-
nomia de tempo e esforgo.
Aamostragem refere-se a um conjunto de técnicas para se conse-
Suir representatividade. A exigéncia-chave é o referencial de amos-
tragem que operacionaliza a populacao, Ele se compée de uma lista
especifica de unidades que sao levadas em conta na selecio. Cada
item da lista representa apenas um membro da populacao, e cada
item possui uma probabilidade igual de ser selecionado. Um refe-
rencial de amostragem pode se constituir de ntimeros de telefones,
enderesos ¢ cédigos postais, listas de cleitores ou listas de compa.
nhias. Por exemplo, a lista de estudantes que esto prestando exame
em uma universidade é um referencial de amostragem para a popt
lagio estudantil deste ano especifico. A qualidade do referencial de
amostragem € medida pelo quanto ela nao consegue abranger todos
08 elementos que devem ser pesquisados (néo cobertura). A maioria
das definigdes que levam em conta as tensées internas da populacio
sio mais amplas que sua operacionalizacio em uma possivel lista
por exemplo, a populacao de uma nacio inclui seus prisioneiros e os
portadores de doenga psiquica, enquanto que a lista de eleitores ira
exclui-los. Os ntimeros dos telefones dao margem a situagoes a des-
coberto, pois algumas residéncias ndo possuem telefone, enquanto
que outras possuem diversos. A nao cobertura total é a primeira dis-
torgao da amostra.
a)PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM,
O referencial de amostragem € uma precondicao para se poder
aplicar uma estratégia de amostragem. Gerando 100 néimeros aleato-
rios entre 1 ¢ 5000, e selecionando os itens da lista que corresponde a
esses 100 ntimeros aleat6rios, cria-se uma simples amostra aleatéria
de 100 dentro de 5000. Tomemos como um exemplo mais elaborado
uma amostra de miiltiplos estégios para o estudo de opinides sobre
alimento geneticamente modificado. O pesquisador pode selecionar
uma amostra de 50 areas a partir dos cédigos postais do correio, es-
tratificadas conforme caracteristicas socioecondmicas, tais como a mé-
dia da renda e a residéncia urbana ou rural. O pressuposto € que a
renda ea residéncia urbana ou rural irao influenciar nas opinides. No
segundo estagio, ele seleciona aleatoriamente, em cada uma das 50
reas, 40 residéncias, a partir da divisio feita pelo cédigo postal, onde
finalmente o pesquisador ira entrevistar um membro da familia, com
idade acima de 15 anos, cyja data de nascimento esteja mais proxima
da data da entrevista. Teremos uma cota de amostra se, no passo final,
as unidades forem selecionadas nao aleatoriamente, mas pedindo-se
ao entrevistador que ele encontre uma cota: a cota poderia ser 20 mu-
Iheres ¢ 20 homens, porque nds sabemos que homens e mulheres es-
tio igualmente distribuidos na populagio.
Dos 2000 entrevistados selecionados, alguns poderao nao ser en-
contrados. Esta falta de resposta apresenta uma segunda distorcao
na amostragem, No caso de uma amostra aleat6ria, saberemos quan-
tos nao foram atingidos; mas no caso da cota de amostragem, nao sa-
beremos, 0 que torna esse tipo uma amostra no aleatoria e, para
muitos pesquisadores, um procedimento duvidoso. Uma amostra-
gem representativa conseguira a melhor descrigéo possivel de uma
populacio, apesar de se pesquisar apenas parte dela. Contudo, ela
depende da possibilidade de um referencial de amostragem, de
uma lista ou uma combinagio de listas dos membros de uma popula-
40, ou do conhecimento da distribuicao de caracteristicas essenciais
na populagao. Sem listas ou distribuigoes conhecidas, 0 procedi-
mento nao pode ser executado.
Vamos discutir alguns casos onde o pressuposto de uniformida-
de de uma populacao é problematico. Algumas discussdes sobre re-
presentatividade defenderam trés dimensoes: individuos, ages ¢ si
tuagdes (ver, por exemplo, Jahoda et al., 1951). Individuos agem em
situagdes, e, para generalizar os resultados de uma pesquisa com in-
dividuos agindo em situagoes, todas estas trés dimensoes devem ser
controladas. Uma amostragem, contudo, que se concentra nos indi-
—4a2—
OeSEE
2, ACONSTRUCKO DO CORPUS.
viduos, conseguira dar conta com seguranca apenas deles. Tentati-
vas rotineiras de amostragem nao se preocupam nem com as ages,
em com as situacdes. Poucas ages humanas (trabalhar, comprar,
votar, jogar, pensar, decidir) foram objeto de intenso estudo psico.
logico que levasse a generalizacdes sobre a acao humana, sem se fun-
damentar em amostragens. Do mesmo modo, nao foram feitas ten-
tativas para construir amostras a partir das situacoes onde as pessoas
agem. Por que nao? £ que nem as ages, nem as situagdes, parecem
ter uma populagéo que possa ser definida. Terfamos de estudar po-
pulagdes desconhecidas. Votar, trabalhar e comprar s4o atividades im-
portantes; contudo, nao é evidente até que ponto sua estrutura ¢
fungao representam toda a atividade humana. A maioria dos cientis-
tas sociais considera os resultados que se mostram consistentes em
algumas situac6es diferentes, como réplicas, e por isso, seguros. Ao
fazer isso, eles garantem uma generalizacio para os atores, mas vio-
Jentam uma indugao que possa se aplicar a acées e situagoes; a amos-
tragem néo se aplica nem para agées, nem para situagdes (Dawes,
1977). A ciéncia social parece dormir trangiiilamente com esta prati-
ca contraditéria
Vejamos casos de populagdes que nao podem ser conhecidas.
Um prémio de muitos milhares de libras esterlinas foi recentemente
oferecido, em uma conferéncia ptiblica, para quem fosse capaz de
apresentar um referencial de amostragem para conversagoes e inte-
rages humanas. O conferencista estava seguro que ninguém seria
capaz de responder ao desafio. Observe o contetido da fala, a conca-
tenacdo das palavras, em um pequeno niimero de palavras, de acor-
do com uma gramatica, Em qualquer momento, o ntimero de frases
Possfveis é infinito, porque o espaco de combinagao das palavras €
um recurso infinito. Falas, conversagées e interagdes humanas sio
sistemas abertos, cujos elementos sao as palavras © os movimentos,
em um conjunto infinito de sequéncias possfveis. Para sistemas aber-
tos, a populagao é, em principio, impossivel de ser conhecida. Seus
elementos podem ser no maximo tipificados, mas nao listados.
A l6gica da amostragem representativa é titil para muita pesqui-
sa social, mas ela nao se presta para todas as situacées de pesquisa
Hi o perigo de nés estendermos indevidamente os procedimentos
da amostragem representativa a estudos em que ela é inadequada
Criticamos certas formas de coleta de dados como desvios da “popu
lagio padrao”. Contudo, mesmo no reino da probabilidade, a "lei
dos pequenos ntimeros” impera. Os seres humanos tendem (com
3PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM
excecio dos estatisticos, é claro) a superestimar a representatividade
das observagées cotidianas (Tversky & Kahnemann, 1974; Gigeren-
zer et al., 1989: 219s). A ligéo € clara: prestemos mais ateng4o a
amostragem. Nossos esforgos, contudo, podem estar mal orienta-
dos: a busca por representatividade pode canalizar escassos recursos
no que diz respeito a estratégias de selecao que sao inadequadas
para o problema em questio,
A nocio de corpus
Iremos discutir agora o que o lingiiista oferece na construgao de
seu corpus. A linguagem é um sistema aberto. Nao podemos.esperar
uma lista de todas as frases das quais se poderé selecionar aleatoria-
mente. A comunidade dos lingiistas rejeitou recentemente a mocio
de que 0s corpora da linguagem sejam representativos do uso da lin-
guagem (Johansson, 1995: 246),
A palavra corpus (latim; plural corpora) significa simplesmente
corpo. Nas ciéncias hist6ricas, ela se refere a uma colegio de textos.
Pode ser definida como “um corpo de uma colegio completa de es-
critos ou coisas parecidas; 0 conjunto completo de literatura sobre
algum assunto... varios trabalhos da mesma natureza, coletados ¢ or-
ganizados" (Oxford English Dictionary, 1989); ou como “uma colegio
de textos, especialmente se for compieta e independente” (McArthur,
1992). Exemplos, colecionados principalmente durante o século de-
zenove, s40 0 Corpus Doctrinae, um conjunto de tratados teol6gicos
da historia eclesidstica alema; o Corpus Inscriptorum Semiticorum, uma
colecao completa dos antigos textos judaicos na Academia Francesa
ou 0 Corpus Inscriptorum Graecorum, dos textos gregos antigos na
Academia de Berlim. Estas colecées procuram ser completas ¢ tema-
ticamente unificadas, além de servir para pesquisa.
Outra definicao de corpus € “nma colegio finita de materiais, de-
terminada de antemao pelo analista, com (inevitavel) arbitrarieda-
de, € com a qual ele ira trabalhar” (Barthes, 1967: 96). Barthes, ao
analisar textos, imagens, masica e outros materiais como significan
tes da vida social, estende a nogio de corpus de um texto para qual-
quer outro material. Em seu optisculo sobre os principios da semis-
tica ele reduz as consideragdes sobre selecdo a poucas paginas. Sele-
Go parece menos importante que andlise, mas nao pode ser separa-
da dela. A arbitrariedade é menos uma questao de conveniéncia e,
em principio, mais inevitavel. Os materiais devem ser homogéneos,
ee
ee2. A CONSTRUGAO BO CORPUS.
por isso nao se deve misturar texto ¢ imagens em um mesmo corpus.
Uma boa anilise permanece dentro do corpus e procura dar conta de
toda a diferenga que esta contida nele. Em resumo, embora signifi-
cados mais antigos de “corpo de um texto” impliquem a colecdo
completa de textos, de acordo com algum tema comum, mais recen-
temente o sentido acentua a natureza proposital da selecio, e no
apenas de textos, mas também de qualquer material com fungdes
simbélicas. Esta selegao 6, até certo ponto, inevitavelmente arbitré-
ria: a andlise compreensiva tem prioridade sobre o exame minucio-
so da selecio. O corpus lingitistico, contudo, oferece uma discussio
mais sistematica.
O que sao corpora de linguagem?
Corpora, no sentido lingiifstico, sao colegdes de dados de lingua-
gem que servem para varios tipos de pesquisa. O termo esta ligado a
desenvolvimentos de estudos de linguagem em computador (Jo-
hansson, 1995; Biber et al., 1998). Um corpus lingiiistico é “um mate-
rial escrito ou falado sobre o qual se fundamenta uma anilise lin-
giifstica” (Oxford English Dictionary, 1989), ou “textos, falas e outros ti-
pos considerados mais ou menos representativos de uma linguagem
€ geralmente armazenados como um banco de dados eletronico”
(McArthur, 1992). Os corpora sao estruturados a partir de varios pa~
rametros, tais como 0 canal (falado ou escrito, escrito para ser fala-
do, etc.), tematica (arte, familia, religido, educagdo, etc.), fungao
(persuadir, expressar, informar, etc.). CombinagGes destas subcate-
gorias podem formar uma tipologia hierarquica de registros, como
veremos. Os primeiros corpora de linguagem cram geralmente do
tipo escrito e colecionados manualmente.
Uma vez construidos, os corpora podem ser usados como banco
de dados para pesquisa lingiiistica. Quando os primeiros corpora fo-
ram construidos, o tratamento dos dados tinha também de ser feito
manualmente. Assim, por exemplo, um pesquisador que estivesse
interessado em trabalhar com verbos de percepcao em inglés (ver-
bos como ver, ouvir, etc.) teria de pesquisar o corpus manualmente,
a fim de encontrar estes verbos. Mais tarde estes corpora foram com-
putadorizados: o primeiro foi o Brown Corpus, construfdo na década
de 1960 na Brown University, em Providence, Rhode Island. Hoje
em dia, todos os corpora s4o computadorizados e permitem pesqui-
sas automatizadas.
45 —PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM.
Os primeiros corpora computadorizados surgiram em uma era im-
portante na historia da lingifstica, isto é, no inicio da era chomskya-
na. O livro de Chomsky Syntactic Structures (1957) é a publicacio semi-
nal deste periodo. Chomsky defendia que todos os seres humanos
Possuem uma capacidade lingifstica inata, que ele chamou de grama-
tica universal. Desde os inicios da lingiiistica chomskyana, houve uma
@nfase sobre a maneira como os lingiiistas podem proceder na cons-
trucdo de representagées abstratas de cada um, e de todo conheci-
mento de linguagem daquele que fala. Devido ao fato de a teoria ser
toda sobre representagGes abstratas, este campo da lingiifstica 6 carac-
terizado por um distanciamento do empiricismo, e por uma confian-
a no conhecimento interno da linguagem que nds possufmos como
falantes inatos. Chomsky fez uma distingo entre o que ele chamou de
competéncia (competence), que € 0 conhecimento inato que os falantes
tem da linguagem, e desempenho (performance), a maneira como eles
fazem uso de seu conhecimento inato. Mais recentemente ele intro-
duziu o termo Hanguage (linguagem internalizada) ¢ E-language
(inguagem externalizada). A teoria de Chomsky é uma teoria da
competéncia (uma teoria da I-language), e nao do desempenho (teo-
ria da E-language). No modelo chomskyano, toda linguagem particu-
lar constitui um epifendmeno, com o termo linguagem ficando agora
exclusivamente para significar a I-language.
Os primeiros seguidores de Chomsky atacavam muito a lingiifs-
tica de orientagao empirica. Nelson Francis, o compilador do Brown
Corpus, foi questionado em uma palestra por Robert Lees, um se-
guidor de Chomsky, no que ele estava trabalhando. Francis res-
pondeu que estava compilando um corpus do inglés escrito e falado
dos Estados Unidos. Isto foi visto com animosidade por Lees, que
afirmou ser uma completa e total perda de tempo. O ponto de vista
de Lees, ¢ o de muitos chomskyanos daquele tempo, era o de que
seria apenas suficiente refletir um pouco, para se conseguir exem-
plos pessoais de fenémenos lingiiisticos particulares em inglés. Os
lingiiistas chomskyanos sempre insistiram que os tinicos dados in-
teressantes para o estudo da linguagem eram dados introspectivos,
isto é, dados que eram construfdos na base do conhecimento de
uma linguagem de um falante nativo. A aversfo a dados empfricos
persistiu até hoje. O préprio Chomsky, quando foi recentemente
perguntado por um de nés sobre o que pensava do corpus lingiifstico
moderno, respondeu simplesmente: “nao existe”. A colegio de da-
dos de um corpus € visto por Chomsky como sendo igual a uma cole-
ao de borboletas.
462. A CONSTRUGAO DO CORPUS.
Os lingitistas que trabalham com corpus, por sua vez, afirmam que
© corpora podem ser utilmente empregados por lingiistas que nao
sio falantes nativos, e podem conter exemplos que seriam dificeis de
imaginar, porque eles sao raros. Eles pensam que a lingiistica deva
estar interessada em dados concretos da linguagem, isto é, dados de
desempenho, nao em dados prontos, dados de competéncia artifici-
al. E claro que a questio sobre que tipo de dados devem ser usados
no cra o tinico ponto de divergéncia. Os lingitistas que lidam com
corpus sio, em suia maioria, indutivistas, enquanto que os chomskya-
os sio dedutivistas. A controvérsia é, pois, também metodolégica
O que é uma lingitistica corpus, ¢ como 0s corpora podem ser usados na
pesquisa lingitistica?
O campo da lingitistica é vasto e inclui subdisciplinas tais como a
Psicolingifstica, a neurolingifstica, lingifstica forense, sociolingiiis-
tica, lingiifstica formal ou te6rica, semantica e assim por diante. Ha
pessoas que falam agora também em corpus lingiiistica. Poder-se-ia
perguntar se a corpus lingiifstica deve ser vista do mesmo modo
como 0s outros ramos da lingitfstica. Falando estritamente, a corpus
Tinglifstica nao ¢ de fato um ramo da lingiifstica como tal: ela € uma
metodologia lingtifstica, que pode ser usada em todos os ramos dae
lingiifstica. Assim, por exemplo, alguém que lida com sintatica, podeS z
Tecorrer a um corpus para estudar estruturas gramaticais particula-=' ©
res, enquanto que um sociolingiiista pode querer estudar conversa! =
S6es telefnicas num corpus, para ver se as pessoas falam ao telefone::
de maneira diferente de quando se comunicam face a face, Na vers =
dade, com isto em mente, alguns corpora contém nao apenas uma
mas varias categorias de conversagdes telefonicas: por exemplo=
conversagdes entre pessoas do mesmo status social, e entre pessoas
de status social diferente. Outro emprego que os sociolingilistas fize-
ram de corpora, € o estudo das diferengas entre as maneiras como os
homens ¢ as mulheres falam (veja, por exemplo, Tannen, 1992a;
1992b; Coates, 1996). Lingitistas, ou sociolinguistas que estao inte-
ressados no fendmeno dos “avisos manuscritos”, uma das categorias
encontradas no levantamento inicial do corpus de emprego do inglés
na University College London, podem ter achado divertido o se-
guinte aviso encontrado na porta de um banheiro paiblico, na esta-
io de Euston, em Londres: “Os banheiros estio estragados, por fa-
vor, use a plataforma 6.”
arePESQUISA QUAUTATIVA COM TEXTO, IMAGEM E SOM,
Como lidam os pesquisadores no emprego de um corpus? E 0 que
eles investigam? Obviamente, isto depende de seus objetivos de pes-
quisa. De qualquer modo, é necessario um programa de computador
que possa fazer buscas inteligentes. O tipo mais simples de busca é
para se encontrar um item léxico especifico, digamos, a palavra “o”.
As coisas se tornam mais complexas se a busca é feita, por exemplo,
ara se encontrar todos os substantivos num corpus. Para que isto pos-
sa ser feito, 0 corpus necessita ser analisado gramaticalmente. Antiga-
mente, essa andlise gramatical era feita manualmente; agora ela é fei-
taautomaticamente. O primeiro passo da andlise € a etiquetacio (tag-
ging). Nesse processo, é dada a cada e a toda palavra uma etiqueta
como, por exemplo, substantivo, verbo, adjetivo, etc. Isto pode ser fei-
to automaticamente por um programa de computador. Os Fesultados
sio corretos em cerca de 90 por cento dos casos, e necessitam ser cor~
rigidos manualmente. O segundo passo de andlise gramatical implica
analisar 0 corpus a partir de construcdes gramaticais. Por exemplo, em
uma frase como esta: “O cio mordeu o carteiro”, 0 programa pode
analisar “o c40” como 0 sujeito da frase, e “o carteiro” como o objeto
direto. Novamente, a andlise automatica deve ser corrigida manual-
mente, Uma vez completa a andlise gramatical, podem ser formula-
das questées. Para isso, é necessério um programa de busca. Este
pode ser instrufdo para encontrar todos os objetos diretos que se-
guem 0 verbo “ver”. Pesquisadores da University College London de-
senvolveram um etiquetador, um analisador gramatical e também um
programa de busca. O programa de busca é chamado de “ICE Corpus
Utility Program", ou abreviadamente “ICECUP”.
Um exemplo de corpus: 0 Corpus de Inglés Internacional (International
Conpus of English — ICE)
Como exemplo de um corpus, a Figura 2.1 mostra as categorias
textuais no ICE (International Corpus of English), desenvolvidas no
Departamento de inglés da University College London, ICE ¢ inter-
nacional no sentido de que corpora identicamente construidos foram
montados, ou estdo em proceso de montagem, em mais ou menos
20 paises de fala inglesa, entre eles Estados Unidos, Canada, Austré-
lia, Nova Zelindia, Quénia e Nigéria. O corpus foi planejado para
comportar tanto material falado como escrito, ¢ tanto as categorias
faladas como as escritas so posteriormente subdivididas. O corpus
ICE-GB, do inglés britinico, esta agora completo, e é acessivel em
CD-ROM; os outros corpora nacionais estio ainda em construgdo
(ver www.uclacuk/english-usage),
—48—Nba imecessos (50)
Noms span
‘eine
exc
Ioocaonei: popes vo
pro (150)
: ormacionais: reportogem (20) — Reportagens noticiosas da imprensa (20)
von (2) fine
ose 0
eb (100) —$Compilagso de —plnvestigocéo
empirica pilotoe do corpus porgio do corpus empirica
cnélise tedrica ‘
Figura 2.2 ~ Delineamento do corpus como um processo ciclico (Biber, 1993: 256).
Um padrao posterior de construgo de corpus pode incluir docu-
mentagio dos melhoramentos ciclicos, um trabalho que leve a uma
taxonomia padrao de textos e de situagies de fala, e convengdes
para assinalar os textos-simbolo selecionados ¢ exemplos de fala
com cédigospadrao. A transparéncia ndo mudaré a arbitrariedade
inevitayel na selegéo, mas a trard A luz do dia, de tal modo que possa-
mos evitar acusacées falsas e sugerir melhoramentos posteriores
(Atkins et al., 1992),
Corpora nas ciéncias sociais
A questi que surge agora é 0 que podemos aprender dos lin-
gilistas ao pensar sobre como selecionar dados para a pesquisa quali-
tativa, Corpus nao é um (ermo técnico que seja amplamente empre-
gado na metodologia das ciéncias sociais. A medida que a pesquisa
qualitativa vai ganhando magnitude critica, a selecdo das entrevis-
-s3—PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM
tas, dos textos e de outros materiais exige um tratamento mais siste-
matico comparavel ao da pesquisa por levantamento,
Devemos distinguir corpora para propésitos gerais, de corpora t6-
picos. Um corpus para propésitos gerais é delineado, tendo em men-
te um espectro amplo de questoes de pesquisa, e serve como um re-
curso no seu sentido mais amplo. A maior parte dos corpora lingiifsti-
cos de larga escala é projeto deste tipo. A julgar pelo esforco empré
gado, estes corpora sao recursos comparaveis ao censo feito de 10 em
10 anos, ou.ao levantamento anual da forca de trabalho realizada em
muitos pafses.
Colegées de arquivos se constituem em corpora de pesquisa para
propésitos gerais. Podemos pensar nas muitas bibliotecas nacionais
que possuem colecdes completas de jornais e revistas publicados
neste pafs, em papel e/ou microfichas. A British Newspaper Library
de Londres armazena todos os jornais disrios e semanais, impressos
nas Ilhas Britdnicas, desde o inicio do século dezenove. Nos tiltimos
anos, tiveram inicio servigos que fornecem diariamente colecdes
completas do que € publicado em jornais, como a FT-Profile ou Reu-
ters, ou com CD-ROM regular atualizado, diretamente das publica-
ges dos jornais. Muitas destas fontes sao praticamente completas €
estao registradas, prestando-se assim a uma amostragem represen-
tativa, até mesmo estritamente aleatéria. A anilise de contetido clis-
sica faz bom uso desses desenvolvimentos
Um corpus t6pico € planejado para um fim estritamente definido
de pesquisa; ele pode tornar-se um recurso geral de investigacao
para andlise secundaria. Muita pesquisa social com base em textos
ou entrevistas é deste tipo. Um exemplo de corpus t6pico é 0 Ulm
‘Texbank (Mergenthaler & Kaechele, 1988). A colegio inclui trans-
crig6es literais de mais de 8000 sessdes de psicoterapia, a partir de
mais de 1000 pacientes e ao redor de 70 terapeutas da Alemanha,
Austria, Suica e dos Estados Unidos. Ela foi planejada como um re-
curso para pesquisa psicoterpica, para estudar a dinamica da inte-
racio e da experiéncia. Embora a maior parte do material seja de
orientagio psicanalitica, nem todos os relatos 0 so. Psicoterapia &
uma forma particular de interagdo humana que se di em todo 0
mundo, € neste corpus a representatividade nao é um principio de
selecdo de dados: tal racional teria de considerar centros mundiais
urbanos de atividades psicoterpicas, tais como Nova lorque, Zuri-
que, Viena e Buenos Aires, como locais de amostragem. Ao contr’-
Tio, os critérios que guiaram a selecio sio a orientagao terapéutica
—54—2. A CONSTRUCAO DO CORPUS.
(registro 1), a diagnose do paciente (registro 2), 0 sucesso do trata-
mento (registro 3), e um minimo de duracao de 300 a 500 horas (re-
gistro 4). A selecao tem como objetivo equilibrar diferentes registros ¢
possibilitar uma pesquisa comparativa, Ela nao pretende ser repre-
sentativa, nem com respeito a distribuigio do sucesso ou fracasso na
Vida concreta, nem com respeito as 600 diferentes escolas de terapia,
mas pretende ter suficientes exemplos entre os 34 tipos de texto que
se relacionem com interages terapéuticas. O foco de anilise € a ativi-
dade verbal, as expressdes das varias formas de emotividade durante
© curso da terapia. O objetivo é relacionar uma diagnose particular
inicial e subseqiientes padrdes de din4mica verbal com 0s resultados
da terapia. O corpus é projetado no sentido de maximizar a variedade
interna de dinamica verbal durante as sessdes, confrontada com os re-
gistros externos da orientagao do terapeuta, a diagnose, o resultado
da terapia e a duragio do tratamento (Mergenthaler, 1996).
Como construir um corpus nas ciéncias sociais
Os lingitstas ¢ os pesquisadores qualitativos enfrentam 0 “para-
doxo do corpus teérico”. Eles comegam a estudar as variedades nos
temas, opinides, atitudes, estereétipos, cosmovisdes, comportamen-
tos e praticas da vida social. Contudo, como essas variedades sao ain-
da desconhecidas, e por isso também nao se sabe sua distribuigio, os
Pesquisadores nao podem conseguir uma amostragem de acordo
com um racional de representatividade, Mas os paradoxos muitas
vezes se resolvem quando nés recorrems ao tempo. Os lingitistas
sugerem um procedimento por etapas: a) sclecionar prelimina
mente; b) analisar essa variedade; c) ampliat 0 corpus de dados até
que nao se descubra mais variedade.
Em outraé palavras, eles concebem o corpus como um sistema que
cresce. Esta é a primeira licdo para a selecio qualitativa:
Regra 1 - Proceder por etap:
novo.
elecionar; analisar; selecionar de
Relevancia, homogeneidade, sincronicidade
As sugestées de Barthes (1967: 95s) para 0 delineamento do cor-
pus podem ser aiteis para a selecio qualitativa: relevancia, homoge-
neidade, sincronicidade. Primeiramente, os assuntos devem ser teo-
ricamente relevantes, ¢ devem ser coletados a partir de um ponto de
vista apenas. Os materiais em um corpus tém apenas um foco temati-
—55—PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM.
co, apenas um tema especifico. Por exemplo, um estudo de noticias
sobre ciéncia ¢ tecnologia exige um corpus de itens noticiosos que se
refira a ciéncia e a tecnologia, e isso exclui todos os outros itens noti-
ciosos. E um problema diferente de determinar a proporcao de noti-
cias sobre ciéncia entre todas as noticias: isto exigiria uma amostra
representativa de todas as noticias. Embora este critério pareca trivi-
al, ele serve como um alerta para ser levado em consideracéo ¢ que
pode servir para a selecio.
Em segundo lugar, os materiais de um corpus devem ser tao ho-
mogéneos quanto poss{vel. Isto se refere A substancia material dos
dados. Materiais textuais nao devem ser misturados com imagens,
nem devem os meios de comunicacao ser confusos; transérigoes de
entrevistas individuais nao devem ser juntadas a transcrig6es de en-
trevistas com grupos focais. Imagens, textos ¢ entrevistas individuais
com grupos focais podem ter a ver com partes do mesmo projeto
de pesquisa; mas devem, contudo, ser separados em corpora diferen-
tes para comparacao.
Em terceiro lugar, um corpus € uma intersecio da hist6ria, A
maioria dos materiais tem um ciclo natural de estabilidade ¢ mudan-
a. Os materiais a serem estudados devem ser escolhidos dentro de
um ciclo natural: eles devem ser sincr6nicos. O ciclo normal da mu-
danga ira definir o intervalo de tempo dentro do qual um corpus de
materiais relevantes e homogéneos deve ser selecionado. Por exem-
plo, padrées familiares tém probabilidade de permanecerem estd-
veis por uma ou duas geragoes; modas no vestir mudam a cada ano;
politicas editoriais de jornais e televisio podem ter um ciclo de pou-
cos anos; opinides tem um ciclo curto, de dias ou semanas. Para a
construgio de um corpus, muitos materiais dentro de um ciclo ape-
nas, so preferiveis a um tipo de material que passou por varios ci-
clos. Mudancas através dos ciclos sio estudadas comparando dois
corpora, nao dentro de um tinico ciclo.
Saturagao
Um procedimento para se superar o paradoxo do corpus teérico
€ mostrado na Figura 2.3. O espaco social é desdobrado em duas di-
mensédes: estratos ou fungées, € representagées. A dimensao hori-
zontal abrange os estratos sociais, fungdes € categorias que so co-
nhecidos ¢ so quase que parte do senso comum: sexo, idade, ativi-
dade ocupacional, urbano/rural, nivel de renda, religido e assim por
diante. Estas so as varidveis segundo as quais os pesquisadores so-
ye=
2. A CONSTRUGAO DO CORPUS.
Giais geralmente segmentam a populagdo; elas sio externas ao fend-
meno concreto em questao. O principal interesse dos pesquisadores
qualitativos € na tipificagéo da variedade de representacées das pes-
soas no seu mundo vivencial. As maneiras como as pessoas se relacio-
nam com 0s objetos no seu mundo vivencial, sua relacio sujeito-obje-
to, € observada através de conceitos tais como opiniées, atitudes, sen-
timentos, explicagdes, esterestipos, crencas, identidades, ideologias,
discurso, cosmovisées, hébitos e praticas. Esta é a segunda dimensao,
ou dimensio vertical de nosso esquema. Esta variedade € desconheci-
da ¢ merece ser investigada. As representagdes so relagées sujei-
to-objeto particulares, ligadas a um meio social, O pesquisador quali-
tativo quer entender diferentes ambientes sociais no espaco social, ti-
pificando estratos sociais e fumgées, ou combinagées deles, juntamen-
te com representagées especilicas. Os ambientes sociais ocupam um
espaco social ¢ podem ter um projeto de interesse e de investimento
comuns que justifique suas representacoes especificas. A variedade
externa € interna, os estratos ¢ as representagées podem se correlacio-
nar, mas nao é necessério. Existem ambientes sociais velhos ¢ novos
que estao emergindo em uma sociedade dindmica. Isto exige uma
imaginagao sociolégica e um conhecimento histérico para se reco-
nhecer novos ambientes sociais, e para identificar os ambientes tra-
dicionais que produzem diferengas com respeito representagio de
um novo problema na sociedade (Bauer & Gaskell, 1999)
Estratos sociais, fungdes e categorias (conhecidos)
Representacoes
(desconhecidas)
Variedades de:
crengas, atitudes,
opiniées,
estereétipos,
ideologias,
cosmovis6es,
habitos, priticas
/Ambientes tipificados
Jcombinando representacées,
estratos sociais e fungées
Figura 2.3 — As duas dimensdes do espaco social: estratose representagées.
=oPESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM,
Para selecionar pessoas a serem entrevistadas ou documentos
para uma pesquisa qualitativa, nds escolhemos individuos e fontes
de acordo com critérios externos: estratos sociais, fungdes ¢ catego-
tias. Por exemplo, podemos convidar entrevistados para um estudo
com grupo focal sobre temas referentes & moralidade da clonagem
humana por sexo, idade e educagao. O foco de investigacao, contu-
do, nao é a diferenga entre sexos ou idade dos grupos, mas a varie-
dade de temas éticos e sua estrutura argumentativa. Em outras pala-
vras, a pesquisa qualitativa tende a maximizar a variedade do fend-
meno desconhecido, neste caso os temas éticos referentes a clona-
gem. Isto € diferente da pesquisa de levantamento por amostragem:
ali as opinides e atitudes sao esquematizadas a priori nas perguntas €
comparadas com estratos conhecidos de pessoas. Por exemplo, a
pesquisa ira mostrar as diferengas nas opinides conforme os niveis
de educagio, sexo ou idade. Seguindo essas consideracées, formula-
mos mais trés regras:
Regra 2 ~ Na pesquisa qualitativa, a variedade de estratos e funcao
precede a variedade de representagées.
Regra 3 ~A caracterizagio da variedade de representacées tem prio-
ridade sobre sua ancoragem nas categorias existentes de pessoas.
Regra 4 ~ Maximizar a variedade de representacées, ampliando 0
espectro de estratos/fung6es em consideragio.
Uma implicagéo destas regras pode ser que certos estratos so
propositadamente superselecionados, de tal modo que um grupo
particular, que apresenta visdes complexas, pode receber uma aten-
‘Gio desproporcional na investigacao. Se, por exemplo, nas discusses
de grupos focais sobre clonagem humana, as mulheres mostram mui-
to mais preocupagio e diversidade de pontos de vistas, 0 pesquisador
nao hesitara explorar diferentes estratos e fungdes entre as mulheres
apenas ~ por exemplo, com ou sem filhos, conforme sua religiao, etc.
Poder-se-4 ignorar 0 fato de que o corpus seja composto mais por falas
de mulheres do que de homens. Contudo, para evitar concluses
equivocadas, todo julgamento sobre a distribuicéo de opinides devera
ser evitado. Apenas uma amostragem representativa de opinides nos
permitiré descrever conclusivamente a distribuigao de opinides. Nes-
te sentido, a constiugao do corpus ajuda a tipificar representagdes des-
conhecidas, enquanto que em contrapartida a amostragem represen-
tativa descreve a distribuicao de representagdes j4 conhecidas na so-
—58—2. A CONSTRUGAO DO CORPUS,
ciedade. Ambos os racionais devem ser distinguidos com cuidado a
fim de evitar confusdo e conclusées falsas.
A fim de superar o paradoxo da construgio do corpus inicial, a
Pesquisa comeca com os estratos € fungdes externas (Regra 2). Na
Pesquisa com grupos focais, poder-se-4 considerar grupos de idade,
ou estratos a partir da educacao, a partir de uma intuicdo inicial so.
bre o que poderia se constituir em uma diferenca com respeito a de-
terminado tema. Os pesquisadores, contudo, devem estar bem aten-
tos em nio confiar apenas em suas intuig6es, quando eles segmen-
tam o espaco social. Precisam manter a mente aberta para estratos €
distribuicdes funcionais posteriores, que podem nao ser dbvias num
primeiro momento. Podem comegar pelo sexo, idade e educacio,
mas podem precisar levar em consideracdo a etnia, a religiao, as di-
visdes urbano/rural a fim de identificar e maximizar a variedade nas
representagoes das pessoas sobre determinado tema. Aqui a lei da
diminuicao de retornos pode ser aplicada: acrescentar mais estratos
pode fazer apenas uma pequena diferenca com respeito a represen-
tagbes adicionais. Quando isso acontece, 0 conpus esta saturado. A
Regra | estipula que a selecao para pesquisa qualitativa €um proces-
so ciclico, e um processo ciclico requer um eritério para finalizar, se-
nao o projeto de pesquisa nao teria fim. Saturagio ¢ 0 critério de fi-
nalizagao: investigam-se diferentes representacdes, apenas até que a
inclusio de novos estratos nao acrescente mais nada de novo. Assu-
me-se que a variedade representacional é limitada no tempo e no es-
ago social. A identificagéo de mais variedade iria acrescer despro-
porcionalmente os custos do projeto; entio o pesquisador decide
parar de investigar novos estratos. Os perigos deste critério so os
maximos locais: pode acontecer 0 caso em que falar com alguém em
um bar piiblico nao traz nenhuma faceta nova ao assunto em ques-
t4o; contido, indo para um bairro diferente, ou saindo da cidade,
isto pode se dar. Os pesquisadores vivem em um mundo vivencial; ¢
eles devem se perguntar se a variedade que descobriram cobre seu
espago local ou um espaco mais amplo.
DAZE FEDERAL DO PARA
STECACEMTRAL
es:
Tamanho do corpus
Pouco pode ser dito sobre o tamanho dos corpora para pesquisa
qualitativa. Devemos considerar o esforgo envolvido na coleta de da-
dos ¢ na andlise, o numero de representacdes que se quer caracteri-
zar, e alguns requisitos minimos e maximos, por exemplo na andlise
automatica do texto, como critérios para o tamanho de um corpus.
—59—