0% acharam este documento útil (0 voto)
119 visualizações25 páginas

BAUER, Martin AARTS, Bas. A Construção Do Corpus

especificando o objeto de pesquisa

Enviado por

Paulo Dias
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
119 visualizações25 páginas

BAUER, Martin AARTS, Bas. A Construção Do Corpus

especificando o objeto de pesquisa

Enviado por

Paulo Dias
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF ou leia on-line no Scribd
Você está na página 1/ 25
2 A CONSTRUGAO DO CORPUS: UM PRINCIPIO PARA A. COLETA DE DADOS QUALITATIVOS Mortin W. Bauer & Bas Aarts Palavras-chave: corpus; distorgio da amostragem (nao cobertu- 1a, percentual de resposta); paradoxo corpus teérico; homogenci- dade; referencial de amostra; populagio; estratégia de amostra- gem; relevancia; saturagio; representacées (variagio interna); es- tratos e fungdes (variagao externa); amostra representativa; sin- cronicidade. ‘Toda pesquisa social empfrica seleciona evidéncia para argu- mentar ¢ necessita justificar a selegao que é a base de investigacio, descrigéo, demonstragio, prova ou refutacio de uma afirmagao es. pecffica. A orientagao mais elaborada para selecionar a evidéncia nas ciéncias sociais € a “amostragem estatistica aleatéria” (ver Kish, 1965). A competéncia da amostra representativa € inconteste. Em muitas areas de pesquisa textual e qualitativa, contudo, a amostra re- presentativa nao se aplica. Como selecionar pessoas para uma pes- quisa com grupos focais? Temos intengio, de fato, de representar uma populacio através de quatro ou cinco discusses com grupos fo- ais? Infelizmente, até agora nao se deu a tal assunto suficiente aten- ao. Na pratica, os pesquisadores muitas vezes tentam justificar 0 ra- cional de uma amostragem que parece distorcida, como se fosse a es- colha de uma falsa analogia. Neste capitulo, n6s propomos a “cons- trugio de um corpus”, como um principio alternativo de coleta de da- dos. Empregamos definigdes consistentes para nossos conceitos ba- sicos: “amostragem” significa amostragem estatistica aleat6ria; “cons- trugio de corpus” significa escolha sistemdtica de algum racional al- ternativo, que sera explicado a seguir. Amostragem e construgao de corpus sao dois procedimentos de selecio diversos. Do mesmo modo 39 PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM. que amostragem representativa, nés trilhamos o caminho interme- diario entre a contagem de uma populacao ¢ a conveniente selecao. A selecao nao sistematica viola o principio de prestagdo de contas publica da pesquisa; a construgéo de um corpus, porém, garante a ficiéncia que se ganha na selegao de algum material para caracteri- zar 0 todo. Deste modo, a construgio de um corpus e a amostragem representativa séo funcionalmente equivalentes, embora sejam es- truturalmente diferentes. Empregando este tipo de linguagem, con- seguimos uma formulagio positiva para a selecéo qualitativa, em vez de defini-la como uma forma inferior de amostragem. Em resumo, nés defendemos que a construgio de um corpus tipifica atributos des. conhecidos, enquanto que aamostragem estatistica aleatoria descreve a distribuicao de atributos j4 conhecidos no espaco social. Ambos os racionais devem ser cuidadosamente distinguidos para se evitar con- fuses sobre pesquisa qualitativa e falsas inferéncias a partir dela. Desenvolvemos esta argumentagio em wés etapas. Primeiro, re- visamos brevemente os conceitos centrais da amostragem represen- tativa e fazemos alusio a problemas que surgem de populagoes que nao podem ser conhecidas. Em segundo lugar, discutimos a constru- 40 de um corpus no campo em que ele foi desenvolvido: a lingiifsti- ca, Finalmente, abstraimos regras desta pratica, como orientagbes para a selecao de informacées na pesquisa social qualitativa, Amostragem representativa na pesquisa social A pratica de fazer inventérios sobre a populagao possui uma lon- ga histéria: governos quiseram saber que tipo de habitantes eles go- vernam a fim de orientar sua politica. A curta histéria da amostra- gem aleat6ria comegou no fim do século dezenove, em um clima de opinides conflitantes entre pesquisadores: alguns acreditavam em uma contagem completa, alguns na amostragem, ¢ outros em estu dos de caso singulares. Apenas uma alianca néo santa entre pesqui sadores de estudo de caso e pesquisadores que lidavam com amos- tragens aleatérias pode dar fim & dominagdo dos que defendiam a contagem completa (O’Muircheartaigh, 1977). A amostragem garante eficiéncia na pesquisa ao fornecer uma base légica para o estudo de apenas partes de uma populacao sem que se percam as informacées ~ seja esta populagio uma populagéo de objetos, animais, seres humanos, acontecimentos, aces, situa —40— Mo 2. A CONSTRUGAO DO CORPUS. Ges, grupos ou organizacbes. Como pode o estudo de uma parte fornecer um referencial seguro do todo? A chave para decifrar este enigma ¢ representatividade. A amostra representa a populacao se a distribuigio de algum critério € idéntica tanto na populagio como na amostra. Os parametros de uma populacio sio calculados através das estimativas observadas na amostra. Quanto maior a amostra, menor a margem de erro destas estimativas, embora o préprio Processo dle amostragerh possa trazer outros erros. Em principio, é necessario provar que os critérios da amostra e as variaveis focais de fato se correlacionem. Na pritica, contudo, presume-se em geral que se a amostra representa a populagio a partir de um determina- do ntimero de critérios, entao ela representara também a populacao naqueles critérios nos quais alguém esteja interessado: 0 pesquisa. dor pode entrevistar 2000 ingleses, cuidadosamente selecionados conforme idade, sexo e classe social, ¢ ele tera seguranga para carac- terizar as opinides da nacio, digamos, sobre modificacao genética de alimentos, dentro de uma margem conhecida de erro. Isto é pos- sivel seguindo-se o racional da amostragem, o que trard enorme eco- nomia de tempo e esforgo. Aamostragem refere-se a um conjunto de técnicas para se conse- Suir representatividade. A exigéncia-chave é o referencial de amos- tragem que operacionaliza a populacao, Ele se compée de uma lista especifica de unidades que sao levadas em conta na selecio. Cada item da lista representa apenas um membro da populacao, e cada item possui uma probabilidade igual de ser selecionado. Um refe- rencial de amostragem pode se constituir de ntimeros de telefones, enderesos ¢ cédigos postais, listas de cleitores ou listas de compa. nhias. Por exemplo, a lista de estudantes que esto prestando exame em uma universidade é um referencial de amostragem para a popt lagio estudantil deste ano especifico. A qualidade do referencial de amostragem € medida pelo quanto ela nao consegue abranger todos 08 elementos que devem ser pesquisados (néo cobertura). A maioria das definigdes que levam em conta as tensées internas da populacio sio mais amplas que sua operacionalizacio em uma possivel lista por exemplo, a populacao de uma nacio inclui seus prisioneiros e os portadores de doenga psiquica, enquanto que a lista de eleitores ira exclui-los. Os ntimeros dos telefones dao margem a situagoes a des- coberto, pois algumas residéncias ndo possuem telefone, enquanto que outras possuem diversos. A nao cobertura total é a primeira dis- torgao da amostra. a) PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM, O referencial de amostragem € uma precondicao para se poder aplicar uma estratégia de amostragem. Gerando 100 néimeros aleato- rios entre 1 ¢ 5000, e selecionando os itens da lista que corresponde a esses 100 ntimeros aleat6rios, cria-se uma simples amostra aleatéria de 100 dentro de 5000. Tomemos como um exemplo mais elaborado uma amostra de miiltiplos estégios para o estudo de opinides sobre alimento geneticamente modificado. O pesquisador pode selecionar uma amostra de 50 areas a partir dos cédigos postais do correio, es- tratificadas conforme caracteristicas socioecondmicas, tais como a mé- dia da renda e a residéncia urbana ou rural. O pressuposto € que a renda ea residéncia urbana ou rural irao influenciar nas opinides. No segundo estagio, ele seleciona aleatoriamente, em cada uma das 50 reas, 40 residéncias, a partir da divisio feita pelo cédigo postal, onde finalmente o pesquisador ira entrevistar um membro da familia, com idade acima de 15 anos, cyja data de nascimento esteja mais proxima da data da entrevista. Teremos uma cota de amostra se, no passo final, as unidades forem selecionadas nao aleatoriamente, mas pedindo-se ao entrevistador que ele encontre uma cota: a cota poderia ser 20 mu- Iheres ¢ 20 homens, porque nds sabemos que homens e mulheres es- tio igualmente distribuidos na populagio. Dos 2000 entrevistados selecionados, alguns poderao nao ser en- contrados. Esta falta de resposta apresenta uma segunda distorcao na amostragem, No caso de uma amostra aleat6ria, saberemos quan- tos nao foram atingidos; mas no caso da cota de amostragem, nao sa- beremos, 0 que torna esse tipo uma amostra no aleatoria e, para muitos pesquisadores, um procedimento duvidoso. Uma amostra- gem representativa conseguira a melhor descrigéo possivel de uma populacio, apesar de se pesquisar apenas parte dela. Contudo, ela depende da possibilidade de um referencial de amostragem, de uma lista ou uma combinagio de listas dos membros de uma popula- 40, ou do conhecimento da distribuicao de caracteristicas essenciais na populagao. Sem listas ou distribuigoes conhecidas, 0 procedi- mento nao pode ser executado. Vamos discutir alguns casos onde o pressuposto de uniformida- de de uma populacao é problematico. Algumas discussdes sobre re- presentatividade defenderam trés dimensoes: individuos, ages ¢ si tuagdes (ver, por exemplo, Jahoda et al., 1951). Individuos agem em situagdes, e, para generalizar os resultados de uma pesquisa com in- dividuos agindo em situagoes, todas estas trés dimensoes devem ser controladas. Uma amostragem, contudo, que se concentra nos indi- —4a2— Oe SEE 2, ACONSTRUCKO DO CORPUS. viduos, conseguira dar conta com seguranca apenas deles. Tentati- vas rotineiras de amostragem nao se preocupam nem com as ages, em com as situacdes. Poucas ages humanas (trabalhar, comprar, votar, jogar, pensar, decidir) foram objeto de intenso estudo psico. logico que levasse a generalizacdes sobre a acao humana, sem se fun- damentar em amostragens. Do mesmo modo, nao foram feitas ten- tativas para construir amostras a partir das situacoes onde as pessoas agem. Por que nao? £ que nem as ages, nem as situagdes, parecem ter uma populagéo que possa ser definida. Terfamos de estudar po- pulagdes desconhecidas. Votar, trabalhar e comprar s4o atividades im- portantes; contudo, nao é evidente até que ponto sua estrutura ¢ fungao representam toda a atividade humana. A maioria dos cientis- tas sociais considera os resultados que se mostram consistentes em algumas situac6es diferentes, como réplicas, e por isso, seguros. Ao fazer isso, eles garantem uma generalizacio para os atores, mas vio- Jentam uma indugao que possa se aplicar a acées e situagoes; a amos- tragem néo se aplica nem para agées, nem para situagdes (Dawes, 1977). A ciéncia social parece dormir trangiiilamente com esta prati- ca contraditéria Vejamos casos de populagdes que nao podem ser conhecidas. Um prémio de muitos milhares de libras esterlinas foi recentemente oferecido, em uma conferéncia ptiblica, para quem fosse capaz de apresentar um referencial de amostragem para conversagoes e inte- rages humanas. O conferencista estava seguro que ninguém seria capaz de responder ao desafio. Observe o contetido da fala, a conca- tenacdo das palavras, em um pequeno niimero de palavras, de acor- do com uma gramatica, Em qualquer momento, o ntimero de frases Possfveis é infinito, porque o espaco de combinagao das palavras € um recurso infinito. Falas, conversagées e interagdes humanas sio sistemas abertos, cujos elementos sao as palavras © os movimentos, em um conjunto infinito de sequéncias possfveis. Para sistemas aber- tos, a populagao é, em principio, impossivel de ser conhecida. Seus elementos podem ser no maximo tipificados, mas nao listados. A l6gica da amostragem representativa é titil para muita pesqui- sa social, mas ela nao se presta para todas as situacées de pesquisa Hi o perigo de nés estendermos indevidamente os procedimentos da amostragem representativa a estudos em que ela é inadequada Criticamos certas formas de coleta de dados como desvios da “popu lagio padrao”. Contudo, mesmo no reino da probabilidade, a "lei dos pequenos ntimeros” impera. Os seres humanos tendem (com 3 PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM excecio dos estatisticos, é claro) a superestimar a representatividade das observagées cotidianas (Tversky & Kahnemann, 1974; Gigeren- zer et al., 1989: 219s). A ligéo € clara: prestemos mais ateng4o a amostragem. Nossos esforgos, contudo, podem estar mal orienta- dos: a busca por representatividade pode canalizar escassos recursos no que diz respeito a estratégias de selecao que sao inadequadas para o problema em questio, A nocio de corpus Iremos discutir agora o que o lingiiista oferece na construgao de seu corpus. A linguagem é um sistema aberto. Nao podemos.esperar uma lista de todas as frases das quais se poderé selecionar aleatoria- mente. A comunidade dos lingiistas rejeitou recentemente a mocio de que 0s corpora da linguagem sejam representativos do uso da lin- guagem (Johansson, 1995: 246), A palavra corpus (latim; plural corpora) significa simplesmente corpo. Nas ciéncias hist6ricas, ela se refere a uma colegio de textos. Pode ser definida como “um corpo de uma colegio completa de es- critos ou coisas parecidas; 0 conjunto completo de literatura sobre algum assunto... varios trabalhos da mesma natureza, coletados ¢ or- ganizados" (Oxford English Dictionary, 1989); ou como “uma colegio de textos, especialmente se for compieta e independente” (McArthur, 1992). Exemplos, colecionados principalmente durante o século de- zenove, s40 0 Corpus Doctrinae, um conjunto de tratados teol6gicos da historia eclesidstica alema; o Corpus Inscriptorum Semiticorum, uma colecao completa dos antigos textos judaicos na Academia Francesa ou 0 Corpus Inscriptorum Graecorum, dos textos gregos antigos na Academia de Berlim. Estas colecées procuram ser completas ¢ tema- ticamente unificadas, além de servir para pesquisa. Outra definicao de corpus € “nma colegio finita de materiais, de- terminada de antemao pelo analista, com (inevitavel) arbitrarieda- de, € com a qual ele ira trabalhar” (Barthes, 1967: 96). Barthes, ao analisar textos, imagens, masica e outros materiais como significan tes da vida social, estende a nogio de corpus de um texto para qual- quer outro material. Em seu optisculo sobre os principios da semis- tica ele reduz as consideragdes sobre selecdo a poucas paginas. Sele- Go parece menos importante que andlise, mas nao pode ser separa- da dela. A arbitrariedade é menos uma questao de conveniéncia e, em principio, mais inevitavel. Os materiais devem ser homogéneos, ee ee 2. A CONSTRUGAO BO CORPUS. por isso nao se deve misturar texto ¢ imagens em um mesmo corpus. Uma boa anilise permanece dentro do corpus e procura dar conta de toda a diferenga que esta contida nele. Em resumo, embora signifi- cados mais antigos de “corpo de um texto” impliquem a colecdo completa de textos, de acordo com algum tema comum, mais recen- temente o sentido acentua a natureza proposital da selecio, e no apenas de textos, mas também de qualquer material com fungdes simbélicas. Esta selegao 6, até certo ponto, inevitavelmente arbitré- ria: a andlise compreensiva tem prioridade sobre o exame minucio- so da selecio. O corpus lingitistico, contudo, oferece uma discussio mais sistematica. O que sao corpora de linguagem? Corpora, no sentido lingiifstico, sao colegdes de dados de lingua- gem que servem para varios tipos de pesquisa. O termo esta ligado a desenvolvimentos de estudos de linguagem em computador (Jo- hansson, 1995; Biber et al., 1998). Um corpus lingiiistico é “um mate- rial escrito ou falado sobre o qual se fundamenta uma anilise lin- giifstica” (Oxford English Dictionary, 1989), ou “textos, falas e outros ti- pos considerados mais ou menos representativos de uma linguagem € geralmente armazenados como um banco de dados eletronico” (McArthur, 1992). Os corpora sao estruturados a partir de varios pa~ rametros, tais como 0 canal (falado ou escrito, escrito para ser fala- do, etc.), tematica (arte, familia, religido, educagdo, etc.), fungao (persuadir, expressar, informar, etc.). CombinagGes destas subcate- gorias podem formar uma tipologia hierarquica de registros, como veremos. Os primeiros corpora de linguagem cram geralmente do tipo escrito e colecionados manualmente. Uma vez construidos, os corpora podem ser usados como banco de dados para pesquisa lingiiistica. Quando os primeiros corpora fo- ram construidos, o tratamento dos dados tinha também de ser feito manualmente. Assim, por exemplo, um pesquisador que estivesse interessado em trabalhar com verbos de percepcao em inglés (ver- bos como ver, ouvir, etc.) teria de pesquisar o corpus manualmente, a fim de encontrar estes verbos. Mais tarde estes corpora foram com- putadorizados: o primeiro foi o Brown Corpus, construfdo na década de 1960 na Brown University, em Providence, Rhode Island. Hoje em dia, todos os corpora s4o computadorizados e permitem pesqui- sas automatizadas. 45 — PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM. Os primeiros corpora computadorizados surgiram em uma era im- portante na historia da lingifstica, isto é, no inicio da era chomskya- na. O livro de Chomsky Syntactic Structures (1957) é a publicacio semi- nal deste periodo. Chomsky defendia que todos os seres humanos Possuem uma capacidade lingifstica inata, que ele chamou de grama- tica universal. Desde os inicios da lingiiistica chomskyana, houve uma @nfase sobre a maneira como os lingiiistas podem proceder na cons- trucdo de representagées abstratas de cada um, e de todo conheci- mento de linguagem daquele que fala. Devido ao fato de a teoria ser toda sobre representagGes abstratas, este campo da lingiifstica 6 carac- terizado por um distanciamento do empiricismo, e por uma confian- a no conhecimento interno da linguagem que nds possufmos como falantes inatos. Chomsky fez uma distingo entre o que ele chamou de competéncia (competence), que € 0 conhecimento inato que os falantes tem da linguagem, e desempenho (performance), a maneira como eles fazem uso de seu conhecimento inato. Mais recentemente ele intro- duziu o termo Hanguage (linguagem internalizada) ¢ E-language (inguagem externalizada). A teoria de Chomsky é uma teoria da competéncia (uma teoria da I-language), e nao do desempenho (teo- ria da E-language). No modelo chomskyano, toda linguagem particu- lar constitui um epifendmeno, com o termo linguagem ficando agora exclusivamente para significar a I-language. Os primeiros seguidores de Chomsky atacavam muito a lingiifs- tica de orientagao empirica. Nelson Francis, o compilador do Brown Corpus, foi questionado em uma palestra por Robert Lees, um se- guidor de Chomsky, no que ele estava trabalhando. Francis res- pondeu que estava compilando um corpus do inglés escrito e falado dos Estados Unidos. Isto foi visto com animosidade por Lees, que afirmou ser uma completa e total perda de tempo. O ponto de vista de Lees, ¢ o de muitos chomskyanos daquele tempo, era o de que seria apenas suficiente refletir um pouco, para se conseguir exem- plos pessoais de fenémenos lingiiisticos particulares em inglés. Os lingiiistas chomskyanos sempre insistiram que os tinicos dados in- teressantes para o estudo da linguagem eram dados introspectivos, isto é, dados que eram construfdos na base do conhecimento de uma linguagem de um falante nativo. A aversfo a dados empfricos persistiu até hoje. O préprio Chomsky, quando foi recentemente perguntado por um de nés sobre o que pensava do corpus lingiifstico moderno, respondeu simplesmente: “nao existe”. A colegio de da- dos de um corpus € visto por Chomsky como sendo igual a uma cole- ao de borboletas. 46 2. A CONSTRUGAO DO CORPUS. Os lingitistas que trabalham com corpus, por sua vez, afirmam que © corpora podem ser utilmente empregados por lingiistas que nao sio falantes nativos, e podem conter exemplos que seriam dificeis de imaginar, porque eles sao raros. Eles pensam que a lingiistica deva estar interessada em dados concretos da linguagem, isto é, dados de desempenho, nao em dados prontos, dados de competéncia artifici- al. E claro que a questio sobre que tipo de dados devem ser usados no cra o tinico ponto de divergéncia. Os lingitistas que lidam com corpus sio, em suia maioria, indutivistas, enquanto que os chomskya- os sio dedutivistas. A controvérsia é, pois, também metodolégica O que é uma lingitistica corpus, ¢ como 0s corpora podem ser usados na pesquisa lingitistica? O campo da lingitistica é vasto e inclui subdisciplinas tais como a Psicolingifstica, a neurolingifstica, lingifstica forense, sociolingiiis- tica, lingiifstica formal ou te6rica, semantica e assim por diante. Ha pessoas que falam agora também em corpus lingiiistica. Poder-se-ia perguntar se a corpus lingiifstica deve ser vista do mesmo modo como 0s outros ramos da lingitfstica. Falando estritamente, a corpus Tinglifstica nao ¢ de fato um ramo da lingiifstica como tal: ela € uma metodologia lingtifstica, que pode ser usada em todos os ramos dae lingiifstica. Assim, por exemplo, alguém que lida com sintatica, podeS z Tecorrer a um corpus para estudar estruturas gramaticais particula-=' © res, enquanto que um sociolingiiista pode querer estudar conversa! = S6es telefnicas num corpus, para ver se as pessoas falam ao telefone:: de maneira diferente de quando se comunicam face a face, Na vers = dade, com isto em mente, alguns corpora contém nao apenas uma mas varias categorias de conversagdes telefonicas: por exemplo= conversagdes entre pessoas do mesmo status social, e entre pessoas de status social diferente. Outro emprego que os sociolingilistas fize- ram de corpora, € o estudo das diferengas entre as maneiras como os homens ¢ as mulheres falam (veja, por exemplo, Tannen, 1992a; 1992b; Coates, 1996). Lingitistas, ou sociolinguistas que estao inte- ressados no fendmeno dos “avisos manuscritos”, uma das categorias encontradas no levantamento inicial do corpus de emprego do inglés na University College London, podem ter achado divertido o se- guinte aviso encontrado na porta de um banheiro paiblico, na esta- io de Euston, em Londres: “Os banheiros estio estragados, por fa- vor, use a plataforma 6.” are PESQUISA QUAUTATIVA COM TEXTO, IMAGEM E SOM, Como lidam os pesquisadores no emprego de um corpus? E 0 que eles investigam? Obviamente, isto depende de seus objetivos de pes- quisa. De qualquer modo, é necessario um programa de computador que possa fazer buscas inteligentes. O tipo mais simples de busca é para se encontrar um item léxico especifico, digamos, a palavra “o”. As coisas se tornam mais complexas se a busca é feita, por exemplo, ara se encontrar todos os substantivos num corpus. Para que isto pos- sa ser feito, 0 corpus necessita ser analisado gramaticalmente. Antiga- mente, essa andlise gramatical era feita manualmente; agora ela é fei- taautomaticamente. O primeiro passo da andlise € a etiquetacio (tag- ging). Nesse processo, é dada a cada e a toda palavra uma etiqueta como, por exemplo, substantivo, verbo, adjetivo, etc. Isto pode ser fei- to automaticamente por um programa de computador. Os Fesultados sio corretos em cerca de 90 por cento dos casos, e necessitam ser cor~ rigidos manualmente. O segundo passo de andlise gramatical implica analisar 0 corpus a partir de construcdes gramaticais. Por exemplo, em uma frase como esta: “O cio mordeu o carteiro”, 0 programa pode analisar “o c40” como 0 sujeito da frase, e “o carteiro” como o objeto direto. Novamente, a andlise automatica deve ser corrigida manual- mente, Uma vez completa a andlise gramatical, podem ser formula- das questées. Para isso, é necessério um programa de busca. Este pode ser instrufdo para encontrar todos os objetos diretos que se- guem 0 verbo “ver”. Pesquisadores da University College London de- senvolveram um etiquetador, um analisador gramatical e também um programa de busca. O programa de busca é chamado de “ICE Corpus Utility Program", ou abreviadamente “ICECUP”. Um exemplo de corpus: 0 Corpus de Inglés Internacional (International Conpus of English — ICE) Como exemplo de um corpus, a Figura 2.1 mostra as categorias textuais no ICE (International Corpus of English), desenvolvidas no Departamento de inglés da University College London, ICE ¢ inter- nacional no sentido de que corpora identicamente construidos foram montados, ou estdo em proceso de montagem, em mais ou menos 20 paises de fala inglesa, entre eles Estados Unidos, Canada, Austré- lia, Nova Zelindia, Quénia e Nigéria. O corpus foi planejado para comportar tanto material falado como escrito, ¢ tanto as categorias faladas como as escritas so posteriormente subdivididas. O corpus ICE-GB, do inglés britinico, esta agora completo, e é acessivel em CD-ROM; os outros corpora nacionais estio ainda em construgdo (ver www.uclacuk/english-usage), —48— Nba imecessos (50) Noms span ‘eine exc Ioocaonei: popes vo pro (150) : ormacionais: reportogem (20) — Reportagens noticiosas da imprensa (20) von (2) fine ose 0 eb (100) —$Compilagso de —plnvestigocéo empirica pilotoe do corpus porgio do corpus empirica cnélise tedrica ‘ Figura 2.2 ~ Delineamento do corpus como um processo ciclico (Biber, 1993: 256). Um padrao posterior de construgo de corpus pode incluir docu- mentagio dos melhoramentos ciclicos, um trabalho que leve a uma taxonomia padrao de textos e de situagies de fala, e convengdes para assinalar os textos-simbolo selecionados ¢ exemplos de fala com cédigospadrao. A transparéncia ndo mudaré a arbitrariedade inevitayel na selegéo, mas a trard A luz do dia, de tal modo que possa- mos evitar acusacées falsas e sugerir melhoramentos posteriores (Atkins et al., 1992), Corpora nas ciéncias sociais A questi que surge agora é 0 que podemos aprender dos lin- gilistas ao pensar sobre como selecionar dados para a pesquisa quali- tativa, Corpus nao é um (ermo técnico que seja amplamente empre- gado na metodologia das ciéncias sociais. A medida que a pesquisa qualitativa vai ganhando magnitude critica, a selecdo das entrevis- -s3— PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM tas, dos textos e de outros materiais exige um tratamento mais siste- matico comparavel ao da pesquisa por levantamento, Devemos distinguir corpora para propésitos gerais, de corpora t6- picos. Um corpus para propésitos gerais é delineado, tendo em men- te um espectro amplo de questoes de pesquisa, e serve como um re- curso no seu sentido mais amplo. A maior parte dos corpora lingiifsti- cos de larga escala é projeto deste tipo. A julgar pelo esforco empré gado, estes corpora sao recursos comparaveis ao censo feito de 10 em 10 anos, ou.ao levantamento anual da forca de trabalho realizada em muitos pafses. Colegées de arquivos se constituem em corpora de pesquisa para propésitos gerais. Podemos pensar nas muitas bibliotecas nacionais que possuem colecdes completas de jornais e revistas publicados neste pafs, em papel e/ou microfichas. A British Newspaper Library de Londres armazena todos os jornais disrios e semanais, impressos nas Ilhas Britdnicas, desde o inicio do século dezenove. Nos tiltimos anos, tiveram inicio servigos que fornecem diariamente colecdes completas do que € publicado em jornais, como a FT-Profile ou Reu- ters, ou com CD-ROM regular atualizado, diretamente das publica- ges dos jornais. Muitas destas fontes sao praticamente completas € estao registradas, prestando-se assim a uma amostragem represen- tativa, até mesmo estritamente aleatéria. A anilise de contetido clis- sica faz bom uso desses desenvolvimentos Um corpus t6pico € planejado para um fim estritamente definido de pesquisa; ele pode tornar-se um recurso geral de investigacao para andlise secundaria. Muita pesquisa social com base em textos ou entrevistas é deste tipo. Um exemplo de corpus t6pico é 0 Ulm ‘Texbank (Mergenthaler & Kaechele, 1988). A colegio inclui trans- crig6es literais de mais de 8000 sessdes de psicoterapia, a partir de mais de 1000 pacientes e ao redor de 70 terapeutas da Alemanha, Austria, Suica e dos Estados Unidos. Ela foi planejada como um re- curso para pesquisa psicoterpica, para estudar a dinamica da inte- racio e da experiéncia. Embora a maior parte do material seja de orientagio psicanalitica, nem todos os relatos 0 so. Psicoterapia & uma forma particular de interagdo humana que se di em todo 0 mundo, € neste corpus a representatividade nao é um principio de selecdo de dados: tal racional teria de considerar centros mundiais urbanos de atividades psicoterpicas, tais como Nova lorque, Zuri- que, Viena e Buenos Aires, como locais de amostragem. Ao contr’- Tio, os critérios que guiaram a selecio sio a orientagao terapéutica —54— 2. A CONSTRUCAO DO CORPUS. (registro 1), a diagnose do paciente (registro 2), 0 sucesso do trata- mento (registro 3), e um minimo de duracao de 300 a 500 horas (re- gistro 4). A selecao tem como objetivo equilibrar diferentes registros ¢ possibilitar uma pesquisa comparativa, Ela nao pretende ser repre- sentativa, nem com respeito a distribuigio do sucesso ou fracasso na Vida concreta, nem com respeito as 600 diferentes escolas de terapia, mas pretende ter suficientes exemplos entre os 34 tipos de texto que se relacionem com interages terapéuticas. O foco de anilise € a ativi- dade verbal, as expressdes das varias formas de emotividade durante © curso da terapia. O objetivo é relacionar uma diagnose particular inicial e subseqiientes padrdes de din4mica verbal com 0s resultados da terapia. O corpus é projetado no sentido de maximizar a variedade interna de dinamica verbal durante as sessdes, confrontada com os re- gistros externos da orientagao do terapeuta, a diagnose, o resultado da terapia e a duragio do tratamento (Mergenthaler, 1996). Como construir um corpus nas ciéncias sociais Os lingitstas ¢ os pesquisadores qualitativos enfrentam 0 “para- doxo do corpus teérico”. Eles comegam a estudar as variedades nos temas, opinides, atitudes, estereétipos, cosmovisdes, comportamen- tos e praticas da vida social. Contudo, como essas variedades sao ain- da desconhecidas, e por isso também nao se sabe sua distribuigio, os Pesquisadores nao podem conseguir uma amostragem de acordo com um racional de representatividade, Mas os paradoxos muitas vezes se resolvem quando nés recorrems ao tempo. Os lingitistas sugerem um procedimento por etapas: a) sclecionar prelimina mente; b) analisar essa variedade; c) ampliat 0 corpus de dados até que nao se descubra mais variedade. Em outraé palavras, eles concebem o corpus como um sistema que cresce. Esta é a primeira licdo para a selecio qualitativa: Regra 1 - Proceder por etap: novo. elecionar; analisar; selecionar de Relevancia, homogeneidade, sincronicidade As sugestées de Barthes (1967: 95s) para 0 delineamento do cor- pus podem ser aiteis para a selecio qualitativa: relevancia, homoge- neidade, sincronicidade. Primeiramente, os assuntos devem ser teo- ricamente relevantes, ¢ devem ser coletados a partir de um ponto de vista apenas. Os materiais em um corpus tém apenas um foco temati- —55— PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM. co, apenas um tema especifico. Por exemplo, um estudo de noticias sobre ciéncia ¢ tecnologia exige um corpus de itens noticiosos que se refira a ciéncia e a tecnologia, e isso exclui todos os outros itens noti- ciosos. E um problema diferente de determinar a proporcao de noti- cias sobre ciéncia entre todas as noticias: isto exigiria uma amostra representativa de todas as noticias. Embora este critério pareca trivi- al, ele serve como um alerta para ser levado em consideracéo ¢ que pode servir para a selecio. Em segundo lugar, os materiais de um corpus devem ser tao ho- mogéneos quanto poss{vel. Isto se refere A substancia material dos dados. Materiais textuais nao devem ser misturados com imagens, nem devem os meios de comunicacao ser confusos; transérigoes de entrevistas individuais nao devem ser juntadas a transcrig6es de en- trevistas com grupos focais. Imagens, textos ¢ entrevistas individuais com grupos focais podem ter a ver com partes do mesmo projeto de pesquisa; mas devem, contudo, ser separados em corpora diferen- tes para comparacao. Em terceiro lugar, um corpus € uma intersecio da hist6ria, A maioria dos materiais tem um ciclo natural de estabilidade ¢ mudan- a. Os materiais a serem estudados devem ser escolhidos dentro de um ciclo natural: eles devem ser sincr6nicos. O ciclo normal da mu- danga ira definir o intervalo de tempo dentro do qual um corpus de materiais relevantes e homogéneos deve ser selecionado. Por exem- plo, padrées familiares tém probabilidade de permanecerem estd- veis por uma ou duas geragoes; modas no vestir mudam a cada ano; politicas editoriais de jornais e televisio podem ter um ciclo de pou- cos anos; opinides tem um ciclo curto, de dias ou semanas. Para a construgio de um corpus, muitos materiais dentro de um ciclo ape- nas, so preferiveis a um tipo de material que passou por varios ci- clos. Mudancas através dos ciclos sio estudadas comparando dois corpora, nao dentro de um tinico ciclo. Saturagao Um procedimento para se superar o paradoxo do corpus teérico € mostrado na Figura 2.3. O espaco social é desdobrado em duas di- mensédes: estratos ou fungées, € representagées. A dimensao hori- zontal abrange os estratos sociais, fungdes € categorias que so co- nhecidos ¢ so quase que parte do senso comum: sexo, idade, ativi- dade ocupacional, urbano/rural, nivel de renda, religido e assim por diante. Estas so as varidveis segundo as quais os pesquisadores so- ye = 2. A CONSTRUGAO DO CORPUS. Giais geralmente segmentam a populagdo; elas sio externas ao fend- meno concreto em questao. O principal interesse dos pesquisadores qualitativos € na tipificagéo da variedade de representacées das pes- soas no seu mundo vivencial. As maneiras como as pessoas se relacio- nam com 0s objetos no seu mundo vivencial, sua relacio sujeito-obje- to, € observada através de conceitos tais como opiniées, atitudes, sen- timentos, explicagdes, esterestipos, crencas, identidades, ideologias, discurso, cosmovisées, hébitos e praticas. Esta é a segunda dimensao, ou dimensio vertical de nosso esquema. Esta variedade € desconheci- da ¢ merece ser investigada. As representagdes so relagées sujei- to-objeto particulares, ligadas a um meio social, O pesquisador quali- tativo quer entender diferentes ambientes sociais no espaco social, ti- pificando estratos sociais e fumgées, ou combinagées deles, juntamen- te com representagées especilicas. Os ambientes sociais ocupam um espaco social ¢ podem ter um projeto de interesse e de investimento comuns que justifique suas representacoes especificas. A variedade externa € interna, os estratos ¢ as representagées podem se correlacio- nar, mas nao é necessério. Existem ambientes sociais velhos ¢ novos que estao emergindo em uma sociedade dindmica. Isto exige uma imaginagao sociolégica e um conhecimento histérico para se reco- nhecer novos ambientes sociais, e para identificar os ambientes tra- dicionais que produzem diferengas com respeito representagio de um novo problema na sociedade (Bauer & Gaskell, 1999) Estratos sociais, fungdes e categorias (conhecidos) Representacoes (desconhecidas) Variedades de: crengas, atitudes, opiniées, estereétipos, ideologias, cosmovis6es, habitos, priticas /Ambientes tipificados Jcombinando representacées, estratos sociais e fungées Figura 2.3 — As duas dimensdes do espaco social: estratose representagées. =o PESQUISA QUALITATIVA COM TEXTO, IMAGEM E SOM, Para selecionar pessoas a serem entrevistadas ou documentos para uma pesquisa qualitativa, nds escolhemos individuos e fontes de acordo com critérios externos: estratos sociais, fungdes ¢ catego- tias. Por exemplo, podemos convidar entrevistados para um estudo com grupo focal sobre temas referentes & moralidade da clonagem humana por sexo, idade e educagao. O foco de investigacao, contu- do, nao é a diferenga entre sexos ou idade dos grupos, mas a varie- dade de temas éticos e sua estrutura argumentativa. Em outras pala- vras, a pesquisa qualitativa tende a maximizar a variedade do fend- meno desconhecido, neste caso os temas éticos referentes a clona- gem. Isto € diferente da pesquisa de levantamento por amostragem: ali as opinides e atitudes sao esquematizadas a priori nas perguntas € comparadas com estratos conhecidos de pessoas. Por exemplo, a pesquisa ira mostrar as diferengas nas opinides conforme os niveis de educagio, sexo ou idade. Seguindo essas consideracées, formula- mos mais trés regras: Regra 2 ~ Na pesquisa qualitativa, a variedade de estratos e funcao precede a variedade de representagées. Regra 3 ~A caracterizagio da variedade de representacées tem prio- ridade sobre sua ancoragem nas categorias existentes de pessoas. Regra 4 ~ Maximizar a variedade de representacées, ampliando 0 espectro de estratos/fung6es em consideragio. Uma implicagéo destas regras pode ser que certos estratos so propositadamente superselecionados, de tal modo que um grupo particular, que apresenta visdes complexas, pode receber uma aten- ‘Gio desproporcional na investigacao. Se, por exemplo, nas discusses de grupos focais sobre clonagem humana, as mulheres mostram mui- to mais preocupagio e diversidade de pontos de vistas, 0 pesquisador nao hesitara explorar diferentes estratos e fungdes entre as mulheres apenas ~ por exemplo, com ou sem filhos, conforme sua religiao, etc. Poder-se-4 ignorar 0 fato de que o corpus seja composto mais por falas de mulheres do que de homens. Contudo, para evitar concluses equivocadas, todo julgamento sobre a distribuicéo de opinides devera ser evitado. Apenas uma amostragem representativa de opinides nos permitiré descrever conclusivamente a distribuigao de opinides. Nes- te sentido, a constiugao do corpus ajuda a tipificar representagdes des- conhecidas, enquanto que em contrapartida a amostragem represen- tativa descreve a distribuicao de representagdes j4 conhecidas na so- —58— 2. A CONSTRUGAO DO CORPUS, ciedade. Ambos os racionais devem ser distinguidos com cuidado a fim de evitar confusdo e conclusées falsas. A fim de superar o paradoxo da construgio do corpus inicial, a Pesquisa comeca com os estratos € fungdes externas (Regra 2). Na Pesquisa com grupos focais, poder-se-4 considerar grupos de idade, ou estratos a partir da educacao, a partir de uma intuicdo inicial so. bre o que poderia se constituir em uma diferenca com respeito a de- terminado tema. Os pesquisadores, contudo, devem estar bem aten- tos em nio confiar apenas em suas intuig6es, quando eles segmen- tam o espaco social. Precisam manter a mente aberta para estratos € distribuicdes funcionais posteriores, que podem nao ser dbvias num primeiro momento. Podem comegar pelo sexo, idade e educacio, mas podem precisar levar em consideracdo a etnia, a religiao, as di- visdes urbano/rural a fim de identificar e maximizar a variedade nas representagoes das pessoas sobre determinado tema. Aqui a lei da diminuicao de retornos pode ser aplicada: acrescentar mais estratos pode fazer apenas uma pequena diferenca com respeito a represen- tagbes adicionais. Quando isso acontece, 0 conpus esta saturado. A Regra | estipula que a selecao para pesquisa qualitativa €um proces- so ciclico, e um processo ciclico requer um eritério para finalizar, se- nao o projeto de pesquisa nao teria fim. Saturagio ¢ 0 critério de fi- nalizagao: investigam-se diferentes representacdes, apenas até que a inclusio de novos estratos nao acrescente mais nada de novo. Assu- me-se que a variedade representacional é limitada no tempo e no es- ago social. A identificagéo de mais variedade iria acrescer despro- porcionalmente os custos do projeto; entio o pesquisador decide parar de investigar novos estratos. Os perigos deste critério so os maximos locais: pode acontecer 0 caso em que falar com alguém em um bar piiblico nao traz nenhuma faceta nova ao assunto em ques- t4o; contido, indo para um bairro diferente, ou saindo da cidade, isto pode se dar. Os pesquisadores vivem em um mundo vivencial; ¢ eles devem se perguntar se a variedade que descobriram cobre seu espago local ou um espaco mais amplo. DAZE FEDERAL DO PARA STECACEMTRAL es: Tamanho do corpus Pouco pode ser dito sobre o tamanho dos corpora para pesquisa qualitativa. Devemos considerar o esforgo envolvido na coleta de da- dos ¢ na andlise, o numero de representacdes que se quer caracteri- zar, e alguns requisitos minimos e maximos, por exemplo na andlise automatica do texto, como critérios para o tamanho de um corpus. —59—

Você também pode gostar