STIS 2019

JUNHO: Texto, Discurso e Computação

registro de junho/19

Registro da Conferência em chat escrito, de 26 de junho de 2019:

ANÁLISE DO TEXTO E DO DISCURSO E CHATBOTS: A INTERDISCIPLINARIDADE NO DADOSSEMIOTICA

Prof Dr. Daniel Nehme Müller

Profa Dr.a Ana Cristina Fricke Matte

[16:45] <vivianpriolo> Boa tarde, pessoal. É com muito prazer que damos início ao segundo bloco dos Seminários Teóricos Interdisciplinares do SEMIOTEC – STIS, promovido desde 2011 com o objetivo da interação via chat escrito.
[16:45] <vivianpriolo> Pedimos que a partir desse momento, apenas as coordenadoras e conferencistas se manifestem.
[16:45] <AnaMatte>
[16:46] <vivianpriolo> Posteriormente, abriremos a palavra ao público.
[16:46] <vivianpriolo> O evento é organizado pelo Grupo Texto Livre, que se dedica desde 2006 a promover a integração de atividades acadêmicas com o Software Livre e suas comunidades, levando em consideração o espírito da Cultura Livre e da Ciência Aberta.
[16:46] <vivianpriolo> Alguns lembretes aos participantes:
[16:46] <vivianpriolo> 01)para receber o certificado de participação, além da presença é necessário preencher o formulário disponível na página do STIS.
[16:47] <vivianpriolo> 02)cole frases curtas, no máximo 2 linhas A4, para que o chat não corte sua mensagem
[16:47] <vivianpriolo> 03) use preferencialmente um nick do tipo nomeSobrenome para evitar confusões.
[16:47] <vivianpriolo> 04) o certificado será encaminhado por e-mail no decorrer da semana.
[16:47] <vivianpriolo> 05) é necessário preencher o formulário do site para receber o certificado, o que deve ser feito no máximo até hoje no site do stis.
[16:47] <vivianpriolo> Vale lembrar que a sala ficará moderada: somente quem tiver voz ou op poderá enviar mensagens no chat enquanto o canal estiver moderado.
[16:48] <vivianpriolo> As intervenções do público serão silenciadas até o final das apresentações, em seguida abrimos para a interação.
[16:49] <AnaMatte> olá, vivianpriolo, olá nataliagiarola
[16:49] <AnaMatte> posso começar?
[16:49] <nataliagiarola> pode sim!
[16:49] <AnaMatte> Boa tarde, pessoal, obrigada a todos pela presença e obrigada também a quem participará mais tarde de forma assíncrona. Obrigada à Natália e à Vívian pela organização desta apresentação, ao Grupo Texto Livre pelo apoio costumeiro, Hugleo obrigada pelo registro.
[16:49] <vivianpriolo> Para dar início às atividades da mesa redonda "Análise do Texto e do discurso e chatbooks: a interdisciplinariedade no Dadossemiótica, convidamos os palestrantes a tomarem a palavra.
[16:50] <AnaMatte> E também agradeço à FAPEMIG que tem apoiado o dadosSemiotica desde o princípios, estamos torcendo para que a falta de verba que está congelando tudo nessa agência - e em outras, claro - seja passageira e possamos evitar mais prorrograções do projeto, queremos terminar, não é, Daniel?
[16:50] <AnaMatte> As referências do que vou apresentar estão nos slides, minha apresentação ficou longa demais, se pular algo depois vcs podem conferir nos slides. Comecemos, pois!
[16:50] <AnaMatte> Análise do texto e do discurso -> o que dizem os textos? // análise semiótica -> como os textos dizem o que dizem?
[16:50] <AnaMatte> Uma questão fundamental na ciência é saber o escopo teórico em que se encaixa uma produção, seja um artigo, um software, um estudo etc.
[16:51] <AnaMatte> A criação do dadosSemiótica (MATTE, SILVA, CANALLI, RIBEIRO, 2012) advém de um trabalho interdisciplinar que consistia no desenvolvimento de um software para trabalhos com fonoestilística, o SETFON (MATTE, MEIRELES, RIBEIRO, 2011).
[16:51] <AnaMatte> A concepção do SETFON, uma linha de desmontagem do texto verbal oral tendo em vista a fonoestilística, em especial a área de expressão vocal daquilo que, na fonética e em muitas outras áreas do conhecimento, costuma-se denominar a emoção,
[16:51] <AnaMatte> previa a elaboração de um software que facilitasse a coleta de análises do texto e organizasse os dados dela provenientes para confronto destes dados com dados de fonética acústica, ou seja, para investigar a relação da expressão vocal com o conteúdo verbal (MATTE, 2004).
[16:51] <AnaMatte> No entanto, o SETFON não chegou a contemplar esse objetivo, ficando restrito à análise acústica. O dadosSemiotica veio para preencher esta lacuna, tanto que muitas de nossas investigações nesse sentido incorporaram, manualmente, análises realizadas no SETFON nos corpora de análises semióticas (MATTE, 2014).
[16:52] <AnaMatte> está boa a velocidade ou está rápido/lento demais?
[16:52] <vivianpriolo> Acho que pode ser um pouquinho mais devagar, Ana.
[16:52] <AnaMatte> ok
[16:52] <nataliagiarola> Sim, poderia ser mais devagar
[16:52] <AnaMatte> A análise da emoção no texto e no discurso possui diversas opções teóricas, na sua maioria visando revelar os sentidos do texto.
[16:53] <AnaMatte> A Semiótica segue outra orientação: sua principal meta é revelar como os textos produzem seus efeitos de sentido.
[16:53] <AnaMatte> O dadosSemiotica (doravante dS) leva em consideração que efeitos de sentido possuem como unidade mínima de sentido a sentença, tomada como parte indissociável do texto em que se insere.
[16:53] <AnaMatte> Ao trabalhar interdisciplinarmente no campo da fonoestilística, o software admite que essas unidades mínimas variam de uma teoria a outra, e é necessário um cuidado especial com a relação entre as unidades mínimas de cada teoria;
[16:53] <AnaMatte> no caso da fonoestilística, trabalhamos com a unidade mínima o GIPC, group interperceptual center, também conhecido como segmento vogal-a-vogal, dado que o centro perceptivo das unidades mínimas na fala são sempre vogais.
[16:53] <AnaMatte> Um exemplo disso é o fato de que, quando super enfatizamos um segmento em uma sentença ("Fala, guri"), não é a consoante que fazemos durar, mas a vogal (não dizemos /ffffalA gurrrrrI/ ou /fallllllA ggggggurI/, mas, sim, /faaaaaalA gurIIIII/, por exemplo).
[16:54] <AnaMatte> Assim, a unidade mínima para a fonética acústica então adotada era um segmento vogal-a-vogal, enquanto para a Semiótica era a sentença, abarcando inúmeros segmentos fontéticos. Como decorrência, enquanto para a fonética acústica a duração do GIPC só faz sentido no contexto sequencial de GIPCs na sentença (BARBOSA, 2001), para a Semiótica a sentença
[16:54] <AnaMatte> só faz sentido no contexto sequencial de sentenças no texto.
[16:54] <AnaMatte> Qualquer teoria que aceite esse tipo de consideração sobre as unidades mínimas como sentenças e a unidade principal como texto pode beneficiar-se do dadosSemiotica.
[16:54] <AnaMatte> Mais especificamente, atendendo às demandas dos grupos de pesquisa aos quais estamos associados, trabalhamos atualmente no desenvolvimento do Módulo de Semiótica,
[16:54] <AnaMatte> um módulo para o dadosSemiótica que cria interfaces específicas de análise para cada etapa de análise semiótica, com suas respectivas categorias de análise.
[16:55] <AnaMatte> Desde o princípio a Semiótica separa a análise do Plano do Conteúdo da análise do Plano da Expressão;
[16:55] <AnaMatte> embora haja incursões bastante detalhadas e com metalinguagem semiótica para a análise do plano da Expressão, em especial no que tange ao vínculo com o do Conteúdo, a maioria das investigações busca em teorias preexistentes os elementos da análise da expressão e é esta a opção reservada para o dadosSemiotica.
[16:55] <AnaMatte> Ou seja: o dadosSemiotica é um software para pesquisas sobre o texto e o discurso, verbal e - potencialmente por enquanto - não-verbal criado sob a égide epistemológica da Semiótica, podendo ser utilizado para outras teorias do texto e do discurso para as quais, inclusive, é possível a criação de módulos específicos conforme o desejo e empenho de s
[16:55] <AnaMatte> uas comunidades de pesquisadores.
[16:55] <AnaMatte> Saber a teoria é saber analisar? qual a melhor metodologia para analisar um discurso ou texto, se existe?
[16:55] <AnaMatte> Teoria e prática são os dois lados do fazer científico.
[16:56] <AnaMatte> A Semiótica pauta-se numa abordagem dedutiva (seu construto teórico visa prever todas as opções estruturalmente possíveis, mesmo que ainda não tenham sido observadas) e indutiva (a aplicação da teoria pode redimensionar a própria teoria, sempre em construção) e, por este motivo, define-se como uma ciência em construção.
[16:56] <AnaMatte> O grupo de semioticistas no Brasil é relativamente pequeno mas, no meu entender, responde por algumas das produções mais significativas na área.Por este motivo, uma das preocupações mais marcantes no desenvolvimento do dadosSemiotica é com o ensino de Semiótica.
[16:56] <AnaMatte> Estamos buscando cada vez mais recursos que favoreçam a aprendizagem, dentre eles destacando-se:
[16:56] <AnaMatte> no dadossemotica
[16:57] <AnaMatte> * o papel de administração teórica do sistema era chamado de "gerente", nome herdado do framework SIMP no qual o software foi desenvilvido; mudamos o nome para "orientador", pois a lista de afazeres atuais do dS visa fortalecer o papel do professor/orientador, adicionando-lhe opções de acesso previstas e não previstas na versão 1.0;
[16:57] <AnaMatte> * a ajuda do software, mais especificamente aquela relativa ao Módulo de Semiotica, ultrapassa o limite da ajuda ao uso do software e inclui orientações a respeito da aplicação da teoria para cada etapa de análise e suas respectivas categorias;
[16:57] <AnaMatte> * a criação de relatórios automáticos e de um gerenciador de projetos minimal, com repositório de arquivos e registros variados, automáticos ou não, permitem facilitar a interação entre orientando e orientador.
[16:57] <AnaMatte> Antes de "reinventar" ou propor uma nova semiótica, o estudo que fundamenta o dadosSemiotica busca, nos fundamentos e princípios da teoria, amplamente discutido por nossos teóricos, a base para uma abordagem que busca ser mais ágil por focar, antes de qualquer coisa, a estrutura da geração do sentido.
[16:58] <AnaMatte> vamos aos slides, agora vou tentar ir mais devagar
[16:58] <AnaMatte> SLIDE 4) o dadossemiotica: v1.x
[16:58] <AnaMatte> Ao ser lançado, em 2012, o dadosSemiotica v1.0 trazia consigo alguns princípios básicos da praxis semiótica, especialmente quanto às unidades mínima e de referência para a geração do sentido - como visto acima, a sentença e o texto, respectivamente.
[16:58] <AnaMatte> Dentre as várias soluções para a prática de análise de textos, devemos destacar as seguintes:
[16:58] <AnaMatte> * categorias abertas -> permite criar tantas categorias quantas forem necessárias para os projetos, não limitadas à teoria semiótica.
[16:58] <nataliagiarola> Ana, um momento.
[16:58] <AnaMatte> ok
[16:58] <nataliagiarola> Algumas pessoas acabaram de entrar.
[16:59] <nataliagiarola> Poderia nos fornecer o código dos slides, novamente!
[16:59] <AnaMatte> o código dos slides é mattemuller19
[16:59] <nataliagiarola> Obrigada!
[17:00] <AnaMatte> bem, vou pular as características, vocês podem saber mais sobre a v1;.0 na página do dS, na página do texto livre
[17:00] <AnaMatte> tem um artigo lá
[17:00] <AnaMatte> SLIDE 5) Após seu lançamento no Workshop de Software Livre, em 2012, iniciou-se a implementação de novas funcionalidades, dentre as quais destaca-se a análise por seleção de texto, que permitia abarcar com a mesa análise um conjunto de sentenças selecionado pelo analista, aproximando a prática digital da prática manual realizada pelos analistas de
[17:00] <AnaMatte> texto e discurso, sem dispensar a análise por sentença em forma de tabela.
[17:01] <AnaMatte> Atualmente estamos trabalhando para o lançamento da versão 2.0, que dispõem de diversos recursos a mais, tais como a possibilidade de importação de outros tipos de arquivos de textos além do txt, organização hierárquica das categorias em árvore e o Módulo de Semiótica, com interfaces e ajuda especialmente pensados para a teoria semiótica.
[17:01] <AnaMatte> SLIDE 6) o estudo das categorias fechadas em semióticaEstamos, em Humanas, acostumados a rejeitar a análise por categorias fechadas, ou seja, análises com número limitado e prédeterminado de respostas possíveis.
[17:01] <AnaMatte> No entanto, classificar faz parte do trabalho científico e é uma forma muito produtiva de trabalhar com produtos culturais.
[17:01] <AnaMatte> A rigor, até mesmo as palavras são classificadoras: compreendemos o mundo ao nosso redor a partir das classificações mais ou menos complexas que fazemos daquilo que podemos perceber ou mesmo deduzir ou intuir.
[17:02] <AnaMatte> Tanto que, como em toda ciência, mesmo as que almejam fugir desse modus operandis classificatório, podemos elencar classes fechadas de análise.
[17:02] <AnaMatte> SLIDE 6 E SLIDE 7) Na Semiótica não é diferente e essa Teoria jamais tentou disfarçar esse fato: a relação lógica entre os elementos do texto, muitas vezes, possui categorias fechadas de análise.
[17:02] <AnaMatte> (é o 6 de novo, sim)
[17:02] <AnaMatte> Essas categorias possuem a vantagem de permitir, com grande facilidade, fazer cruzamentos que lancem luzes sobre os efeitos de sentido produzidos por cada configuração e, em conjunto com as categorias abertas, permitem compreender o texto de forma bastante completa, mesmo nas análises mais complexas.
[17:02] <AnaMatte> Já em 2004, chegando na UFMG como docente, realizamos uma primeira incursão nesse sentido: com um grupo de estudantes voluntários de Iniciação Científica, divididos pelo interesse em Semiótica ou em Fonética Acústica, abordamos elementos de Semiótica Narrativa trabalhando somente com categorias que ainda não chamávamos de fechadas: valores positivo
[17:02] <AnaMatte> s ou negativos, tipo de modaalização, tipo de manipulação, dentre outros.
[17:03] <AnaMatte> O experimento de cruzar dados de Semiótica e de Fonética Acústica obtidos por diferentes estudantes em formação tinha como objetivo mostrar que a Narrativa, em virtude de sua constituição baseada na Lógica, não afetava o plano da expressão da Fala, ou seja, apostávamos na hipótese nula e, naturalmente, dado o poder de concisão e objetividade da Teo
[17:03] <AnaMatte> ria Semiótica, ganhamos a aposta.
[17:03] <AnaMatte> Já nos chamava a atenção, por exemplo, o fato de que nem sempre o tipo de Manipulação era determinante, mas seus constituintes (valor em jogo, modalização do destinador, modalização do destinatário, por exemplo) poderiam revelar relações insuspeitadas com o Plano da Expressão, visto que esses constituintes estavam mais próximos do Nível Fundamental
[17:03] <AnaMatte> - e da continuidade - do que o Nível Narrativo em si.
[17:03] <AnaMatte> Daquela feita, mesmo com 25 alunos participando do projeto, os dados obtidos não foram suficientes para resultados estatisticamente conclusivos nesse sentido, embora tenham surgido muitas indicações relevantes.
[17:03] <AnaMatte> Assim, o dadosSemiotica despontava como necessidade, especialmente para análises interdisciplinares e, mais especialmente ainda, quando a teoria não semiótica em foco estiver na Área- ou próxima dela - das Ciências Exatas.
[17:03] <AnaMatte> O experimento de 2004 mostrou a importância dos constituintes: não servem apenas para nos indicar a qual classe pertence o elemento textual, mas também são elementos importantes da análise em si, que trazem, na Semiótica, a consistência teórica para a classificação, apontando para elos entre os Níveis do Percurso Gerativo.
[17:04] <AnaMatte> SLIDE 8) o modelo em árvore e a organização em patamares
[17:04] <AnaMatte> ops slide 8 )
[17:04] <AnaMatte> Em 2018 concluímos uma pesquisa que buscou esmiuçar as categorias de toda a Teoria Semiótica: o resultado foi uma árvore dividida em patamares:
[17:04] <AnaMatte> Raiz -> Teoria Semiótica
[17:04] <AnaMatte> 1.a Ramificação -> Plano (da Expressão ou do Conteúdo)
[17:05] <AnaMatte> 2.a Ramificação -> Nível (no caso do Conteúdo, em que focamos a análise, são os Níveis do Percurso Gerativo do Sentido)
[17:05] <AnaMatte> 3.a Ramificação -> Dimensão (essa ramificação resultou necessária especialmente, mas não apenas, para a análise do Nível Narrativo)
[17:05] <AnaMatte> 4.a Ramificação -> Etapa de Análise (por exemplo, a etapa de análise da Manipulação)
[17:05] <AnaMatte> 5.a Ramificação -> Categorias de Análise (por exemplo, aquelas investigadas no experimento de 2004)
[17:05] <AnaMatte> 6.a Ramificação -> Subcategorias de Análise (algumas vezes foi necessário subdividir as categorias de análise para a obtenção de um modelo mais consistente)
[17:05] <AnaMatte> SLIDES 9 a 16) Hoje, a Árvore das Categorias Semiótica, completa no que tange ao Plano do Conteúdo, apresenta-se tal como nas figuras dos slides 11 a 18 e serviu de base para o planejamento das interfaces de análise de cada etapa no Módulo de Semiótica
[17:06] <AnaMatte> podem olhar depois com mais detalhe
[17:06] <AnaMatte> Essa análise das categorias e os betatestes em andamento mostraram que o estudo de árvores para outras teorias pode vir a ser muito produtivo para trabalhos interdisciplinares.
[17:06] <AnaMatte> Betatester é uma pessoa que usa um software em desenvolvimento em situação real de uso (no caso do DS, em pesquisa envolvendo análise de texto) para, com seu feedback aos desenvolvedores, indicar necessidades e melhorias não previstas inicialmente.
[17:06] <AnaMatte> A equipe atual é composta por pesquisadores semioticistas (necessários ao desenvolvimento do Módulo de Semiótica) e também pesquisadores que trabalham de forma interdisciplinar com a Semiótica, tanto conduzindo-a como teoria principal do trabalho de pesquisa quanto como teoria secundária.
[17:06] <AnaMatte> Alguns deles já começaram a testar as possibilidades de organização das suas teorias em árvores, de forma preliminar.
[17:06] <AnaMatte> SLIDE 17) O resultado desse estudo foi um passo-a-passo para a análise semiótica com o Módulo de Semiótica do dadosSemiotica (dS), a partir do qual foram planejadas as interfaces gráficas para análise de cada etapa.
[17:07] <AnaMatte> São muitas e variadas as aplicações possíveis das análises feitas no DS, tanto na investigação intra-teoria quanto na investigação interdisciplinar.
[17:07] <AnaMatte> Nesta última, fazemos questão de destacar a semiotização do reconhecimento e da síntese de fala por computadores: a dita expressão da emoção na fala, a previsibilidade dos padrões e das relações entre padrões fonéticos e semióticos é capaz de trazer inteligibilidade àquilo que, na computação, se costuma fazer a partir de cálculos e médias.
[17:07] <AnaMatte> Essa inteligibilidade da relação é, a nosso ver, o pulo do gato para uma síntese e reconhecimento de fala de altíssima qualidade.
[17:07] <AnaMatte> Um dos usos que sempre se mostrou importante no nosso trabalho com o ensino/aprendizagem no Texto Livre são os chatbots. Para falar disso, passo a palavra ao analista de sistemas responsável pelo desenvolvimento da versão 2.o do dadossemiotica, meu colega Daniel Nehme Muller.
[17:07] <AnaMatte> É com você, Daniel!
[17:08] <Daniel_Muller> Valeu, Ana!
[17:08] <Daniel_Muller> Vou prosseguir com os sistemas computacionais de comunicação
[17:08] <Daniel_Muller> Agradeço à colega Ana Matte pelo convite e desafio em trabalhar mais a fundo o caráter interdisciplinar da análise semiótica em sistemas computacionais.
[17:08] <Daniel_Muller> Para começar esta fase computacional, esclareço que os sistemas de comunicação estão aqui apresentados no sentido estrito, ou seja, não se trata de meios de comunicação, mas da comunicação em si, entre pessoas e destas com dispositivos eletrônicos.
[17:08] <Daniel_Muller> Os sistemas computacionais criados com esta intenção são conhecidos como de Processamento da Linguagem Natural (Natural Language Processing - NLP), que é composto de dois grandes paradigmas de sistemas:
[17:09] <Daniel_Muller> Compreensão da Linguagem Natural (Natural Language Understanding - NLU) para a parte de interpretação da língua,
[17:09] <Daniel_Muller> e Geração da Linguagem Natural (Natural Language Generation - NLG) para a geração de linguagem na produção de frases e textos.
[17:09] <Daniel_Muller> Apenas para citar duas referências clássicas, para quem quer ir a fundo, vale a pena olhar o material de Stanford em \url{https://stanfordnlp.github.io/CoreNLP/}
[17:09] <Daniel_Muller> e de Oxford em https://github.com/oxford-cs-deepnlp-2017/lectures de forma a compreender mais precisamente o que estou me referindo.
[17:10] <Daniel_Muller> O pessoal da minha área que está aí deve estar pensando no que eu uso para a construção desses sistemas. Bom, nos anos 1990 eu escovava bit fazendo redes neurais Kohonen em linguagem C para reconhecimento semântico.
[17:10] <Daniel_Muller> Uso hoje os sensacionais pacotes de Python, como NLTK ( https://www.nltk.org/ ), junto com scikit-learn ( https://scikit-learn.org/ ), e ainda pandas ( https://pandas.pydata.org/ ) e outros componentes ScyPy ( https://www.scipy.org/ ).
[17:10] <Daniel_Muller> Geralmente no NLU fazemos a análise fonética, morfológica, sintática, semântica, pragmática e discurso. Pelo meio disso tudo há detalhes, como reconhecimento de entidades nomeadas, sumarização de conteúdo, entre outras peculiaridades. Mas não vou detalhar isso para não fugir dos demais tópicos.
[17:11] <Daniel_Muller> Continuando, no NLG são desenvolvidas técnicas para construção de textos, como determinação de conteúdo e estruturação de documento.
[17:11] <Daniel_Muller> Isso que eu citei apenas processamento de texto. Podemos ter aí camadas adicionais para tratamento de fala e de imagem de caracteres, por exemplo. Sim, a gama de aplicações é enorme.
[17:11] <Daniel_Muller> Para fechar este tópico, só um último exemplo que engloba todas as fases de um NLP: tradução de textos. A tradução implica na análise de um texto em uma língua e a sua reconstrução em outra língua. Pois, é, compreendendo a complexidade de todo o processo, podemos afirmar que a tradução não é uma tarefa trivial...
[17:11] <Daniel_Muller> Agora seguimos com a comunicação por trás dos assistentes inteligentes
[17:11] <Daniel_Muller> Para o projeto de assistentes inteligentes temos que ter bem claro que há uma teoria da comunicação, onde emissor e receptor devem transmitir e receber informações.
[17:12] <Daniel_Muller> Podemos nos referir neste ponto ao SLIDE 18
[17:13] <Daniel_Muller> Tanto no tópico anterior quanto este.
[17:13] <Daniel_Muller> Para ilustrar, vou comentar apenas uma visão que usei no projeto de um assistente inteligente educacional. Chama-se Estrutura Dinâmica de Interpretação, ou DIT - Dynamic Interpretation Theory (Bunt, 2011a; 2005).
[17:13] <Daniel_Muller> DIT distingue as seguintes 10 dimensões (para discussão e justificação ver Petukhova & Bunt 2009 e Bunt 2011b):
[17:14] <Daniel_Muller> 1. Tarefa / Atividade: atos de diálogo cujo desempenho contribui para executar a tarefa ou atividade subjacente ao diálogo;
[17:14] <Daniel_Muller> 2. Auto-Feedback: atos de diálogo que fornecem informações sobre o processamento do locutor do enunciado anterior;
[17:14] <Daniel_Muller> 3. Allo-Feedback: diálogo atos utilizados pelo emissor para expressar opiniões sobre o receptor processando a declaração anterior, ou que solicitam informações sobre esse processamento;
[17:14] <Daniel_Muller> 4. Gerenciamento de contato: atos de diálogo para o estabelecimento e manutenção de contato;
[17:14] <Daniel_Muller> 5. Gerenciamento da vez: atos de diálogo com intenção de manter, dar ao ou aceitar o papel do emissor;
[17:14] <Daniel_Muller> 6. Gerenciamento do tempo: atos de diálogo de sinalização que o emissor precisa de um pouco de tempo para formular sua contribuição para o diálogo;
[17:14] <Daniel_Muller> 7. Estrutura do discurso: atos de diálogo para explicitamente estruturar a conversa, por exemplo, anunciar o ato de diálogo seguinte, ou propor uma mudança de assunto;
[17:15] <Daniel_Muller> 8. Gerenciamento da comunicação: atos de diálogo em que o emissor elabora versões para o diálogo que ele está produzindo;
[17:15] <Daniel_Muller> 9. Gerenciamento da comunicação do parceiro: o agente que realiza esses atos de diálogo tem o papel de receptor, mas assiste ou corrige o emissor na formulação de uma contribuição para o diálogo;
[17:15] <Daniel_Muller> 10. Gerenciamento de obrigações sociais: atos de diálogo que cuidar das convenções sociais, tais como cumprimentos, desculpas, agradecimentos e saudações.
[17:15] <Daniel_Muller> Percebemos então que o nível de detalhamento ao estudar os diálogos vai muito além do texto. A comunicação que se estabelece entre o emissor e o receptor das informações também constitui uma camada adicional de informações a serem tratadas.
[17:16] <Daniel_Muller> Agora vamos analisar o sentido mais prático e popular dos assistentes inteligentes: projetos de chatbots.
[17:16] <Daniel_Muller> Os chatbots nada mais são que assistentes inteligentes aplicados aos sistemas de bate-papo, os chats. De uma forma simples, os assistentes de diálogo foram inicialmente pensados como sistemas de pergunta e resposta.
[17:16] <Daniel_Muller> Ou seja, um mapeamento onde, caso uma questão ou suas palavras-chave fossem encontradas, eram fornecidas as respostas correspondentes. Muitos chatbots ainda funcionam assim, aplicando regras simples.
[17:16] <Daniel_Muller> Com o tempo houveram outras camadas de processamento, como usar reconhecimento de contextos para busca de palavras e termos similares. Aí podemos usar machine learning para fazer isso.
[17:16] <Daniel_Muller> Também podemos usar diversas técnicas para fazer recombinações de textos e gerar conteúdo de resposta aos contatos dos chatbots. Para maiores detalhes, segue uma referência: https://pdfs.semanticscholar.org/f742/138e6baaecf1ee2331268917a34ebc7e6c4b.pdf
[17:17] <Daniel_Muller> Apenas para fazer referência a um bonito sistema de chatbot desenvolvido por um grupo de pesquisadores aqui no Brasil:
[17:17] <Daniel_Muller> "Tecnologia de Aprendizado Interativo Salic (TAIS) é a assistente virtual de incentivo à Cultura em desenvolvimento pelo MinC, em parceria com o LAPPIS (UnB - FGA), para interagir com os cidadãos (produtores culturais e outros interessados) de forma simplificada com objetivo de apoiá-los no entendimento da Lei Rouanet e no uso da plataforma SALIC."
[17:17] <Daniel_Muller> Fonte: https://github.com/lappis-unb/tais/wiki
[17:17] <Daniel_Muller> Como podemos ver, há diversas abordagens possíveis, e precisamos deixar uma coisa clara: representam, mas não são uma inteligência humana.
[17:18] <Daniel_Muller> Sobre os conteúdo de processamento de chatbots, coloquei os SLIDES 19 e 20 como ilustrações.
[17:19] <Daniel_Muller> No SLIDE 19 temos os diferentes tipos de relação entre possibilidade de chats de regras ou por treinamento com domínio de conhecimento aberto e
[17:19] <Daniel_Muller> fecharo
[17:20] <Daniel_Muller> *fechado
[17:20] <AnaMatte> esse impossible do slide 19 está me matando de curosidade
[17:20] <Daniel_Muller> Não conseguimos fazer regras para qualquer coisa, ou seja, em domínio aberto.
[17:21] <Daniel_Muller> As regras servem para jogos, que possuem regras fixas e geralmente claras.
[17:21] <Daniel_Muller> Mas regras não servem para o mundo real.
[17:21] <Daniel_Muller> E o mundo real possui domínio aberto.
[17:22] <Daniel_Muller> Agora temos a Inteligência Artificial geral para o domínio aberto, porque geramos aproximações de diálogos.
[17:22] <Daniel_Muller> Tudo bem?
[17:22] <nataliagiarola> Tudo sim, Daniel
[17:22] <Daniel_Muller> Bom, comentando o SLIDE 20
[17:23] <AnaMatte> antes...
[17:23] <Daniel_Muller> diga
[17:23] <AnaMatte> pode explicar o smart machine?
[17:23] <AnaMatte> é aprendizagem?
[17:23] <Daniel_Muller> sim
[17:23] <AnaMatte> baseada em que?
[17:23] <Daniel_Muller> É um sistema como a arquitetura do SLIDE 20
[17:24] <AnaMatte> ah, ok!
[17:24] <Daniel_Muller> Aproveito e já explico.
[17:24] <Daniel_Muller> Temos um sistema que aprende as palavras usadas no mapeamento de frases de entrada
[17:24] <Daniel_Muller> com as respostas de saída
[17:24] <Daniel_Muller> Isso seria uma "smart machine"
[17:25] <Daniel_Muller> Porque aí não temos regras fixas que mapeiam entrada e saída.
[17:25] <Daniel_Muller> Mas vemos na arquitetura do slide 20
[17:25] <Daniel_Muller> um gerador de mensagens pré-organizadas
[17:25] <Daniel_Muller> como resposta
[17:26] <Daniel_Muller> Há modelos que nem esta estrutura é fixa.
[17:26] <Daniel_Muller> Coloquei antes um link de um material onde esses modelos de treinamento de resposta são treinados também.
[17:26] <Daniel_Muller> Com deep learning.
[17:27] <Daniel_Muller> Bom, agora vamos a outro tópico
[17:27] <Daniel_Muller> a desmistificação da inteligência dos chatbots
[17:27] <Daniel_Muller> Depois dos itens apresentados, podemos perceber que a Integência Artificial colocada nos chatbots, na verdade, é uma simulação grotesca de inteligência humana. Podemos dizer que há um certo nível de inteligência, mas o suficiente para nos ajudar a fazer algumas coisas (de forma consciente para nós ou não).
[17:27] <Daniel_Muller> Desde que a Mary Shelley inventou essa história de criação de humanos (em Frankenstein), houveram sucessivas tentativas de criação de humanos, humanóides e robôs.
[17:27] <Daniel_Muller> Mas a constituição, a formação da inteligência é altamente complexa e necessita um organismo completo como o nosso para sua construção. As simulações que fazemos não chegam nem perto do que realmente é.
[17:28] <Daniel_Muller> Muitos estados mentais e funcionalidades conseguem ser imitadas, sem dúvida, mas são apenas aproximações do que realmente é. Não são levados inúmeros sistemas de crenças, valores, sentimentos, memórias, estado emocional, etc.
[17:28] <Daniel_Muller> Enfim, as técnicas que usamos, por mais avançadas que sejam, ainda não atingiram o nível de um organismo biológico complexo.
[17:28] <Daniel_Muller> O papo está bom, mas vamos tocar para o final. No próximo e último tópico vamos fechar todos os assuntos.
[17:29] <Daniel_Muller> Termino com a conversação automática, redes sociais e a manipulação da informação
[17:29] <Daniel_Muller> Já que os chatbots são projetados para diálogos, então fica a questão: qual a relação destes assistentes com os bots que vemos nas redes sociais?
[17:29] <Daniel_Muller> Temos que ver uma coisa: são chamados bots sistemas usados para monitorar a internet, incluindo aí as redes sociais.
[17:29] <Daniel_Muller> Não estamos nos referindo a estes sistemas, mas aqueles que usam o diálogo em redes sociais.
[17:29] <Daniel_Muller> Hoje temos diversos sistemas de atendimento pelas redes sociais, e isso é muito bom, porque deixa prático tanto para quem atende como para quem necessita de serviços.
[17:29] <Daniel_Muller> Por outro lado, sabemos de sistemas que analisam e replicam notícias, o que pode ter prós e contras.
[17:30] <Daniel_Muller> Isso pode ser usado tanto para esclarecimento quando para confundir as pessoas.
[17:30] <Daniel_Muller> Basta olharem os itens anteriores que discutimos aqui para terem uma ideia da complexidade e quantidade de abordagens que podem ser feitas numa comunicação.
[17:30] <Daniel_Muller> Para concluir (mesmo), deixo a observação sobre a forma de colocação das informações.
[17:31] <Daniel_Muller> Muitos fazem análise do conteúdo do texto, buscam relações semânticas e consistências ontológicas, mas não detectam a razão de determinado comportamento das pessoas quanto ao fluxo de informações nas redes sociais.
[17:31] <Daniel_Muller> Muitas vezes observamos comportamentos de um mundo adulto profundamente infantil (ou adolescente), criado por uma onda de mensagens que agem sobre as pessoas na forma de uma contaminação afetiva.
[17:31] <Daniel_Muller> Olhando do ponto de vista de uma "ontologia fractal", podemos compreender que a recombinação de elementos básicos de sentido - e é aqui que entra a relevância da análise semiótica.
[17:31] <Daniel_Muller> A percepção do sentido não se encontra em uma frase ou no contexto.
[17:31] <Daniel_Muller> Está na composição da vivência do fluxo de informações frente ao conjunto de valores e desejos de cada um.
[17:32] <Daniel_Muller> Essas ideias foram baseadas na obra de Guattari (2012).
[17:32] <Daniel_Muller> Mais detalhes podem ser encontrados nas referências que estão ao final dos slides.
[17:33] <Daniel_Muller> Então, Ana e colegas, finalizo minha escrita por aqui.
[17:33] <Daniel_Muller> Agradeço imensamente pela experiência.
[17:33] <nataliagiarola> Obrigada, Daniel
[17:33] <nataliagiarola> Foi muito produtiva sua fala.
[17:33] <nataliagiarola> Assim como a da Ana
[17:33] <nataliagiarola> Acredito que possamos abrir para perguntas externas.
[17:34] <AnaMatte> Com certeza... posso começar?
[17:34] <nataliagiarola> Claro, Ana!
[17:34] <AnaMatte> não aguento kkkk
[17:34] <AnaMatte> Daniel_Muller, é possível afirmar que a aprendizagem da máquina trabalha com gêneros discursivos? Pois um dos recursos que nós humanos usamos para agilizar a compreensão da informação e a produção de novas comunicações é detectar gênero mais ou menos específico do discurso no contexto em que estamos falando e usar seus padrões para escolher desde a
[17:34] <AnaMatte> forma até o conteúdo da comunicação. Me pareceu no slide 20 que o chatbot faria isso também.
[17:34] <Daniel_Muller> ah, tá, como se a Ana já não tivesse tempo suficiente antes, kkk
[17:35] <AnaMatte> kkkk
[17:35] <Daniel_Muller> Sim, podemos treinar gêneros discursivos.
[17:35] <Daniel_Muller> Mas a questão são os mapeamentos entre os termos distribuídos no discurso.
[17:35] <Daniel_Muller> Precisamos fazer uma amarração de termos e contexto.
[17:36] <Daniel_Muller> Também depende do universo que estamos analisando.
[17:36] <Daniel_Muller> Se a abrangência do texto analisado é muita aberta, dificulta (como seria difícil também para nós)
[17:36] <Daniel_Muller> muito a análise
[17:37] <AnaMatte> é, nem para humanos isso é trivial, tanto que existem milhares de tentativas de classificação dos gêneros discursivos e pouca produtividade, pelo menos a meu ver
[17:37] <AnaMatte> obrigada,
[17:37] <nataliagiarola> Mas seria uma análise muito estrutural do gênero, não?
[17:38] <Daniel_Muller> Quando usamos um sistema de treinamento ele capta o estrutural.
[17:38] <Daniel_Muller> O caso geral.
[17:38] <nataliagiarola> Por exemplo, se tivermos variações, como uma carta de amor escrita em um receita de cozinha.
[17:38] <Daniel_Muller> Para tratamento de especialidades, temos que aplicar outras técnicas.
[17:38] <AnaMatte>
[17:38] <nataliagiarola> Ah sim!
[17:38] <Daniel_Muller> Sim, captamos os esteriótipos.
[17:38] <nataliagiarola> Obrigada!
[17:38] <vivianpriolo> Sobretudo quando consideramos a noção de relativa estabilidade no tocante a estrutura. Penso que seria bastante complexo.
[17:39] <Daniel_Muller> Assim como nós aprendemos a diferenciar as estruturas, também podemos ensinar um sistema a fazer este tipo de diferenciação.
[17:40] <Daniel_Muller> Dúvidas?
[17:40] <Daniel_Muller> :]
[17:40] <AnaMatte> Daniel_Muller, quem escolhe os dados de entrada são seres humanos, certo? Isso significa que podemos ensinar um robô a ser nazista, para dar um exemplo bem radical (e infelizmente real). Como os sistemas de comunicação com robôs tentam prevenir isso?
[17:41] <Daniel_Muller> Não tentam.
[17:41] <Daniel_Muller> Não há valores em sistemas computacionais.
[17:41] <Daniel_Muller> Eles podem ser bons nazistas.
[17:41] <AnaMatte> pois é...
[17:41] <Daniel_Muller> Propagar esta ou qualquer outra informação.
[17:42] <Daniel_Muller> Tudo é dependente do que é treinado.
[17:42] <Daniel_Muller> Assim como uma criança.
[17:42] <Daniel_Muller> Se ela é exposta a um ambiente hostil, terá aprendido estes termos para sua vida.
[17:42] <AnaMatte> uma das ideias do dadossemiotica é que, num futuro, a gente possa usá-lo como um filtro, no qual tanto o sistema quanto analistas humanos possam fazer verificações e ajustes
[17:42] <AnaMatte> então se ele estivesse vinculado a um chat de ensino de espanhol
[17:43] <AnaMatte> por exemplo
[17:44] <AnaMatte> poderíamos perceber desvios na sua "personalidade" e, por algum mecanismo de reação, inserir informações que o "levassem para o bom caminho" de novo, muita viagem?
[17:44] <Daniel_Muller> penso que sistemas assim deveriam servir da mesma forma que firewall ou antivírus
[17:44] <AnaMatte> isso
[17:44] <Daniel_Muller> sim, podemos dar alertas
[17:44] <nataliagiarola> Daniel, uma dúvida sobre esse assunto, para ver se comecei a compreender.
[17:44] <Daniel_Muller> Mas aí, qual seria o parâmetro para o alerta?
[17:44] <Daniel_Muller> manda
[17:45] <nataliagiarola> sobre o mapeamento de frases de entrada e saída, quando fazemos análise de nuvens de relacionamento utilizando o Netvizz há um mecanismo que me parece bem similar a esse de frases de entrada com respostas de saída, principalmente quando trabalhamos com um filtro para coleta de perfis.
[17:45] <nataliagiarola> Não sei se conhece o software, mas, pelo pouco que vi sobre comunicação computacional, me parece seguir a mesma lógica.
[17:45] <AnaMatte> de certa forma, seria criar uma inteligência paralela que fosse criando as regras pela interação com as respostas analíticas de analistas humanos, é o que imaginei
[17:45] <nataliagiarola> Por exemplo, se você coloca os valores de entrada que deseja e ele vai gerar resultados relativos a esse. Por exemplo, se criarmos uma bolha das interações do Bolsonaro, só aparecem páginas de direita.
[17:46] <nataliagiarola> É algo similar?
[17:46] <Daniel_Muller> Sim, é isso mesmo.
[17:46] <Daniel_Muller> Temos a busca de termos correlatos.
[17:46] <JadyCaroline> Também fiquei em dúvida de qual parâmetro usar como alerta, já que o chatbot já tem alguns dados e todos os outros inseridos na conversa são base para novos resultados
[17:47] <Daniel_Muller> O sistema necessita acessar uma base de referência para fazer a busca dentro do contexto.
[17:47] <JadyCaroline> Ele utilizaria de uma forma ou de outra aquela informação, não?
[17:47] <Daniel_Muller> Provavelmente uma ontologia.
[17:48] <Daniel_Muller> Sim, como faremos um alerta? Quem seria o "curador" para dizer se algo está ou não adequado?
[17:49] <Daniel_Muller> Podemos convergir para itens de sobrevivência e bem estar dos humanos.
[17:49] <AnaMatte> sobre o alerta, eu vejo como muito importante, pelo menos na atualidade, de humanos colocando seu olho clínico, pois eu lembro de um amigo que foi policial de uma rede brasileira de IRC, a Brassnet, e caçava nazistas. Eles faziam mudanças nas palavras, tipo branco = laranja, negro = abóbora, daí demorava para detectar e, quando detectavam, os caras
[17:49] <AnaMatte> a mudavam as palavras de novo
[17:49] <Daniel_Muller> Basear em termos de saúde, solidariedade, níveis de satisfação...
[17:50] <nataliagiarola> E também vejo como uma questão ideológica, pois o que é um critério para mim por não ser para a Ana, por exemplo.
[17:50] <AnaMatte> eu penso em alertas para chats com objetivos específicos. O chat de espanhol, por exemplo, é quase um sistema aberto, pois para prender qualquer assunto serve.a
[17:50] <Daniel_Muller> Ah, Ana, mas as ontologias não tem por base só as palavras, mas principalmente suas RELAÇÕES.
[17:50] <AnaMatte> sim, infelizmente os nazi sabiam disso também...
[17:51] <Daniel_Muller> Aliás, não disse antes, mas a inteligência basicamente são RELAÇÕES.
[17:51] <Daniel_Muller> Sim, qualquer estudioso de manipulação de informações trabalha muito bem com isso.
[17:51] <Daniel_Muller> Vimos isso ser aplicado nas redes sociais de vários países nos últimos anos.
[17:53] <Daniel_Muller> Mas, Ana, a análise semiótica pode nos ajudar nessas relações?
[17:53] <AnaMatte> como na semiótica... relações antes de tudo. Mas na verdade em qualquer sistema de comunicação. A configuração de um /a/ falado por uma criança é muuuito diferente da de um adulto, especialmente com voz mais grave, mas tanto a criança quanto o adulto conseguem entender que é um /a/ porque não olham o fonema, olham o contexto, as relações com outros
[17:53] <AnaMatte> fonemas e a posição em que se encontra o tal /a/
[17:53] <AnaMatte> sim, pode
[17:54] <Daniel_Muller> nossa, a semiótica da fala nos leva a outro universo de análise...
[17:54] <AnaMatte> esses estudos para o dadossemiotica visam justamente tratar a semiótica, a análise semiótica, de forma que ela possa ser feita mais ágil, para um corpus maior em menos tempo e, também, de forma a facilitar a geração dessas regras
[17:55] <AnaMatte> não sei se é outro universo de análise
[17:55] <Daniel_Muller> pode ser a mesma estrutura, mas vejo que são diferentes relacionamentos
[17:55] <AnaMatte> estamos trabalhando hoje com texto escrito, mas para a semiótica, tanto faz, tudo é linguagem, apenas cada uma vai explorar algum aspecto com mais profundidade que outro
[17:56] <Daniel_Muller> estava me referindo à prosódia, principalmente
[17:57] <AnaMatte> se podemos indicar os "pontos de interesse" de cada linguagem (e aqui vamos diferenciar a linguagem falada, que é verbo-sonora, da linguagem escrita, que é verbo-visual)
[17:57] <Daniel_Muller> isso
[17:57] <Daniel_Muller> outra coisa que pensei agora
[17:57] <AnaMatte> a paprtir dos pontos de interesse podemos saber onde focar a análise e isso facilita demais
[17:57] <Daniel_Muller> seria possível um chatbot com a organização de análise do dS?
[17:58] <AnaMatte> Daniel_Muller, eu aposto que sim! mas ainda estamos no aquecimento...
[17:59] <nataliagiarola> Ana e Daniel, podemos partir para o encerramento?
[17:59] <AnaMatte> articularmente, eu não gosto de deixar tudo na mão de algoritmos: se eu não entendo como a máquina aprendeu, como posso controlar o que ela vai aprender?
[17:59] <AnaMatte> sim, claro
[17:59] <Daniel_Muller> Se o povo não quiser comentar mais alguma coisa...
[17:59] <nataliagiarola> Alguém tem mais alguma pergunta?
[17:59] <Daniel_Muller> Sim, Ana, podemos controlar os algoritmos.
[18:00] <Daniel_Muller> Temos como mapear o conhecimento treinado.
[18:00] <Daniel_Muller> Quando eu comecei, todos chamavam de "caixa-preta" o treinamento.
[18:00] <AnaMatte> acho que me enganei de palavra, eram fórmulas, cálculos... mas fico feliz em saber
[18:00] <Daniel_Muller> Hoje temos como demonstrar e "auditar" o que é treinado.
[18:01] <Daniel_Muller> Sim, isso é um ponto importante.
[18:01] <AnaMatte>
[18:01] <AnaMatte> obrigada!
[18:01] <Daniel_Muller> Mas, vamos lá, tem alguém na sala que queira se manifestar antes do encerramento?
[18:02] <nataliagiarola> Feita as perguntas, gostaríamos de encerrar esse seminário agradecendo a Ana e o Daniel pela excepcional fala.
[18:03] <nataliagiarola> Elas foram de grande valia e aprendizado. :] :]
[18:03] <Daniel_Muller> Calma aí Natália...
[18:03] <Daniel_Muller> Nem foi tanto assim...
[18:03] <nataliagiarola> kkkkkk
[18:03] <Daniel_Muller> Mas fico feliz em poder contribuir.
[18:03] <AnaMatte>
[18:03] <nataliagiarola> Daniel, sua área me atraí muito
[18:03] <vivianpriolo> Obrigada, pessoal. Aprendemos bastante hoje! Quantos desafios!
[18:04] <nataliagiarola> A todos os participantes, muito obrigada! Em breve, enviáramos os certificados.
[18:04] <AnaMatte> e podemos continuar respondendo e debatendo o tema no UEADSL, no fórum, inscrevam-se! http://ueadsl.textolivre.pro.br
[18:04] <nataliagiarola> *enviaremos
[18:04] <AnaMatte> quem ainda não se inscreveu, entra no stis.textolivre.org para pedir o certificado do stis
[18:04] <nataliagiarola> Até o próximo encontro, em Agosto, que vai abordar Pesquisas em Educação do Campo: Múltiplos Enfoques , coordenado por Paulo Soares
[18:04] <JonasVeloso> Obrigado a todos e parabéns aos palestrantes!
[18:05] <AnaMatte> clap clap clap clap clap
[18:05] <Daniel_Muller> Fiquem à vontade para enviar emails e continuarmos a conversa.
[18:06] <Daniel_Muller> Eu e a Ana estamos tocando uma pesquisa, todes são convidades para colaborar.
[18:06] <nataliagiarola> :]
[18:06] <Daniel_Muller> E também podemos colaborar com a pesquisa de outros também, claro.
[18:06] <AnaMatte> certamente
[18:06] <acris> clap clap clap clap clap
[18:07] <Daniel_Muller> clap clap clap clap clap
[18:09] <vivianpriolo> Boa noite, pessoal!
[18:09] <nataliagiarola> Boa noite, até a próxima!
[18:09] <Daniel_Muller> Tchau, gente!
[18:10] <JadyCaroline> 😘
[18:10] <AnaMatte> boa noite! até a próxima!
[19:27] <Ludmilla> Boa noite a todos!

STIS - Seminários Teóricos Interdisciplinares do SEMIOTEC, Powered by Joomla!

STIS 2019

JUNHO: Texto, Discurso e Computação

registro de junho/19

LOG: Daniel Muller e Ana Matte - junho/19

ANÁLISE DO TEXTO E DO DISCURSO E CHATBOTS: A INTERDISCIPLINARIDADE NO DADOSSEMIOTICA