Como Funciona
O InfoRadar fornece aos leitores um conjunto de informação importante para aferir a credibilidade do conteúdo textual que pretendem consumir e/ou partilhar.
Para cada artigo apresentado, o InfoRadar estima o grau de probabilidade de o mesmo pertencer a cada uma das categorias de (des)informação consideradas neste projeto, sendo o resultado da aplicação de um classificador automático baseado em modelos de "contextual embeddings", treinados com base num corpus criado para o efeito.
Além disso, o InfoRadar apresenta um conjunto de métricas explicativas (ou indicadores) que poderão auxiliar o leitor a aferir a credibilidade do artigo em análise. Os valores de cada uma destas métricas explicativas correspondem aos percentis obtidos para cada artigo face aos valores apresentados para os 5 subconjuntos que representam as diferentes categorias de (des)informação incluídas na nossa coleção de referência. Esses valores devem ser interpretados em função da categoria envolvida.
Submissão do artigo para análise
O leitor poderá submeter diretamente o artigo para avaliação, colando o URL do artigo ou, alternativamente, o texto que pretende analisar na janela à esquerda do InfoRadar.
Caixa de pesquisa de exemplo.
O InfoRadar produz uma ficha com Informação Nutricional, analisando o artigo em duas dimensões distintas, mas complementares: classificação do artigo quanto à sua categoria de (des)informação e apresentação de um conjunto de métricas explicativas que procuram auxiliar o leitor a avaliar o seu conteúdo.
ARTIGO FACE ÀS COLEÇÕES DE REFERÊNCIA
MÉTRICAS EXPLICATIVAS FACE À COLEÇÃO DE
Simples
Categorias de (des)informação
O artigo em análise é automaticamente classificado pelo InfoRadar em 4 níveis:
- baixo
- médio-baixo
- médio-alto
- alto
Métricas Explicativas
As métricas explicativas contempladas no InfoRadar resultam de um trabalho de investigação que envolveu a análise e anotação de conteúdos noticiosos por parte de profissionais da comunicação e leitores comuns (ver artigos científicos 1, 2 e 3). Em concreto, os resultados apresentados deverão ajudar o leitor a refletir sobre a credibilidade do conteúdo do artigo que estão a analisar, tendo em consideração os aspetos computados em cada métrica:
Material de referência
Coleções
MINT Corpus
O Corpus MINT (Mainstream and Independent News Text) é constituído por mais de 20.000 artigos, publicados entre 1 de junho de 2020 e 31 de maio de 2021, em 33 plataformas de media convencionais e blogues. Cada um dos documentos que compõem o corpus foi classificado como pertencendo a uma das cinco categorias de (des)informação consideradas. Disponível no GitHub.
Categoria | Nº Artigos | Nº Fontes |
---|---|---|
Notícia | 6000 | 9 |
(Artigo de) Opinião | 6000 | 10 |
(Artigo de) Entretenimento | 6000 | 6 |
Sátira | 1029 | 2 |
(Teoria da) Conspiração | 1249 | 6 |
Total | 20278 | 33 |
Clickbait Dataset
Dataset of news articles for classification into clickbait and non-clickbait. Disponível aqui.
Publicações
- Carvalho, P., Caled, D., Silva, M.J., Martins, B., Carvalho, J.P., Carreira, J., Fonseca, J.P., Gomes, T., Camacho, P.: Assessing news credibility: Misinformation content indicators (2021)
- Carvalho, P., Caled, D., Silva, M.J., Martins, B., Carvalho.: Annotation and Assessment of News Credibility (2021)
- Caled, D., Carvalho, P., Silva, M.J.: MINT - Mainstream and Independent News Text Corpus. In: Proceedings of the International Conference on Computational Processing of Portuguese (2022)
- Silva, M.J., Carvalho, P., Sarmento, L.: Building a sentiment lexicon for social judgement mining. In: International Conference on Computational Processing of the Portuguese Language. Springer. (2012)
- Wilson, T., Wiebe, J., Hoffmann, P.: Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis. In: Proceedings of HLT-EMNLP-2005. (2005)
- Hartmann, N.S., Fonseca, E.R., Shulby, C.D., Treviso, M.V., Silva J.R., Aluísio, S.M.: Portuguese Word Embeddings: Evaluating on Word Analogies and Natural Language Tasks. In: Anais do XI Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. SBC. (2017)
- Mikolov, T., Chen, K., Corrado, G., and Dean, J.: Efficient estimation of word representations in vector space. In: Proceedings of International Conference on Learning Representations Workshop. (2013)
- Devlin, J., Chang, M. W., Lee, K., Toutanova, K.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: Proceedings of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (2019)