Publication: Comparativa de técnicas de extracción de características de texto para la detección de Fake News
Date
Authors
Director
Publisher
Project identifier
Abstract
En la actualidad, la divulgación de noticias falsas es una estrategia de manipulación a la sociedad, que repercute en la visión y opinión que esta se forja respecto a diversos temas. En el ámbito del procesamiento del lenguaje natural el proceso de distinción entre una noticia real y una falsa comenzaría por definir una estructura de cómo se caracteriza el contenido de un texto, para después, conforme a esa estructura, encontrar los patrones y/o tendencias que se dan en un tipo de noticia falsa y una real (tendencias que serán detectadas a partir de aplicar dicha estructura a un conjunto de fake news y a otro conjunto de noticias verdaderas que disponemos, conjuntos que llamaremos de entrenamiento o train). A estas estructuras se les llama Técnicas de extracción de características. Forman parte del proceso de aprendizaje automático. El trabajo consistirá en aplicar y comprobar la eficiencia de varias de ellas. En el presente trabajo abordaremos cuatro técnicas: Bag of Words TF-IDF, GloVe, Word2vec y FastText. La primera (TF-IDF) se trata de una técnica supervisada ya que se comienza por definir un vocabulario. Su forma de caracterizar un texto es dar pesos a los términos presentes en el texto que forman parte del vocabulario. Las otras tres pertenecen a la familia de Representación vectorial de palabras. Grosso modo, consisten en aprender un vector numérico para cada término del vocabulario para después agregar todos los vectores de los términos presentes. Dichos métodos aprenden por sí mismos el vector de características de cada palabra basándose en la idea de que los vectores de características de dos términos que aparecen juntos con mucha frecuencia, deben ser parecidos. Con estos métodos, el programador debe especificar únicamente el número de componentes del vector de características. Tras el proceso de entrenamiento, desconoceremos qué representa cada componente del vector, al contrario que con Bag of Words.
Nowdays, the dissemination of false news is a manipulation strategy for society, which damages the vision and opinion that people have about some issues. On the field of natural language processing, the process of distinguishing between real and false news begins by defining a structure of how the content of a text is characterized, and then, according to that structure, finding patterns or tendencies that relate to fake news but not real news (trends will be detected by applying said structure to a set of fake news and another set of true news, sets that we will call “train”). These structures are called feature extraction techniques. They are part of the machine learning process. This work will aims at applying and checking the efficiency of several of them. In this work we will apply four techniques: Bag of Words, GloVe, Word2vec and FastText. TF-IDF is a supervised technique since it begins by defining a vocabulary. Its way of characterizing a text is to give weights to the terms present in the text that are part of the vocabulary. The other three belong to the Vector Representation word family. They consist of learning a numerical vector for each vocabulary term and then aggregating all the vectors of the present terms. These methods learn by themselves the feature vector of each word based on the idea that the feature vectors of two terms that appear together very frequently must be similar. The programmer must specify only the number of features of the feature vector. After the training process, unlike Bag of Wordswe will not know what each feature of the vector represents.
Description
Keywords
Department
Faculty/School
Degree
Doctorate program
item.page.cita
item.page.rights
Los documentos de Academica-e están protegidos por derechos de autor con todos los derechos reservados, a no ser que se indique lo contrario.