Identificación automática de variedad de Árabe

arabic-regionsSe entiende por variedad del lenguaje a la forma específica que toma una determinada lengua cuando es compartida por un grupo de personas, dependiendo de su situación regional, social o contextual. En este sentido, podemos hablar de variedades del inglés, del español, o como aquí nos interesa, del árabe.

Por lo general, el marco regional de una variedad se suele enmarcar geográficamente en las fronteras políticas de los países. Así por ejemplo, en el caso del español tenemos la variedad de España, la de México o la de Argentina, por poner algunos ejemplos.

No así sucede en el caso del árabe donde las regiones en las que se habla una determinada variedad transcienden las fronteras políticas de los países. En este sentido, aunque son varias las demarcaciones propuestas, en la mayoría de los casos coinciden con lo que se muestra en el mapa y que se enumeran a continuación:

  • Magrebí (en verde), con países como Argelia, Marruecos, Túnez o Libia.
  • Egipto (en azul).
  • Levantina (en rojo), con países como Siria, Jordania, Líbano, Israel y los territorios palestinos.
  • Golfo Pérsico (en marrón), con países como Arabia Saudí, Yemen, Omán, Qatar, Kuwait, Bahrain y Emiratos Árabes Unidos.
  • Irak (sin color, ya que no se ha incorporado en el experimento, pero que compartiría frontera con la región levantina y del golfo).

Siguiendo esta clasificación, en el PAN del 2017 recopilamos un dataset de Twitter anotado con variedad del lenguaje, sobre el que he aplicado el método LDR propuesto en mi tesis doctoral. Los resultados de accuracy se elevan a un 82.5%. Los resultados de precisión y alcance por clase se muestran en la siguiente imagen:

arabic-precisionvsrecall

Teniendo en cuenta el significado de precisión y recall (alcance, recuerdo…), podemos decir que cuando un texto se clasifica en las variedades magrebí o del golfo, se puede tener mayor seguridad en que la clasificación se ha hecho de manera correcta, mientras que los textos en variedades levantina o de Egipto, son clasificados con mayor probabilidad en la clase correcta.

Analizando la matriz de confusión podemos comprobar que las variedades levantina y de Egipto son con las que menos error se comete (con porcentajes de acierto de casi el 90%). El mayor error se produce con la confusión de un 13.2% de textos escritos en variedad del golfo, y que fueron clasificados como escritos en la variedad de Egipto. Sin embargo el menor errors se produce en el caso contrario: sólo un 1.8% de textos escritos en la variedad de Egipto se confunden hacia la variedad del golfo. El resto de errores se encuentra por debajo del 10%, destacando el 9,2% y el 9% de errores en textos escritos en la variedad magrebí e identificados como escritos en las variedades de Egipto y levantina respectivamente.

confusion_matrix_ar_ldr

Los resultados aquí mostrados permiten trazar algunas conclusiones interesantes:

  • El aprendizaje automático nos permite abordar tareas para las que un humano no siempre está capacitado. En este caso, nos permite conocer la variedad de árabe que utiliza un usuario sin, como es mi caso, tener ni idea de árabe.
  • Lo anterior es especialmente cierto en el caso de LDR que toma en consideración el vocabulario completo utilizado en el dataset de entrenamiento, sin necesidad de realizar ningún tipo de preprocesamiento lingüístico (palabras vacías, parts-of-speech, lematización…), lo que evita la necesidad de tener un mínimo de conocimientos en el lenguaje a aplicar, así como el uso de recursos lingüísticos tan escasos en ocasiones, como sucede en el caso del árabe.
  • El método LDR obtiene unos resultados, que aunque con margen de mejora, son competitivos con el estado de la cuestión. En el PAN, el mejor resultado fue de un 83.13% de accuracy, con una accuracy media de los 20 equipos participantes del 75.14%. El 82.5% de LDR se posicionaría en cuarto lugar.
  • El análisis confrontado de precisión y recall nos permite conocer mejor el funcionamiento a nivel de variedad. De este modo encontramos que dos de ellas son más fácilmente reconocibles, mientras que con las otras tendremos mayor certeza cuando sean predecidas.
  • Así mismo, la matriz de confusión permite saber hacia donde se está confundiendo el clasificador, lo que nos permitiría lanzar nuevas hipótesis. Por ejemplo, si encontramos que la mayor confusión se produce del Golfo hacia Egipto (aunque no al contrario), quizás podamos pensar en la migración de trabajadores desde Egipto hacia, por ejemplo, países como Qatar.

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *