Resumen ejecutivo
SimiGPT es una iniciativa para construir un modelo de lenguaje especializado en quechua boliviano, con énfasis en su uso educativo, cultural y comunitario. El proyecto busca conectar tres dimensiones: inteligencia artificial, revitalización lingüística y recuperación de memoria oral.
La propuesta nace en el ecosistema de nuestra app Simi (https://simiquechua.app/), una aplicación que promueve el aprendizaje básico del quechua mediante unidades con audios, ilustraciones y animaciones.
SimiGPT no debe entenderse solo como un “ChatGPT en quechua”, sino como una infraestructura lingüística y cultural: un conjunto de corpus, herramientas, metodologías, modelos, evaluaciones, acuerdos comunitarios y productos pedagógicos que permitan que el quechua boliviano y su cultura tenga mayor presencia en el entorno digital .
Justificación
El quechua es una lengua oficial del Estado Plurinacional de Bolivia. La Constitución Política del Estado reconoce como oficiales el castellano y los idiomas de las naciones y pueblos indígena originario campesinos, incluyendo explícitamente el quechua. Sin embargo, la oficialidad legal no garantiza por sí sola presencia digital, disponibilidad de datos, modelos lingüísticos, tecnologías de voz ni recursos pedagógicos modernos.
A nivel tecnológico, las lenguas indígenas y de bajos recursos enfrentan una desventaja estructural: hay poca disponibilidad de texto digitalizado, pocos audios transcritos, escasos datasets abiertos, variación dialectal, baja estandarización ortográfica y poca representación en modelos comerciales. Estudios recientes sobre modelos para lenguas de bajos recursos recomiendan enfoques comunitarios, interdisciplinarios, con propiedad y gobernanza justa de los datos.
SimiGPT busca responder a ese problema desde una perspectiva situada: no construir tecnología “sobre” el quechua, sino construir tecnología con hablantes, lingüistas, educadores y comunidades quechuas.
Visión del proyecto
Visión:
Construir una infraestructura abierta, ética y comunitaria de inteligencia artificial para el quechua boliviano, que fortalezca el aprendizaje, la documentación, la creación de contenidos y la recuperación de tradición oral.
Misión:
Desarrollar SimiGPT como un modelo de lenguaje especializado en quechua boliviano, vinculado a Simi App, alimentado por datos cuidadosamente recopilados, transcritos, revisados, con participación de hablantes, lingüistas, docentes y comunidades.
Objetivos
Objetivo general
Diseñar, construir y evaluar un modelo de lenguaje especializado en quechua boliviano, acompañado de un corpus lingüístico-cultural, herramientas educativas y procesos comunitarios de documentación oral.
Objetivos específicos
- Recolectar y ordenar datos existentes en internet: diccionarios, materiales educativos, periódicos, publicaciones institucionales, textos normativos, cuentos, canciones, glosarios y otros contenidos en quechua boliviano.
- Recuperar tradición oral mediante entrevistas, relatos, cuentos, memorias, canciones, testimonios y conversaciones con hablantes, especialmente personas mayores y portadoras de conocimiento cultural.
- Transcribir y revisar lingüísticamente los materiales orales con apoyo de lingüistas, docentes y hablantes expertos.
- Construir un corpus curado de quechua boliviano con metadatos, control de calidad, licencias claras y criterios de uso ético.
- Entrenar o adaptar modelos de lenguaje para tareas como conversación guiada, apoyo al aprendizaje, generación de ejercicios, traducción asistida y otros usos para aplicaciones digitales.
- Integrar capacidades de SimiGPT en Simi App, empezando por funciones pedagógicas seguras y delimitadas.
- Publicar recursos abiertos cuando sea posible, respetando derechos culturales, consentimiento, privacidad y soberanía de datos indígenas.