0% found this document useful (0 votes)

2 views

Research Synopsis

This research aims to develop a high-quality Neural Machine Translation (NMT) system for Tigrigna-English by addressing the challenges posed by the lack of parallel corpora and the language's morphological complexity. The study will utilize transfer learning, synthetic data generation, and fine-tuning of pre-trained multilingual models to enhance translation quality. The outcomes are expected to improve language accessibility for Tigrigna speakers and contribute to the development of a robust parallel corpus.

Uploaded by

mehari kiros

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views

Research Synopsis

Uploaded by

mehari kiros

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

Research Title: Developing a High-Quality Tigrigna Neural Machine

Translation (NMT) System

1. Introduction

1.1.Background

Neural Machine Translation (NMT) has significantly improved the quality of automatic
translation for various languages by leveraging deep learning models such as Transformer,
BERT, and mBART. However, low-resource languages like Tigrigna (spoken primarily in
Ethiopia and Eritrea) lack sufficient parallel corpora, which limits the performance of
machine translation systems.

Traditional Statistical Machine Translation (SMT) and Rule-Based Translation approaches

have proven ineffective for morphologically rich and underrepresented languages like
Tigrigna due to lexical, syntactic, and grammatical complexities. This research aims to
develop a high-quality Tigrigna-English NMT system by applying transfer learning, synthetic
data generation, and fine-tuning pre-trained multilingual models.

1.2.Problem Statement

The main problem in the Tigrigna language is the lack of a large-scale parallel corpus for
Tigrigna-English translation. In addition, the poor performance of existing machine
translation systems for Tigrigna, due to data scarcity, along with the morphological richness
and syntactic complexity of the language, makes translation challenging.

1.3.Research Questions

1. How can transfer learning improve the translation quality of Tigrigna-English NMT
models?

2. What data augmentation techniques (such as synthetic data generation) can help
overcome parallel corpus limitations?

3. How effective are pre-trained multilingual models (such as mBART and mT5) for
Tigrigna NMT?

1.4.Research Significance

This research will:

 Enhance machine translation capabilities for low-resource languages like Tigrigna.

 Develop a high-quality parallel corpus for Tigrigna-English translation.

 Contribute to AI-powered language accessibility for Tigrigna speakers in education,
communication, and information retrieval.

2. Objective of the Research

2.1. General Objective

To develop a high-quality Neural Machine Translation (NMT) system for Tigrigna-English

using deep learning-based models such as Transformer, BERT, and mBART.

2.2.Specific Objectives

 To collect and construct a large-scale Tigrigna-English parallel corpus using web

crawling, manual annotation, and synthetic data generation techniques.

 To explore the effectiveness of transfer learning by fine-tuning multilingual models

(e.g., mBART, mT5, and XLM-RoBERTa) for Tigrigna-English translation.

 To evaluate different model architectures (Transformer, mBART, BERT-based models)

for improving BLEU, METEOR, and TER scores in Tigrigna NMT.

 To deploy and test the developed model in real-world applications such as Tigrigna AI
chatbots, multilingual search engines, and speech-to-text translation services.

3. Literature Review
3.1.Overview of Neural Machine Translation (NMT)

Evolution from Rule-Based Machine Translation (RBMT) to Statistical Machine Translation

(SMT) and finally to Neural Machine Translation (NMT). Strengths of NMT models in
learning contextual relationships between words.

3.2.Challenges of Tigrigna Machine Translation

 Rich Morphology: Tigrigna has complex inflectional and derivational structures.

 Limited Parallel Data: Unlike English or French, Tigrigna lacks a large, high-quality
bilingual dataset.

 Syntax and Grammar Complexity: Word order and subject-object relationships

differ significantly from English.

3.3. Related Work on Low-Resource Language NMT

 Studies on Amharic-English and Swahili-English NMT models using transfer

learning.

 The role of pre-trained multilingual models (mBART, mT5, and XLM-R) in

improving translation for low-resource languages.
 Data augmentation techniques (such as back-translation and monolingual data
augmentation) to address data scarcity in NLP.

3.4 Research Gap

Mainly Lack of research on Tigrigna-English NMT using deep learning-based approaches. As we

know No standard Tigrigna parallel corpus is publicly available for training state-of-the-art translation
models. In addition to that, Limited studies on using mBART and mT5 for Tigrigna NMT.

4. Methodology of the Research

4.1 Research Approach

This research will follow an experimental approach, combining data collection, model training, and
evaluation to optimize the Tigrigna-English NMT system.

4.2 Data Collection and Preprocessing

 Parallel Corpus Construction:

o Web Crawling: Extract Tigrigna-English text from government websites, news

portals, and religious texts.

o Manual Annotation: Collaborate with linguists and translators to create a gold-

standard bilingual dataset.

o Back-Translation: Generate synthetic parallel data by translating monolingual

Tigrigna text to English and vice versa.

 Data Preprocessing Techniques:

o Sentence segmentation, tokenization, and subword encoding (Byte Pair Encoding -

BPE).

o Data Cleaning: Removing noise, duplicated sentences, and translation errors.

4.3 Model Development

 Baseline Model: Train a standard Transformer-based NMT model for comparison.

 Advanced NMT Models:

o Fine-Tuning Pre-Trained Multilingual Models: Train mBART, mT5, and XLM-R on

the collected dataset.

o Hybrid Approach: Combine Transformer-based models with attention mechanisms

for better context understanding.

4.4 Model Training and Evaluation

 Training Process:
o Use GPU-based training on TensorFlow and PyTorch.

o Implement hyperparameter tuning to optimize model performance.

 Evaluation Metrics:

o BLEU (Bilingual Evaluation Understudy) Score

o METEOR (Metric for Evaluation of Translation with Explicit ORdering)

o TER (Translation Edit Rate)

4.5 Deployment and Testing

 Develop an API-based Tigrigna NMT service for real-world testing.

 Collect feedback from linguists and native Tigrigna speakers for manual evaluation.

Sliders 2 Handbook Reclaiming The Vessel
89% (9)
Sliders 2 Handbook Reclaiming The Vessel
70 pages
Zorba The Greek Critical Analysis
No ratings yet
Zorba The Greek Critical Analysis
3 pages
Community Translation by Mustapha Taibi, Uldis Ozolins
No ratings yet
Community Translation by Mustapha Taibi, Uldis Ozolins
198 pages
PaperReview
No ratings yet
PaperReview
41 pages
tanujasynopsis
No ratings yet
tanujasynopsis
8 pages
FN Paper 2
No ratings yet
FN Paper 2
13 pages
Bilingual Machine Translation
No ratings yet
Bilingual Machine Translation
8 pages
359-1632-1-PB
No ratings yet
359-1632-1-PB
5 pages
PHASE 1 PROJECT
No ratings yet
PHASE 1 PROJECT
18 pages
Duplichecker Plagiarism Report
No ratings yet
Duplichecker Plagiarism Report
4 pages
Machine Translation of Vedic Sanskrit Using Deep Learning Algorithm
No ratings yet
Machine Translation of Vedic Sanskrit Using Deep Learning Algorithm
4 pages
Large Language Model Using Tensorflow: A Complete TensorFlow Implementation Guide for Modern AI Development
From Everand
Large Language Model Using Tensorflow: A Complete TensorFlow Implementation Guide for Modern AI Development
Aarav Joshi
No ratings yet
(IJCST-V9I1P20) :T. Madhavi Kumari, Dr. A. Vinaya Babu
No ratings yet
(IJCST-V9I1P20) :T. Madhavi Kumari, Dr. A. Vinaya Babu
6 pages
Marathi To English Neural Machine Translation With Near Perfect Corpus and Transformers
No ratings yet
Marathi To English Neural Machine Translation With Near Perfect Corpus and Transformers
5 pages
Machine Translation Mondal 2023
No ratings yet
Machine Translation Mondal 2023
90 pages
CUNI Submission For Low-Resource Languages in WMT News 2019
No ratings yet
CUNI Submission For Low-Resource Languages in WMT News 2019
7 pages
Machine Tannslation On Low Resource Langugages Arabic Telugu Kannada
No ratings yet
Machine Tannslation On Low Resource Langugages Arabic Telugu Kannada
9 pages
Hugging Face Transformers Essentials: From Fine-Tuning to Deployment
From Everand
Hugging Face Transformers Essentials: From Fine-Tuning to Deployment
Robert Johnson
No ratings yet
NLP Project Research Paper Tanmaya
No ratings yet
NLP Project Research Paper Tanmaya
4 pages
electronics-14-00243
No ratings yet
electronics-14-00243
30 pages
Artificial Intelligent Decoding of Rare Words in Natural Language Translation Using Lexical Level Context
No ratings yet
Artificial Intelligent Decoding of Rare Words in Natural Language Translation Using Lexical Level Context
7 pages
Experiments With A Hindi-to-English Transfer-Based MT System Under A Miserly Data Scenario
No ratings yet
Experiments With A Hindi-to-English Transfer-Based MT System Under A Miserly Data Scenario
21 pages
OpenNMT Open-Source Toolkit for Neural Machine Translation
No ratings yet
OpenNMT Open-Source Toolkit for Neural Machine Translation
6 pages
Crowdsourcing Parallel Corpus For English-Oromo Neural Machine Translation Using Community Engagement Platform
No ratings yet
Crowdsourcing Parallel Corpus For English-Oromo Neural Machine Translation Using Community Engagement Platform
8 pages
A Recipe for Arabic-English Neural Machine Translation
No ratings yet
A Recipe for Arabic-English Neural Machine Translation
5 pages
Is Neural Machine Translation Ready For Deployment
No ratings yet
Is Neural Machine Translation Ready For Deployment
8 pages
ChatGPT and Language Translation A Small Case Study Evaluating English MandarinTranslation
No ratings yet
ChatGPT and Language Translation A Small Case Study Evaluating English MandarinTranslation
11 pages
Machine Translation Baselines For Arabic Swahili
No ratings yet
Machine Translation Baselines For Arabic Swahili
4 pages
Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation
No ratings yet
Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation
17 pages
ai2
No ratings yet
ai2
6 pages
Google PDF
No ratings yet
Google PDF
23 pages
Google Neural Machine Translation System
No ratings yet
Google Neural Machine Translation System
23 pages
1679506287709733
No ratings yet
1679506287709733
15 pages
From Recurrent Neural Network Techniques To Pre-Trained Models: Emphasis On The Use in Arabic Machine Translation
No ratings yet
From Recurrent Neural Network Techniques To Pre-Trained Models: Emphasis On The Use in Arabic Machine Translation
10 pages
Abstract 2 - NMT
No ratings yet
Abstract 2 - NMT
1 page
Translating Similar Languages: Role of Mutual Intelligibility in Multilingual Transformers
No ratings yet
Translating Similar Languages: Role of Mutual Intelligibility in Multilingual Transformers
7 pages
Neural Machine Translation A Review of Methods Resources and - 2020 - AI Ope
No ratings yet
Neural Machine Translation A Review of Methods Resources and - 2020 - AI Ope
17 pages
Termpaper
No ratings yet
Termpaper
6 pages
1909.07342v1
No ratings yet
1909.07342v1
16 pages
BERT Foundations and Applications: Definitive Reference for Developers and Engineers
From Everand
BERT Foundations and Applications: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
The Newbie’s Guidebook to ChatGPT: A Beginner's Tutorial: The Newbie’s Guidebook
From Everand
The Newbie’s Guidebook to ChatGPT: A Beginner's Tutorial: The Newbie’s Guidebook
Timothy King
No ratings yet
Research Article: Improving Transformer-Based Neural Machine Translation With Prior Alignments
No ratings yet
Research Article: Improving Transformer-Based Neural Machine Translation With Prior Alignments
10 pages
Extremely Low Resource Neural Machine Translation For Asian Languages
No ratings yet
Extremely Low Resource Neural Machine Translation For Asian Languages
36 pages
Understanding Back-Translation at Scale
No ratings yet
Understanding Back-Translation at Scale
12 pages
Hang & Chao, Machine Translation Evaluation. A Survey (Paper 2016)
No ratings yet
Hang & Chao, Machine Translation Evaluation. A Survey (Paper 2016)
17 pages
LangGragh
No ratings yet
LangGragh
14 pages
Understanding Back-Translation at Scale
No ratings yet
Understanding Back-Translation at Scale
12 pages
06 Chapter2
No ratings yet
06 Chapter2
10 pages
Challenges in NMT - 1706.03872
No ratings yet
Challenges in NMT - 1706.03872
12 pages
Quality Assessment of Translators Using Deep Neural Networks For Polish-English and E-P
No ratings yet
Quality Assessment of Translators Using Deep Neural Networks For Polish-English and E-P
4 pages
Challenges in NMT - 2004.05809
No ratings yet
Challenges in NMT - 2004.05809
22 pages
JETIR2211403
No ratings yet
JETIR2211403
6 pages
Python Text Mining: Perform Text Processing, Word Embedding, Text Classification and Machine Translation
From Everand
Python Text Mining: Perform Text Processing, Word Embedding, Text Classification and Machine Translation
Alexandra George
No ratings yet
Multimodal Machine Translation for Sanskrit-Hindi an Empirical Analysis
No ratings yet
Multimodal Machine Translation for Sanskrit-Hindi an Empirical Analysis
4 pages
Neural Machine Translation For English-Tamil: Himanshu Choudhary Aditya Kumar Pathak
No ratings yet
Neural Machine Translation For English-Tamil: Himanshu Choudhary Aditya Kumar Pathak
7 pages
Use of Neural Networks and Deep Learning in Urdu Translation
No ratings yet
Use of Neural Networks and Deep Learning in Urdu Translation
8 pages
Tagged Back-Translation: Isaac Caswell, Ciprian Chelba, David Grangier Google Research
No ratings yet
Tagged Back-Translation: Isaac Caswell, Ciprian Chelba, David Grangier Google Research
11 pages
Mastering Transformers: The Journey from BERT to Large Language Models and Stable Diffusion
From Everand
Mastering Transformers: The Journey from BERT to Large Language Models and Stable Diffusion
Savaş Yıldırım
No ratings yet
CHATGPT DALL.E 3: Complete Guide. Third Edition
From Everand
CHATGPT DALL.E 3: Complete Guide. Third Edition
Hesham Mohamed Elsherif
No ratings yet
VAISHNAVI_PAPER
No ratings yet
VAISHNAVI_PAPER
5 pages
A Survey of Multilingual Neural Machine Translation: Raj Dabre, Chenhui Chu, Anoop Kunchukuttan
No ratings yet
A Survey of Multilingual Neural Machine Translation: Raj Dabre, Chenhui Chu, Anoop Kunchukuttan
38 pages
Recent Advances in Dialogue Machine Translation
No ratings yet
Recent Advances in Dialogue Machine Translation
21 pages
low resource nmt survey 원본
No ratings yet
low resource nmt survey 원본
35 pages
UNIT 1 and 2 SysAdmin lecture manual
No ratings yet
UNIT 1 and 2 SysAdmin lecture manual
9 pages
MidExam SystemAdmin2017
No ratings yet
MidExam SystemAdmin2017
4 pages
Key Differences
No ratings yet
Key Differences
1 page
Module 4 Online Collaboration
No ratings yet
Module 4 Online Collaboration
59 pages
Module 5 Word Processing
No ratings yet
Module 5 Word Processing
21 pages
Database Chapter - 2
No ratings yet
Database Chapter - 2
49 pages
Ch-2 (B) Overview of Query Processing
No ratings yet
Ch-2 (B) Overview of Query Processing
73 pages
CH-5 Database Recovery System
No ratings yet
CH-5 Database Recovery System
30 pages
Database Ch-3
No ratings yet
Database Ch-3
61 pages
Lab Session 1
No ratings yet
Lab Session 1
14 pages
ExitExam Tutorial
No ratings yet
ExitExam Tutorial
6 pages
Sys Admin ch7
No ratings yet
Sys Admin ch7
27 pages
Database Management System Chapter One
No ratings yet
Database Management System Chapter One
137 pages
Chapter 4
No ratings yet
Chapter 4
34 pages
EmTec Chapter 3 Finally Edited
No ratings yet
EmTec Chapter 3 Finally Edited
38 pages
Introduction To Object Oriented Programming
No ratings yet
Introduction To Object Oriented Programming
128 pages
Trigger Lab
No ratings yet
Trigger Lab
4 pages
Chapter 7 - EMTE
No ratings yet
Chapter 7 - EMTE
30 pages
Emerging Chap 4
No ratings yet
Emerging Chap 4
35 pages
Intro
No ratings yet
Intro
23 pages
Microlink OOP Assignment
No ratings yet
Microlink OOP Assignment
1 page
Chapter Ghsaghsgystytqtyqtw-7
No ratings yet
Chapter Ghsaghsgystytqtyqtw-7
20 pages
Chapter 1 IntroDistributed
No ratings yet
Chapter 1 IntroDistributed
143 pages
Chapter 5
No ratings yet
Chapter 5
48 pages
Database Systems Basics
No ratings yet
Database Systems Basics
4 pages
Chapter 2
No ratings yet
Chapter 2
91 pages
Instructors Manual For Practical Laborat
No ratings yet
Instructors Manual For Practical Laborat
95 pages
Imaging Devices
No ratings yet
Imaging Devices
26 pages
Chapter 1 Swing
No ratings yet
Chapter 1 Swing
40 pages
Binary Image Analysis
No ratings yet
Binary Image Analysis
33 pages
Neologisms & Translation
No ratings yet
Neologisms & Translation
14 pages
Enneads of Plotinus
100% (1)
Enneads of Plotinus
702 pages
Postmodern Literary Theory and Translation by MarthaPulido
No ratings yet
Postmodern Literary Theory and Translation by MarthaPulido
20 pages
Lykophron: Alexandra. Greek Text, Translation, Commentary, & Introduction
No ratings yet
Lykophron: Alexandra. Greek Text, Translation, Commentary, & Introduction
5 pages
Short Term Memory in Consecutive Interpreting - Paper
No ratings yet
Short Term Memory in Consecutive Interpreting - Paper
16 pages
Pochhacker F 2022 Introducing Interpreti
No ratings yet
Pochhacker F 2022 Introducing Interpreti
7 pages
Phoenix Hairpin Met A Cognitive
No ratings yet
Phoenix Hairpin Met A Cognitive
7 pages
The Translation of Wordplay in Literary Texts: Typology, Techniques and Factors in A Corpus of English-Catalan Source Text and Target Text Segments
100% (1)
The Translation of Wordplay in Literary Texts: Typology, Techniques and Factors in A Corpus of English-Catalan Source Text and Target Text Segments
34 pages
Creative Translation in Theory and Practice
100% (1)
Creative Translation in Theory and Practice
4 pages
"The Word Homosexual Is Not A Noun": Transmitting and Reconfiguring James Baldwin's Intersectional Thought and Writings Through European Translations
No ratings yet
"The Word Homosexual Is Not A Noun": Transmitting and Reconfiguring James Baldwin's Intersectional Thought and Writings Through European Translations
7 pages
Abubakar Ismail
No ratings yet
Abubakar Ismail
9 pages
Systems Theories
No ratings yet
Systems Theories
37 pages
TRẮC NGHIỆM DỊCH VĂN HÓA
No ratings yet
TRẮC NGHIỆM DỊCH VĂN HÓA
10 pages
Klaudy K Karoly K Implicitation in Trans
No ratings yet
Klaudy K Karoly K Implicitation in Trans
16 pages
(BYU New Testament Commentary) Richard D. Draper and Michael D. Rhodes - The Revelation of John the Apostle-ByU Studies (2016)
No ratings yet
(BYU New Testament Commentary) Richard D. Draper and Michael D. Rhodes - The Revelation of John the Apostle-ByU Studies (2016)
940 pages
Translate Urdu Into English - Google Search
No ratings yet
Translate Urdu Into English - Google Search
1 page
Scientific and Technical Translation, by Maeve Olohan, New York, Routledge, 2015, VIII + 253 PP., US$39.95, ISBN 978-0-415-83786-6 (PBK)
No ratings yet
Scientific and Technical Translation, by Maeve Olohan, New York, Routledge, 2015, VIII + 253 PP., US$39.95, ISBN 978-0-415-83786-6 (PBK)
4 pages
Classical Syriac Neo-Aramaic and Arabic
No ratings yet
Classical Syriac Neo-Aramaic and Arabic
17 pages
Applied Linguistics
No ratings yet
Applied Linguistics
34 pages
Phrase Guide
No ratings yet
Phrase Guide
8 pages
Bridging The Gap Between Saudi Students Translator Training Programmes and The Needs of The Saudi Translation Market
No ratings yet
Bridging The Gap Between Saudi Students Translator Training Programmes and The Needs of The Saudi Translation Market
389 pages
[Ebooks PDF] download The Gaṇitatilaka and its Commentary Two Medieval Sanskrit Mathematical Texts 1st Edition Alessandra Petrocchi full chapters
100% (5)
[Ebooks PDF] download The Gaṇitatilaka and its Commentary Two Medieval Sanskrit Mathematical Texts 1st Edition Alessandra Petrocchi full chapters
40 pages
My Resume
No ratings yet
My Resume
2 pages
(Hermann Hesse) Siddhartha (Webster's Spanish Thes (Book4You)
No ratings yet
(Hermann Hesse) Siddhartha (Webster's Spanish Thes (Book4You)
271 pages
Han Fei - The Complete Works of Han Fei
No ratings yet
Han Fei - The Complete Works of Han Fei
176 pages
Something's Missing - by Gillian Bethel
No ratings yet
Something's Missing - by Gillian Bethel
19 pages
Revision (Editing) of Translations. Translators' Self-Revision
No ratings yet
Revision (Editing) of Translations. Translators' Self-Revision
28 pages

Research Synopsis

Uploaded by

Research Synopsis

Uploaded by

Research Title: Developing a High-Quality Tigrigna Neural Machine

Translation (NMT) System

Traditional Statistical Machine Translation (SMT) and Rule-Based Translation approaches

This research will:

 Enhance machine translation capabilities for low-resource languages like Tigrigna.

 Develop a high-quality parallel corpus for Tigrigna-English translation.

2. Objective of the Research

To develop a high-quality Neural Machine Translation (NMT) system for Tigrigna-English

 To collect and construct a large-scale Tigrigna-English parallel corpus using web

 To explore the effectiveness of transfer learning by fine-tuning multilingual models

 To evaluate different model architectures (Transformer, mBART, BERT-based models)

Evolution from Rule-Based Machine Translation (RBMT) to Statistical Machine Translation

3.2.Challenges of Tigrigna Machine Translation

 Rich Morphology: Tigrigna has complex inflectional and derivational structures.

 Syntax and Grammar Complexity: Word order and subject-object relationships

3.3. Related Work on Low-Resource Language NMT

 Studies on Amharic-English and Swahili-English NMT models using transfer

 The role of pre-trained multilingual models (mBART, mT5, and XLM-R) in

3.4 Research Gap

Mainly Lack of research on Tigrigna-English NMT using deep learning-based approaches. As we

4. Methodology of the Research

4.1 Research Approach

4.2 Data Collection and Preprocessing

 Parallel Corpus Construction:

o Web Crawling: Extract Tigrigna-English text from government websites, news

o Manual Annotation: Collaborate with linguists and translators to create a gold-

o Back-Translation: Generate synthetic parallel data by translating monolingual

 Data Preprocessing Techniques:

o Sentence segmentation, tokenization, and subword encoding (Byte Pair Encoding -

o Data Cleaning: Removing noise, duplicated sentences, and translation errors.

4.3 Model Development

 Baseline Model: Train a standard Transformer-based NMT model for comparison.

 Advanced NMT Models:

o Fine-Tuning Pre-Trained Multilingual Models: Train mBART, mT5, and XLM-R on

o Hybrid Approach: Combine Transformer-based models with attention mechanisms

4.4 Model Training and Evaluation

o Implement hyperparameter tuning to optimize model performance.

o BLEU (Bilingual Evaluation Understudy) Score

o METEOR (Metric for Evaluation of Translation with Explicit ORdering)

o TER (Translation Edit Rate)

4.5 Deployment and Testing

 Develop an API-based Tigrigna NMT service for real-world testing.

You might also like