Heb terminology
מתוך Israelinlp
תוכן עניינים |
[עריכה]
מונחי עיבוד שפה טבעית
זהו מילון אנגלי-עברי קהילתי בלתי-רשמי של מונחי עיבוד שפה טבעית (ומונחים קשורים). הצעות לא בטוחות מופיעות בסוגריים מסולסלים.
הרשימה בשלביה הראשוניים. ערכו והוסיפו!
[עריכה]
A
- accuracy -- {דיוק}, לא להתבלבל עם precision
- alignment -- {יישור} {העמדה}
- ambiguity -- רב-משמעות
- authorship attribution -- שיוך (טקסט) למחבר
- annotation - תיוג / אנוטציה
[עריכה]
B
- bag of words --
- bigram -- {דו-רצף}
[עריכה]
C
- categorization -- סיווג (מסמכים לקטגוריות)
- chart parsing --
- chunking -- {חיתוך,בציעה} קיבוץ תחבירי
- chunker -- {קבצן}
- classifier -- מסווג
- collocation - קולוקציה
- computational linguistics -- בלשנות חישובית
- coreference resolution --
- corpus - קורפוס
- corpus linguistics --
[עריכה]
D
- dataset --
- data mining -- כריית נתונים / כריית מידע
- decision tree -- עץ החלטה
- disambiguation -- {ביאור}
- distributional similarity -- דמיון התפלגותי
[עריכה]
E
- extraction
- edit distance -- מרחק עריכה
[עריכה]
F
- feature -- מאפיין
- Finite State Machine -- מכונת מצבים סופית
- Finite State Automaton -- אוטומט סופי
[עריכה]
I
- information retrieval / IR -- אחזור מידע / איחזור מידע
- information extraction / IE -- {שליפת מידע, מיצוי מידע, חילוץ מידע?}
[עריכה]
L
- language acquisition -- רכישת שפה
- language identification -- זיהוי שפה
- language model -- מודל שפה
- lemmatization -- למטיזציה
- lexical entailment -- גרירה לקסיקלית
- lexical semantics -- סמנטיקה לקסיקלית
[עריכה]
M
- machine translation / MT -- תרגום מכונה / תרגום אוטומטי
- machine learning -- למידת מכונה / למידה ממוכנת
- monolingual --
- multi-word expressions --
- multilingual
[עריכה]
N
- named entity -- {ישות משוימת}
- named entity recognition -- {זיהוי ישויות}
- n-gram
- neural network -- רשת עצבית מלאכותית
[עריכה]
O
- ontology -- אונתולוגיה
- overfitting -- התאמת יתר
[עריכה]
P
- parallel corpus
- paraphrase - פרפרזה
- precision -- {דיוק}, לא להתבלבל עם accuracy
- parsing -- ניתוח תחבירי
- part of speech / POS -- חלק דיבר
- part of speech tagging -- תיוג חלקי דיבר
- pattern --
- phrase table -- {טבלת מונחים?}
[עריכה]
Q
- query -- שאילתה / שאילתא
- query expansion -- {הרחבת שאילתות} - הוספת מילים לשאילתא המקורית כדי להגדיל את ה-Recall
- question answering -- {מענה על שאלות}
[עריכה]
R
- recall --
- reinforcement learning -- {למידת חיזוק}
- relation extraction --
[עריכה]
S
- segmentation -- {פילוג, סגמנטציה, פילוח}
- semi-supervised --
- sentence splitting - חלוקה / הפרדה למשפטים
- sentiment analysis --
- speaker recognition - זיהוי דובר
- speech processing -- עיבוד דיבור
- speech recognition -- זיהוי דיבור
- speech to text -- {המרת דיבור לטקסט}
- statistical machine translation / SMT -- תרגום מכונה סטטיסטי
- stemming -- {שירוש}
- stopwords / stop words -- {מילות עצר}
- support vector machine / SVM -- מכונת וקטורים תומכים / SVM (אפשר להשאיר במקור)
- supervised learning -- {למידה מפוקחת/מונחית}
[עריכה]
T
- text categorization -- סיווג טקסטים
- text generation -- יצירה (אטומטית) של טקסט
- text mining --
- text to speech -- (המרת) טקסט לקול
- textual entailment -- גרירה טקסטואלית
- thesaurus
- tokenization -- {טוקניזציה}
- token -- תמנית
- token-type ratio / TTR -- יחס תמנית-תבנית
- transliteration --תעתיק
- trigram -- {תלת-רצף}
[עריכה]
U
- unsupervised learning -- {למידה בלתי-מונחית/מפוקחת}
[עריכה]
W
- word segmentation - {חלוקה/הפרדה למילים} - בהקשר של חלוקת משפט למילים בשפות נטולות רווחים
- word sense -- מובן {מובני מילה}
- word sense disambiguation / WSD -- הפגת עמימות. מציאת המובן של המילה בהקשר נתון מתוך רשימה של מובנים אפשריים.
- word sense induction - מציאת המובנים (senses) האפשריים של מילה נתונה. בניגוד ל-WSD, במשימה זו אין רשימה מוגדרת מראש של מובנים אפשריים.
[עריכה]

