Investigating the impact of sample size on cognate detection
К вопросу о влиянии размера лексической выборки на обнаружение этимологических когнатов
 
Johann-Mattis List (Philipps-University /Marburg/, mattis.list@uni-marburg.de)
Йоханн-Маттис Лист (Марбургский университет имени Филиппа, mattis.list@uni-marburg.de)
 
Journal of Language Relationship, № 11, 2014 - p.91-101
Вопросы языкового родства, № 11, 2014 - стр.91-101
 
The paper deals with the question of how many words are needed to successfully apply different methods for cognate detection. In order to investigate this question, a large gold standard consisting of 550 concepts translated into 4 languages (English, German, Dutch, and French) was compiled and divided into subsets of increasing sample size. Applying automatic methods for cognate detection on this gold standard shows that the accuracy of lan- guage-specific cognate detection methods clearly depends on the sample size. However, given that sample size depends on various different factors such as the genetic closeness of the languages or the degree of contact between the languages under investigation, no general lower or upper bound can be determined from the analysis.
 
В статье исследуется вопрос об оптимальном размере словарного списка, на котором можно было бы апробировать различные методы детекции этимологических когнатов. Чтобы получить ответ на этот вопрос, был разработан «золотой стандарт» из 550 концептов, переведенных на 4 языка (английский, немецкий, голландский, французский); внутри этого списка было выделено несколько последовательно увеличиваемых подмножеств. Применение автоматических методов детекции когнатов к этому стандарту показывает, что степень точности методов, разработанных для конкретных языковых типов, явно зависит от размера списка. Учитывая, однако, что оптимальный размер зависит от столь различных факторов, как степень генетической близости языков и масштаб ареальных контактов между сравниваемыми языками, нельзя сказать, что анализ позволяет определить универсальную верхнюю или нижнюю границу списка.
 
Keywords: comparative method, lexicostatistics, etymology, computational linguistics
Ключевые слова: сравнительный метод, лексикостатистика, этимология, компьютерная лингвистика
 
PDF
 
 
***
Supplementary materials

The zip-archive includes:
- readme.md, a short description of the data-format;
- ids.qlc, the gold standard in QLC-format.

 
Дополнительные материалы

Архив включает в себя:
- readme.md, описание формата;
- ids.qlc, «золотой стандарт» в формате QLC.