Звуковой строй современного русского языка - Л. В. Бондарко 1977
Объективные характеристики звуковых единиц и методы их анализа
Измерение длительности, интенсивности и частоты основного тона голоса по осциллограмме
Длительность. Измерение длительности исследуемого отрезка (звука, слога, слова) производится следующим образом: определяются границы этого отрезка и подсчитывается количество колебаний отметчика времени, укладывающихся в пределах этих границ. Зная частоту отметчика времени, можно определить время, за которое происходит одно колебание, а затем, умножив это время на число колебаний отметчика времени, узнать длительность исследуемого участка. Например, если нам нужно измерить длительность гласного в каком-нибудь слове, отметим сначала его границы; определим, что на этом отрезке умещается п колебаний отметчика времени, определим время, занимаемое одним периодом колебаний отметчика времени: если частота времени 1000 Гц, то одно колебание занимает 0,001 с; тогда длительность гласного п- 0,001 с. Если запись ведется с двумя отметчиками времени, то сначала подсчитывается длительность по более низкому отметчику. Например, если в длительность гласного укладывается 12 целых колебаний отметчика времени с частотой 100 Гц и 3 колебания отметчика времени с частотой 1000 Гц, то длительность гласного складывается из:
1) 12-0,01 с=0,12 с;
2) 3-0,001 с=0,003 с
0,123 с=123 мс.
Заметим, что осциллограмма дает наглядное представление об относительной длительности звуков без вычисления абсолютной длительности. По рисункам, например, без всяких предварительных подсчетов* можно судить о сравнительной длительности ударного и безударных гласных в пределах одного слова (см. рис. 12).
Рuс. 10. Осциллограммы глухих щелевых согласных в слогах фы, су, ух, шу. Скорость движения пленки — 500 мм/с, отметчик времени — 100 Гц.
Шумовые составляющие самые слабые для губного ф — это хорошо видно при сравнении осциллограмм, приведенных на этом рисунке. Осциллографический рисунок согласного ш характеризуется значительной амплитудой (рассмотрите также и осциллограмму ш в слове Саша на рис. 3 и 4). Осциллографический рисунок заднеязычного х отличается большой амплитудой шумовых составляющих, но сама «щеточка» реже, что связано с более низкой частотой этих составляющих по сравнению с другими щелевыми согласными.
Рис. II. Осциллограммы глухих взрывных и аффрикат в слогах ка, то, ца. Скорость движения кинопленки — 500 мм/с, отметчик времени — 100 Гц.
Различия между глухими взрывными согласными —в интенсивности и длительности шумовых составляющих: на приведенных осциллограммах хорошо видно, что г имеет меньшую длительность шумовой фазы, чем к.
Аффриката ц имеет осциллографический рисунок, близкий к рисунку глухого щелевого с (см. рис. 10), но длительность этого шума гораздо меньше.
Интенсивность. Осциллографическая кривая дает представление об интенсивности частотных составляющих каждого звука. Как мы уже говорили, чем больше интенсивность колебательного движения, тем сильнее отклонение регистрирующего колебание луча от исходного положения, т. е. амплитуда колебания. Так как звук характеризуется большим количеством частотных составляющих, при изучении их интенсивности важно знать, интенсивность каких именно частот определяет с точки зрения восприятия громкость звука. Относительно этого имеется несколько различных предположений.
Если рассматривать интенсивность звуков с точки зрения тех артикуляционных движений, которые ее обеспечивают, то для представления об интенсивности нужно точно знать характеристики источника (голосового, импульсного или турбулентного). Это значит, что нужны специальные преобразования звука, в результате которых подавляются его форуантные характеристики. Однако чаще всего нас интересуют такие характеристики интенсивности звуков, которые связаны с их фонетическими свойствами, т. е. с реальным их звучанием. При этом амплитуда звука определяется совокупностью амплитуд всех частотных составляющих. Осциллографическая кривая в таком случае дает достаточно адекватное представление об интенсивности речевого сигнала.
Рис. 12. Осциллограмма слова краска. Скорость движения кинопленки — 250 мм/с, отметчик времени — 100 Гц.
Интенсивный и длительный взрыв согласного к регистрируется на этой осциллограмме очень четко; далее следует гласноподобный участок дрожащего согласного р, за этим участком — фаза сближения языка с верхними зубами, затем опять раскрытие, образующее гласноподобный звук. Мы уже знаем (см. рис. 7), что провести границу между р и следующим гласным довольно трудно. В данном случае начало гласного определим по величине амплитуды; длительность ударного гласного около НО мс, длительность безударного— около 120. Заметим, кстати, что обычно ударный гласный более значительно превышает по своей длительности безударный, но здесь такая маленькая разница обусловлена фонетически: ударный а находится в окружении групп из двух согласных (кр и ск), а заударный — в абсолютном конце слова. Обратите внимание и на амплитуду звуков. Прежде всего она несимметрична относительно нулевой линии: отклонение «вниз» значительно меньше, чем отклонение «вверх» (понятие «верх» и «низ» существенно только для осциллограммы, но не для записываемого звука!). Интенсивность ударного гласного здесь больше, чем безударного; и максимальное отклонение от нулевой линии здесь сильнее, и такое отклонение наблюдается на большей протяженности гласного.
Однако имеется одно важное обстоятельство, накладывающее определенные ограничения. Вид осциллографической кривой зависит от фазовых соотношений частот: если два колебания, дающие результирующую кривую, находятся в одинаковой фазе, то суммарная амплитуда будет большей, если же эти колебания сдвинуты по фазе относительно друг друга, то суммарная амплитуда, естественно, будет меньшей. Несмотря на то что, по данным психо-акустики, фазовые отношения частотных составляющих звуков речи не имеют никакого значения при восприятии, этот факт должен быть специально рассмотрен. Практически зависимость суммарной амплитуды от фазовых соотношений составляющих частот означает, что два звука, характеризующиеся одинаковой громкостью, могут иметь совершенно различные амплитуды. Нужно, однако, отметить, что практика осциллографического анализа речи показывает, что такие случаи практически не встречаются: как правило, амплитудные характеристики звуков хорошо J соответствуют данным восприятия их громкости.
Измерение амплитуды сигнала по осциллограмме в качестве коррелята интенсивности звука используется во многих экспериментально-фонетических исследованиях.
Осциллограмма дает наглядное представление об изменении силы звука во времени (ослабление или усиление его). При этом видно не только направление изменения, но и его реальное распределение во времени.
Как уже было сказано, для получения достоверной осциллограммы необходимо, чтобы частота записываемого звука была в 3—4 раза ниже собственной частоты вибратора. Это имеет особенное значение при изучении интенсивности, так как при несоблюдении указанного условия в первую очередь ослабляется амплитуда записываемого звука, т. е. нарушаются реальные соотношения, имеющие место в речи.
Сложность изучения силы звуков заключается и в. том, что, во-первых, разные звуки могут иметь разную амплитуду в зависимости от их собственных качественных характеристик. Так, например, известно, что открытые звуки типа а, е, о имеют большую амплитуду, чем закрытые звуки типа и, ы, у. Такое различие, конечно, связано не с тем, что одни «специально» произносятся громче, а други» —тише, а с тем, что в первом случае возникают более благоприятные условия для усиления звука, чем во втором.
Вторая трудность общего характера, возникающая при изучении интенсивности, заключается в том, что реальная громкость звука, которая в конечном счете и воспринимается, зависит не только от амплитуды колебания, т. е. силы звука, но и от его частоты.
Для измерения интенсивности по амплитуде осциллографической кривой имеется несколько возможностей. Прежде всего необходимо выбрать то значение амплитуды, которое будет измеряться. Отклонения кривой вверх и вниз от нулевой линии не одинаковы (не симметричны), поэтому необходимо последовательно измерять всегда одно и то же по знаку отклонение — положительное или отрицательное. Измерение амплитуды производится в миллиметрах, однако существует возможность получить представление о том, какому увеличению интенсивности в децибелах соответствует увеличение амплитуды на ту или иную величину.
Важным является вопрос о том, какие именно амплитудные значения должны измеряться. Так как существует обоснованное данными психоакустики мнение о том, что человек определяет громкость сигнала по наибольшей в данном отрезке интенсивности, можно предположить, что измерение максимальной амплитуды в каждом звуке будет давать удовлетворительное представление о соотношениях интенсивности в данном речевом отрезке. С другой стороны, данные о постоянной времени человеческого слуха говорят о том, что время, за которое в слухе происходит усреднение характеристик звука, зависит от свойств самого звука и колеблется °т 20 до 200 мс. Поэтому естественно предположить, что для фонетической характеристики интенсивности небезразлично, каким образом она изменяется на протяжении звука. Это значит, что для описания интенсивности звука недостаточно указать только максимальное значение амплитуды — нужно еще определить, в каком месте звука (в начале, середине или конце) этот максимум наблюдается, какова длительность звука, характеризующаяся максимальными значениями амплитуды, и каковы соседние значения амплитуд (т. е. какова степень изменения интенсивности на протяжении данного, отрезка звучания) (см. рис. 12).
Частота основного тона. Осциллографическая кривая дает возможность достаточно точно измерить высоту основного тона или частоту колебания голосовых связок. Каждый звук, произнесенный с участием голосового источника, имеет специфическую картину, характеризующуюся определенной повторяемостью рисунка. Это определяется периодичностью колебаний голосовых связок. При определении частоты колебаний первая задача заключается в правильном выделении периода колебаний и в подсчете числа колебаний, характеризующего исследуемый звук.
В зависимости от конкретных потребностей производимого анализа можно производить определение частоты колебаний голосовых связок с разной степенью точности.
Наиболее точным является определение частоты каждого из периодов. Для такого измерения необходимо, чтобы скорость съемки осциллограммы была достаточно велика (порядка 1000 мм/с), а частота отметчика времени была значительно выше частоты колебаний голосовых связок. Если частота отметчика времени — 1000 Гц, то это значит, что мы можем измерять длительность периода с точностью до одной мс. Определение частоты колебания производится по формуле f=1/T, где f — частота, Т — длительность периода.
Однако измерение каждого периода требует больших затрат времени. Поэтому возможен и другой путь измерения частоты основного тона. При этом мы получаем значение средней частоты основного тона или для групп, содержащих определенное число периодов, или для частей звука. В первом случае мы измеряем среднюю частоту группы из трех, четырех или пяти и т. д. периодов (в зависимости от желаемой точности).
Средняя частота определяется по формуле f=(1*n)/T, где п — число периодов, Т — длительность данной группы периодов.
В результате на протяжении анализируемого звука получим столько значений средней частоты основного-тона, сколько групп по п периодов могут уместиться на его длительности.
Другая возможность заключается в том, что звук делят на две, три, четыре и т. д. равных по длительности частей и измеряют среднюю частоту основного тона на каждом из этих участков по той же формуле. Модификацией такого способа является измерение частоты одного периода или группы периодов в начале, середине и конце изучаемого звука.
Все указанные способы дают нам более или менее точное представление об изменении частоты основного тона во времени. Однако в ряде случаев бывает достаточно определить среднее значение частоты основного тона на данном звуке. Для этого подсчитывается число периодов основного тона и длительность гласного. Средняя частота основного тона определяется по известной уже формуле f=(1*n)/T