Звуковой строй современного русского языка - Л. В. Бондарко 1977

Объективные характеристики звуковых единиц и методы их анализа
Измерение длительности, интенсивности и частоты основного тона голоса по осциллограмме

Длительность. Измерение длительности иссле­дуемого отрезка (звука, слога, слова) производится следу­ющим образом: определяются границы этого отрезка и подсчитывается количество колебаний отметчика времени, укладывающихся в пределах этих границ. Зная частоту отметчика времени, можно опреде­лить время, за которое происходит одно колебание, а затем, умножив это время на число колебаний отмет­чика времени, узнать длительность исследуемого уча­стка. Например, если нам нужно измерить длительность гласного в каком-нибудь слове, отметим сначала его границы; определим, что на этом отрезке умещается п колебаний отметчика времени, определим время, зани­маемое одним периодом колебаний отметчика времени: если частота времени 1000 Гц, то одно колебание зани­мает 0,001 с; тогда длительность гласного п- 0,001 с. Если запись ведется с двумя отметчиками времени, то сначала подсчитывается длительность по более низкому отметчику. Например, если в длительность гласного укладывается 12 целых колебаний отметчика времени с частотой 100 Гц и 3 колебания отметчика времени с частотой 1000 Гц, то длительность гласного складывает­ся из:

1) 12-0,01 с=0,12 с;

2) 3-0,001 с=0,003 с

0,123 с=123 мс.

Заметим, что осциллограмма дает наглядное пред­ставление об относительной длительности звуков без вычисления абсолютной длительности. По рисункам, на­пример, без всяких предварительных подсчетов* можно судить о сравнительной длительности ударного и без­ударных гласных в пределах одного слова (см. рис. 12).

Рuс. 10. Осциллограммы глухих щелевых согласных в слогах фы, су, ух, шу. Скорость движения пленки — 500 мм/с, отметчик време­ни100 Гц.

Шумовые составляющие самые слабые для губного ф — это хорошо видно при сравнении осциллограмм, приведенных на этом рисунке. Осциллографический рисунок согласного ш характеризу­ется значительной амплитудой (рассмотрите также и осциллограм­му ш в слове Саша на рис. 3 и 4). Осциллографический рисунок заднеязычного х отличается большой амплитудой шумовых состав­ляющих, но сама «щеточка» реже, что связано с более низкой час­тотой этих составляющих по сравнению с другими щелевыми со­гласными.

Рис. II. Осциллограммы глухих взрывных и аффрикат в слогах ка, то, ца. Скорость движения кинопленки — 500 мм/с, отметчик вре­мени100 Гц.

Различия между глухими взрывными согласными —в интенсив­ности и длительности шумовых составляющих: на приведенных ос­циллограммах хорошо видно, что г имеет меньшую длительность шумовой фазы, чем к.

Аффриката ц имеет осциллографический рисунок, близкий к ри­сунку глухого щелевого с (см. рис. 10), но длительность этого шума гораздо меньше.

Интенсивность. Осциллографическая кривая дает представление об интенсивности частот­ных составляющих каждого звука. Как мы уже говорили, чем больше интенсивность колебательного движения, тем сильнее отклонение регистрирующего ко­лебание луча от исходного положения, т. е. амплитуда колебания. Так как звук характеризуется большим ко­личеством частотных составляющих, при изучении их интенсивности важно знать, интенсивность каких именно частот определяет с точки зрения восприятия громкость звука. Относительно этого имеется несколько различных предположений.

Если рассматривать интенсивность звуков с точки зрения тех артикуляционных движений, которые ее обес­печивают, то для представления об интенсивности нуж­но точно знать характеристики источника (голосового, импульсного или турбулентного). Это значит, что нужны специальные преобразования звука, в результате которых подавляются его форуантные характеристики. Однако чаще всего нас интересуют такие характеристи­ки интенсивности звуков, которые связаны с их фонети­ческими свойствами, т. е. с реальным их звучанием. При этом амплитуда звука определяется совокупностью амплитуд всех частотных составляющих. Осциллографическая кривая в таком случае дает достаточно аде­кватное представление об интенсивности речевого сиг­нала.

Рис. 12. Осциллограмма слова краска. Скорость движения кино­пленки — 250 мм/с, отметчик времени100 Гц.

Интенсивный и длительный взрыв согласного к регистрируется на этой осциллограмме очень четко; далее следует гласноподобный участок дрожащего согласного р, за этим участком — фаза сближе­ния языка с верхними зубами, затем опять раскрытие, образующее гласноподобный звук. Мы уже знаем (см. рис. 7), что провести границу между р и следующим гласным довольно трудно. В дан­ном случае начало гласного определим по величине амплитуды; дли­тельность ударного гласного около НО мс, длительность безудар­ного— около 120. Заметим, кстати, что обычно ударный гласный более значительно превышает по своей длительности безударный, но здесь такая маленькая разница обусловлена фонетически: удар­ный а находится в окружении групп из двух согласных (кр и ск), а заударный — в абсолютном конце слова. Обратите внимание и на амплитуду звуков. Прежде всего она несимметрична относительно нулевой линии: отклонение «вниз» значительно меньше, чем откло­нение «вверх» (понятие «верх» и «низ» существенно только для осциллограммы, но не для записываемого звука!). Интенсивность ударного гласного здесь больше, чем безударного; и максимальное отклонение от нулевой линии здесь сильнее, и такое отклонение на­блюдается на большей протяженности гласного.

Однако имеется одно важное обстоятельство, накла­дывающее определенные ограничения. Вид осциллографической кривой зависит от фазовых соотношений час­тот: если два колебания, дающие результирующую кривую, находятся в одинаковой фазе, то суммарная амплитуда будет большей, если же эти колебания сдви­нуты по фазе относительно друг друга, то суммарная амплитуда, естественно, будет меньшей. Несмотря на то что, по данным психо-акустики, фазовые отношения частотных составляющих звуков речи не имеют никакого значения при восприятии, этот факт должен быть специально рассмотрен. Практически зависимость суммар­ной амплитуды от фазовых соотношений составляющих частот означает, что два звука, характеризующиеся одинаковой громкостью, могут иметь совершенно раз­личные амплитуды. Нужно, однако, отметить, что практика осциллографического анализа речи показыва­ет, что такие случаи практически не встречаются: как правило, амплитудные характеристики звуков хорошо J соответствуют данным восприятия их громкости.

Измерение амплитуды сигнала по осциллограмме в качестве коррелята интенсивности звука используется во многих экспериментально-фонетических исследова­ниях.

Осциллограмма дает наглядное представление об из­менении силы звука во времени (ослабление или усиле­ние его). При этом видно не только направление изме­нения, но и его реальное распределение во времени.

Как уже было сказано, для получения достоверной осциллограммы необходимо, чтобы частота записывае­мого звука была в 3—4 раза ниже собственной частоты вибратора. Это имеет особенное значение при изучении интенсивности, так как при несоблюдении указанного условия в первую очередь ослабляется амплитуда запи­сываемого звука, т. е. нарушаются реальные соотноше­ния, имеющие место в речи.

Сложность изучения силы звуков заключается и в. том, что, во-первых, разные звуки могут иметь разную амплитуду в зависимости от их собственных качест­венных характеристик. Так, например, известно, что открытые звуки типа а, е, о имеют большую ампли­туду, чем закрытые звуки типа и, ы, у. Такое различие, конечно, связано не с тем, что одни «специально» произ­носятся громче, а други» —тише, а с тем, что в первом случае возникают более благоприятные условия для усиления звука, чем во втором.

Вторая трудность общего характера, возникающая при изучении интенсивности, заключается в том, что реальная громкость звука, которая в конечном счете и воспринимается, зависит не только от амплитуды коле­бания, т. е. силы звука, но и от его частоты.

Для измерения интенсивности по амплитуде осциллографической кривой имеется несколько возможностей. Прежде всего необходимо выбрать то значение ампли­туды, которое будет измеряться. Отклонения кривой вверх и вниз от нулевой линии не одинаковы (не сим­метричны), поэтому необходимо последовательно изме­рять всегда одно и то же по знаку отклонение — поло­жительное или отрицательное. Измерение амплитуды производится в миллиметрах, однако существует воз­можность получить представление о том, какому увели­чению интенсивности в децибелах соответствует увеличение амплитуды на ту или иную величину.

Важным является вопрос о том, какие именно ам­плитудные значения должны измеряться. Так как суще­ствует обоснованное данными психоакустики мнение о том, что человек определяет громкость сигнала по наи­большей в данном отрезке интенсивности, можно пред­положить, что измерение максимальной амплитуды в каждом звуке будет давать удовлетворительное пред­ставление о соотношениях интенсивности в данном рече­вом отрезке. С другой стороны, данные о постоянной времени человеческого слуха говорят о том, что время, за которое в слухе происходит усреднение характеристик звука, зависит от свойств самого звука и колеблется °т 20 до 200 мс. Поэтому естественно предположить, что для фонетической характеристики интенсивности небезразлично, каким образом она изменяется на про­тяжении звука. Это значит, что для описания интенсив­ности звука недостаточно указать только максимальное значение амплитуды — нужно еще определить, в каком месте звука (в начале, середине или конце) этот максимум наблюдается, какова длительность звука, характеризующаяся максимальными значения­ми амплитуды, и каковы соседние значения амплитуд (т. е. какова степень изменения интенсив­ности на протяжении данного, отрезка звучания) (см. рис. 12).

Частота основного тона. Осциллографическая кривая дает возможность достаточно точно изме­рить высоту основного тона или частоту колебания голо­совых связок. Каждый звук, произнесенный с участием голосового источника, имеет специфическую картину, характеризующуюся определенной повторяемостью ри­сунка. Это определяется периодичностью колебаний го­лосовых связок. При определении частоты колебаний первая задача заключается в правильном выделении периода колебаний и в подсчете числа колебаний, харак­теризующего исследуемый звук.

В зависимости от конкретных потребностей произво­димого анализа можно производить определение час­тоты колебаний голосовых связок с разной степенью точности.

Наиболее точным является определение частоты каждого из периодов. Для такого измерения необходи­мо, чтобы скорость съемки осциллограммы была доста­точно велика (порядка 1000 мм/с), а частота отметчика времени была значительно выше частоты колебаний го­лосовых связок. Если частота отметчика времени — 1000 Гц, то это значит, что мы можем измерять длитель­ность периода с точностью до одной мс. Определение частоты колебания производится по формуле f=1/T, где f — частота, Т — длительность периода.

Однако измерение каждого периода требует больших затрат времени. Поэтому возможен и другой путь изме­рения частоты основного тона. При этом мы получаем значение средней частоты основного тона или для групп, содержащих определенное число периодов, или для частей звука. В первом случае мы измеряем среднюю частоту группы из трех, четырех или пяти и т. д. периодов (в зависимости от желаемой точности).

Средняя частота определяется по формуле f=(1*n)/T, где п — число периодов, Т — длительность данной группы периодов.

В результате на протяжении анализируемого звука получим столько значений средней частоты основного-тона, сколько групп по п периодов могут уместиться на его длительности.

Другая возможность заключается в том, что звук де­лят на две, три, четыре и т. д. равных по длительности частей и измеряют среднюю частоту основного тона на каждом из этих участков по той же формуле. Модифи­кацией такого способа является измерение частоты од­ного периода или группы периодов в начале, середине и конце изучаемого звука.

Все указанные способы дают нам более или менее точное представление об изменении частоты основного тона во времени. Однако в ряде случаев бывает доста­точно определить среднее значение частоты основного тона на данном звуке. Для этого подсчитывается число периодов основного тона и длительность гласного. Сред­няя частота основного тона определяется по известной уже формуле f=(1*n)/T