Inhaltsverzeichnis
Verlassen wir nun den Bereich der reinen Physik und schneiden das Thema Perzeption an. Dieser Terminus bezeichnet in unserem Fall die großteils unbewusst ablaufenden Prozesse individueller Informations- und Wahrnehmungsverarbeitung beziehungsweise die Gesamtheit der Vorgänge des Wahrnehmens oder Empfindens. Grundsätzlich ist akustische Perzeption also subjektiv, und Hörer reflektieren normalerweise nicht bewusst über das, was sie wahrnehmen – Phonetiker bilden da eine Ausnahme, wie ich aus eigener Erfahrung bestätigen kann …
Jedenfalls unterscheidet sich genau hier auch „hören“ von „zuhören“ – selbst wenn wir bewusst den Klang einer Stereoanlage „erhören“ wollen, perzipieren wir den Schall durch den Filter unserer individuellen physiologischen und psychischen Begebenheiten, so dass selbst absolut identische akustische Muster zu unterschiedlichen Beurteilungen bei der Wahrnehmung gelangen können – zum Beispiel, wenn unterschiedliche Hörer oder sogar derselbe Hörer zu unterschiedlichen Zeitpunkten (und mit unterschiedlichen Stimmungen) die Beurteilung abgeben soll(en).
Eine äußerst interessanter Effekt an der Schnittstelle von Psychoakustik und Wahrnehmungspsychologie ist der McGurk-Effekt. Nein, das ist keine Reaktion einer überforderten Verdauung auf eine Fast-Food-Spezialität mit fragwürdigem Belag. Harry McGurk war ein Entwicklungspsychologe der University of Surrey in England, dem es Mitte der 1970er-Jahre eher zufällig auffiel, dass die visuelle Wahrnehmung eines Sprechers das auditorisch wahrgenommene Signal beeinflusst. Spielt man einem Probanden ein Video vor, auf dessen Tonspur eindeutig die Silben „ba-ba-ba“ zu hören sind, während der Sprecher, der im Video zu sehen ist, in Wirklichkeit die Silben „ga-ga-ga“ ausspricht, so geben 98 % der Probanden an, die Silben „da-da-da“ zu hören. Warum? Weil wir Lippen lesen, die Inkongruenz zwischen Gesehenem und Gehörtem normalisieren und die Artikulationsorte der verschiedenen Plosive unbewusst zusammenschieben: Zwischen dem am hinteren Gaumen gebildeten „g“ (stimmhafter velarer Plosiv) und dem mit den Lippen gebildeten „b“ (stimmhafter bilabialer Plosiv) befindet sich das mit der Zunge am vorderen oberen Zahnfleisch gebildete „d“ (stimmhafter alveolarer Plosiv). Andere Kombinationen und Ergebnisse gibt es auch: Sieht man ein „fa-fa-fa“, während „ba-ba-ba“ gesprochen wird, nimmt man „fa-fa-fa“ wahr. Probieren Sie es einfach mal aus: www.youtube.com
Dem Ohr besser entsprechen
Die Psychoakustik versucht also, wie eingangs bereits angedeutet, physikalische Parameter wie Schalldruck(pegel), Frequenz, Bandbreite und Dauer eines Signals auf gehörgerechte Parameter abzubilden. Natürlich muss man sich bei allen psychoakustischen Größen auf mindestens eine, meist aber mehrere rein physikalische Größen beziehen. Wichtigstes Kriterium für eine psychoakustische Größe ist dabei, dass sie als einzelne Empfindung getrennt von anderen Empfindungen wahrgenommen und beurteilt werden kann. Die wichtigsten Größen sind Lautstärkepegel (Einheit „phon“), Lautheit (Einheit „sone“), Schärfe (Einheit „acum“), Tonheit (Einheit „mel“), die Rauigkeit (Einheit „asper“) und die Schwankungsstärke (Einheit „vacil“); auch Tonhaltigkeit und Impulshaltigkeit sind zu beachtende Größen. Bevor wir uns diesen Phänomenen zuwenden, sollten wir noch schnell unser Augenmerk auf einige Parameter legen, die zum grundlegenden Verständnis der Funktionsweise unseres Gehörs wichtig sind.
Mit der Hörschwelle misst man ganz grundlegend, ab welchem minimalen Schalldruckpegel Schall überhaupt wahrgenommen wird. Dabei sind individuelle Gegebenheiten wie Alter und Gesundheitszustand wichtige Einflussfaktoren, dennoch gibt es generalisierbare Fakten. Die Hörschwelle wird mit Hilfe von Sinustönen ermittelt, die dem Probanden mit steigendem Pegel meistens über exakt kalibrierte Kopfhörer vorgespielt werden. Grundsätzlich ist die Hörschwelle keine lineare Funktion, vielmehr variiert der wahrnehmbare Schalldruck mit der Frequenz. Wie gesagt sind für Menschen im Prinzip Frequenzen zwischen circa 16 Hz und 20 kHz hörbar, und die größte Empfindlichkeit hat unser Gehör um 4000 Hz. Hier wird im Idealfall bereits bei +4 dB Schall wahrgenommen, während die Empfindlichkeit vor allem in Richtung Tiefton stark abnimmt: Schon bei 63 Hz müssen mindestens 35 dB vorhanden sein, um eine Wahrnehmung zu erzielen, während im Hochton um 18 kHz herum circa 15 dB ausreichen.
Die menschliche Stimme produziert Frequenzen zwischen circa 100 Hz und 4 kHz sowie im Pegelbereich zwischen circa 40 dB und 80 dB, wobei die Grundfrequenz der Stimme (bestimmt durch die Frequenz mit welcher sich die Stimmlippen im Kehlkopf öffnen und schließen) zwischen 100 Hz bei Männern und circa 450 Hz bei Kleinkindern pendelt. Die für das Sprachverstehen wichtige Information, zum Beispiel in Hinsicht auf die produzierten Vokale, ist allerdings in den Oberwellen (ganzzahlige Vielfache der Grundfrequenz und Resonanzfrequenzen des Vokaltrakts, je nach dessen räumlicher Konfiguration) kodiert – mit gutem Grund also „spezialisiert“ sich unser Gehör auf die eher mittleren Frequenzen.
Eng mit der Hörschwelle gekoppelt ist der Begriff der Hörfläche (auch Hörfeld oder Hörbereich genannt). Die vier Parameter Hörschwelle, Schmerzgrenze sowie tiefste und höchste wahrnehmbare Frequenz beschreiben in einem Diagramm eine Fläche, die die Wahrnehmbarkeit von Schall für ein Individuum darstellt.
Die Hörfläche, begrenzt durch Hörschwelle, Schmerzgrenze und wahrnehmbare Frequenzen
Psychoakustische Messgrößen
Die Lautstärke, die wir wahrnehmen, hängt also nicht nur von der messbaren Schallamplitude, sondern auch von der Frequenz ab. So ist unser Gehör bei etwa 4 kHz am empfindlichsten, während die Empfindlichkeit zu den höchsten, vor allem aber zu den tiefsten Frequenzen hin stark abnimmt. Diese „ohrgemäße“ Lautstärke wird gemessen als Lautstärkepegel in phon. Die folgende Abbildung zeigt, wie Lautstärkepegel und Schalldruckpegel zusammenhängen.
Die Ohrkurve und der Zusammenhang zwischen dB und phon, also zwischen Schalldruckpegel und Lautstärkepegel
Wie man sieht, stimmen phon und dB bei 1 kHz überein: Zum Beispiel entsprechen 40 dB bei 1000 Hz genau 40 phon, während die Skalen überall sonst mehr oder weniger deutlich voneinander abweichen. Das liegt eben daran, dass unser Hörorgan nicht linear empfindlich ist. Allerdings hat die phon-Skala einen kleinen Nachteil: Verdoppelt sich der Schalldruckpegel einer Schallquelle, so verdoppelt sich unser subjektives Schallempfinden nicht. Umgekehrt verdoppelt sich der Lautstärkepegel nicht, wenn wir meinen, dass sich die Lautstärke verdoppelt hat.
Dieses Manko des Konzepts vom Lautstärkepegel beseitigt die Sone-Skala (auch Empfindungsstärken-Skala genannt), mit der man die Lautheit ermittelt.
Den einzigen Bezugspunkt zum Lautstärkepegel (und somit auch zum Schalldruckpegel) gibt es bei der Frequenz von 1 kHz, wo ein breitbandiges Schallsignal mit einem Schalldruckpegel von 40 dB (und dementsprechend wahrgenommenen 40 phon) als 1 sone definiert ist: 1 sone = 40 phon = 40 dB bei 1000 Hz
Bei der Lautheit spielt damit zwar weiterhin physikalisch Messbares wie Frequenz beziehungsweise Bandbreite, Dauer des Signals sowie der Schalldruckpegel eine Rolle, jedoch ist die Lautheit eine Größe zur proportionalen Abbildung des menschlichen Lautstärkeempfindens, da man die empfundene Lautstärke eines Schallereignisses misst. Sie erlaubt also eine direkte Aussage darüber, als wie laut ein Mensch den Schall subjektiv empfindet. Eingeführt wurde diese Größe übrigens im Jahre 1936 von Stanley Smith Stevens, einem amerikanischen Psychologen, der 1940 auf Bitten der U.S. Luftwaffe ein Psychoakustiklabor zur Untersuchung der Einwirkung von starken Geräuschpegeln auf Menschen gründete.
Ein interessanter Fakt über unser Gehör ist, dass wir es über eine gewisse Anzahl von Bandpassfiltern², also Frequenzgruppen, modellieren können. Die Bark-Skala, mit der man die wahrgenommene Tonhöhe (Tonheit) abbilden kann, definiert hierfür 24 Frequenzgruppen. Diese basieren auf 24 etwa gleich langen Abschnitten der Basilarmembran³ unseres Innenohrs, auf die man in psychoakustischen Tests gestoßen ist, und für die unser Gehirn die jeweils erzeugten Nervenimpulse gemeinsam auswertet.
Die Anatomie des menschlichen Ohrs
Ein wichtiger Begriff dabei ist die kritische Bandbreite. Fallen zwei Töne in ein Band, nehmen wir nur einen dominanten Ton wahr, während der andere Ton als Modulation des ersten oder als Rauigkeit (näheres zur Rauigkeit im zweiten Teil dieses Artikels) wahrgenommen wird. Erst, wenn die beiden Töne über die kritische Bandbreite hinaus auseinanderrücken, werden sie separat wahrnehmbar, da sie nun in zwei getrennte Filterkanäle fallen.
Länge der Basilarmembran, Frequenzgruppen, Frequenz und Tonheit (gemessen in mel) im Bezug zueinander
Bei der Frage nach der Messbarkeit der wahrgenommenen Tonhöhe (von Sinustönen), der sogenannten Tonheit, treffen wir wieder auf den schon erwähnten Stanley Smith Stevens: Er entwickelte gemeinsam mit John Volkmann und Edwin Newman auch die Mel-Skala. Das Wort „Mel“ leitet sich vom englischen „Melody“ ab.
Basis der Mel-Skala nach Stanley Stevens ist ein Ton mit der Frequenz 1000 Hz, was 1000 mel entspricht. Bis etwa 500 Hz verlaufen Frequenz und mel fast vollkommen proportional zueinander: 100 hz entsprechen 100 mel, 200 Hz entsprechen 200 mel. Zu 1 kHz hin nähern sich die Kurven dann an, um darüber mit steigender Frequenz immer stärker zu divergieren. Verdoppelungen der wahrgenommenen Tonhöhe entsprechen dann immer größeren Frequenzsprüngen. Zum Beispiel: 1.100 mel entsprechen 1.500 Hz, 2.200 mel aber schon etwa 10.000 Hz. Das liegt unter anderem daran, dass das Gehör oberhalb von 1.600 Hz nicht mehr in der Lage ist, die Zeitstruktur der eingehenden akustischen Signale zu verfolgen. Der gesamte Hörbereich umfasst 2.400 mel.
Tonheit in mel und Frequenz in Hz in Bezug zueinander
Soweit, so gut. Um das alles etwas sacken zu lassen, unterbrechen wir hier und fahren im nächsten Teil fort mit den etwas abstrakteren Messgrößen in der Psychoakustik wie Impulshaltigkeit, Schwebung, Rauigkeit und wenden uns der psychoakustischen Praxis in Form von Tests und Anwendungsbeispielen zu.
_______________________________________________________
² Filter, das nur Signale eines bestimmten zusammenhängenden Frequenzbands passieren lässt, während Frequenzbereiche außerhalb dieses Bandes ganz herausgefiltert oder mit einer gewissen Flankensteilheit abgeschwächt werden.
³ Die Basilarmembran ist eine membranähnliche Gewebestruktur, die in der Hörschnecke liegt. Die (analog zum Schallimpuls) wellenförmigen Bewegungen der Basilarmembran werden in Nervensignale umgewandelt. Durch die unterschiedliche Elastizität werden die verschiedenen Bereiche der Basilarmembran von unterschiedlichen Frequenzen angeregt: Die Bandbreite reicht von 20 kHz an der Basis der Hörschnecke bis zu etwa 20 Hertz am Apex.
Kommentar/Leserbrief zu diesem Bericht schreiben
Akustik: Grundlagen der Psychoakustik, Teil 1