Featured post

La musique vue par un physicien théoricien

Cela fait 40 ans que je pratique la musique (avec quelques interruptions) et 25 ans que je suis physicien, et donc que j’essaie de comprendre la musique avec les outils de ma profession. Cela n’a jamais été mon sujet de recherche, seulement une distraction intermittente et occasionnelle. Ce blog est né dans l’envie de structurer ces réflexions, de tenter de les relier entre elles et de leur trouver une cohérence.

Le choix du format blog offre la possibilité d’écrire les chapitres dans le désordre et de laisser l’ensemble grandir un peu aléatoirement. Chaque fois qu’un nouveau chapitre paraîtra, les précédents seront mis à jour pour le relier entre eux.

Je classerai mes billets en plusieurs catégories non-exclusives, telles que mathématiques et algorithmes (qu’est-ce que l’intonation, comment construire un son numérique, etc.), physique (comment les instruments sont-ils conçus, pourquoi la température change l’accordage, etc.) et biologique (pourquoi entend-on les harmoniques, la musique est-elle le résultat d’une sélection évolutive).

Tout ce que j’écris ici est déjà connu et se trouve dans la littérature, mais parfois de manière (à mon avis) confuse, ou pas suffisamment illustrée à mon goût. Dans certain cas, la littérature peut même être contradictoire et je ferai parfois des commentaires à ce sujet.

Bibliographie

Théorie des gammes

  1. C. Callender, I. Quinn and D. Tymoczko, Generalized voice-leading spaces., Science, vol. 320, no. 5874, 2008, pp. 346–348. [bibtex] [pdf]
  2. N. Jacoby et al., Universal and Non-universal Features of Musical Pitch Perception Revealed by Singing., Current biology, vol. 29, no. 19, 2019, pp. 3229–3243.e12. [bibtex] [pdf]
  3. S. Konar, The Sounds of Music: Science of Musical Scales. III: Indian Classical, Resonance, vol. 24, no. 10, 2019, pp. 1125–1135. [bibtex]
  4. M. C. LoPresto, Measuring Musical Consonance and Dissonance, Physics Teacher, vol. 53, no. 4, 2015, pp. 225–229. [bibtex]
  5. F. Loosen, The Effect of Musical Experience on the Conception of Accurate Tuning, Music Perception: An Interdisciplinary Journal, vol. 12, no. 3, 1995, pp. 291–306. [bibtex]
  6. M. Braun, The gamelan pelog scale of Central Java as an example of a non-harmonic musical scale, 2002. [bibtex] [pdf]
  7. J. M. McBride, T. Tlusty, Cross-cultural data shows musical scales evolved to maximise imperfect fifths, 2020, pp. 1–31. [bibtex] [pdf]
  8. J. H. McDermott, A. J. Lehr and A. J. Oxenham, Individual differences reveal the basis of consonance., Current biology, vol. 20, no. 11, 2010, pp. 1035–1041. [bibtex] [pdf]
  9. J. N. Oppenheim, M. O. Magnasco, Human time-frequency acuity beats the Fourier uncertainty principle., Physical Review Letters, vol. 110, no. 4, 2013, pp. 044301. [bibtex] [pdf]
  10. D. Tymoczko, Dualism and the Beholder's Eye: Inversional Symmetry in Chromatic Tonal Music, Oxford University Press, 2012. [bibtex]
  11. S. C. Van Hedger, H. C. Nusbaum, Individual differences in absolute pitch performance: Contributions of working memory, musical expertise, and tonal language background., Acta psychologica, vol. 191, 2018, pp. 251–260. [bibtex] [pdf]

Décompositions trigonométriques

On trouve fréquemment dans la littérature la formule trigonométrique suivante pour expliquer le phénomène des battements: $$\cos(\omega_1 t)+\cos(\omega_2 t)=2\cos(\frac{\omega_1-\omega_2}2 t)\cos(\frac{\omega_1+\omega_2}2t)~,$$ avec l’interprétation que le premier facteur est l'”amplitude” du battement (de fréquence $\Omega=(\omega_1-\omega_2)/2$) qui module l’oscillation (le second facteur) de fréquence $\overline\omega=(\omega_1+\omega_2)/2$).

Figure du haut: les deux ondes avant superposition, $\omega_1/2\pi=262$Hz, $\omega_2/2\pi=393$Hz. Figure du bas: la superposition (en noir), l’enveloppe $|\cos(\Omega t)|$ (en bleu) et l’oscillation de fréquence $\overline\omega$ (turquoise). Les pointillés turquoises indiquent l’oscillation inversée lorsque $\cos(\Omega t)<0$. Les tirets entre les deux figures visualisent la longueur d’onde de chaque courbe (dans une oscillation de la courbe bleue, il y a 3 oscillations vertes, 2 rouges et 2.5 turquoise).

Cette formule est bien entendu mathématiquement correcte, mais pose un certain nombre de problèmes dans son interprétation:

  • Il n’y a aucune généralisation naturelle de cette formule à la somme de deux ondes d’amplitudes différentes, c’est à dire: $A\cos(\omega_1 t)+B\cos(\omega_2 t)$ avec $A\ne B$.
  • Elle n’a en réalité pas la forme Amplitude$\times$Oscillation, car une amplitude est une fonction non-négative. L’interprétation visuelle de cette décomposition est d’ailleurs plutôt comme $$|\cos(\Omega t)|\times\mbox{sign}(\cos(\Omega t))\cos(\overline\omega t)~.$$ Remarquez que la fréquence de $|\cos(\Omega t)|$ est $2\Omega$!
  • Ces formules trigonométriques sont des identités exactes, donc valables aussi bien pour des petites différences $\omega_1-\omega_2$ que des grandes différences (deux notes différentes). Il semblerait donc que l’addition d’un Do (262 Hz) et d’un Sol (393 Hz) serait alors un Mi (327.5 Hz) avec un battement à 65.5 Hz (trop rapide pour être entendu). Ceci n’est musicalement pas vrai: on n’entend pas Mi, mais bien Do.

Le cycle des quintes

On a discuté ci-dessus la gamme chromatique comme “réservoir” de notes dont on extrait les gammes. Mais pourquoi diviser l’octave en 12 demi-tons, plutôt que 9 (cf. la gamme pelog), 20 (certaines gammes indiennes) ou, pour les amateurs de science-fiction, 42?

Ce choix peut-être justifié ainsi: on veut certainement inclure dans notre gamme l’intervalle de la quinte juste (rapport $3/2$) car il est le plus harmonique. Malheureusement on ne peut produire cette quinte à l’aide d’une division égale de l’octave car $$\log_2(3/2)=0.5849625007211\dots$$ est un nombre irrationnel: aucune fraction entière de l’octave ne peut le représenter. On peut par contre trouver de bonnes approximations: $7/12=0.58\overline3, 31/53=0.5849057\dots, 86/147=0.58503401\dots$, etc. (voir ci-dessous).

Figure 1: Approximations successives de la quinte juste par des divisions entières de l’octave.

Pour chaque approximation, son erreur produit une “quinte du loup”: par exemple 12 quintes successives tombent $12\log_2(3/2)-7=0.01955\dots$ ($23.46$ cents) plus haut que $7$ octaves. En accordant les $12$ demi-tons d’un instrument, ces $23.46$ cents doivent être répartis d’une manière ou d’une autre entre ces $12$ notes. Si, naturellement, on commence par do et on accorde chaque quinte successive vers le haut (sol, , la,…) et le bas (fa, si♭, mi♭,…) au rapport exact de $3/2$, on termine avec un intervalle fa♯do♯ trop court de $23.46$ cents.

On aurait pu diviser l’octave en 53 parts égales et n’avoir qu’une erreur de 3.615 cents à répartir. La gamme indienne discutée précédemment utilise précisément certains intervalles très proches de la fraction $1/53$ de l’octave (mais tous ne sont pas autorisés). D’un autre côté la gamme pelog est construite sur une division de l’octave en 9 parties qui ne donne qu’une mauvaise approximation de la quinte juste.

L’analyse des gammes

La Figure 1 représente plusieurs gammes de 5 à 8 notes sur le plan $\mathcal{H}-\mathcal{M}$ (harmonicité et mélodicité, voir également McBride (2020)). Le nuage en arrière-plan est un ensemble de gammes contenant en particulier tous les sous-ensembles de 5 à 8 notes parmi les 12 demi-tons ainsi que plus de 8000 choix de fréquences aléatoires.

Figure 1: Classification des gammes par les indices $\mathcal{H}$ et $\mathcal{M}$ (équations ici et : les valeurs les plus petites sont les meilleures).

J’ai mis en évidence au premier plan les gammes suivantes:

On voit que la plupart des gammes traditionnelles sont dans le coin inférieur gauche du graphique, combinant donc une bonne harmonicité et une bonne mélodicité. Toutefois, certaines différences peuvent être relevées: les gammes pentatoniques sont en général plus harmoniques que les heptatoniques. Comme prévu la gamme mineure “mélodique” et plus mélodique que les autres et la mineure “harmonique” est plus harmonique. La gamme par tons est parfaitement mélodique mais peu harmonique, les gammes napolitaines sont très mélodiques, la gamme “pelog” du gamelan indonésien est très anharmonique (c’est adapté à l’instrumentarium, voir Braun (2002) et la gamme “indienne” (un exemple parmi d’autres) est mieux optimisée que les gammes occidentales, grâce à un système d’accordage complexe, cf. Konar (2019).

Cette analyse souffre toutefois d’un défaut: la Figure1 est assez sensible à la tolérance $\epsilon$ de l’indice d’harmonicité. Il était ici fixé à $15$ cents, ce qui exclut la sixte majeure juste des intervalles “atteignables”, mais inclut la tierce majeure juste. La position relative des gammes étudiées peut changer nettement selon que ces deux intervalles (ou d’autres) sont exclus ou pas.

La mélodicité d’une gamme

La composition mélodique exploite fréquemment des relations de symétrie telles que la répétition d’un même motif sous forme inversée ou translatée. Une gamme mélodique doit donc permettre ces transformations. La plus simple des transformations est le décalage d’une octave qui sera sans conséquence sur la mélodie, donc une gamme doit être vue comme un ensemble infini:
$$
\mathcal{S}\,=\,2^\mathbb{Z}\times\{1,\dots,f_{n-1}\}~ .
$$
De plus il est souhaitable de pouvoir construire un motif mélodique similaire à partir de chaque note de la gamme, et de pouvoir l’inverser (remplacer les intervalles montants par l’équivalent descendant). On peut résumer en disant qu’une gamme idéalement symétrique satisfait:
\begin{alignat*}{2}
\mathcal{S}&=\,f_k\cdot\mathcal{S}\qquad&\textit{(transposition)}~,\\
\mathcal{S}&=\,1\bigl/\mathcal{S}\qquad&\textit{(inversion)}~.
\end{alignat*}
On transforme en unités logarithmiques ($\log_2$):
$$
\mathcal{T}\,=\,{0,g_1,\dots,g_{n-1}}+\mathbb{Z}~ ,\quad g_k\,=\,\log_2f_k~,
$$
et l’on voit que pour satisfaire les symétries de transposition et d’inversion, les fréquences logarithmiques $g_k$ doivent être équidistantes, autrement dit $g_k=k/n$ (comme par exemple les demi-tons tempérés pour $n=12$) [Tymoczko (2012), Callender (2008)].

La distinction entre l’ensemble de toutes les notes disponibles (la gamme chromatique) et la gamme particulière (par exemple une gamme diatonique) est importante: la gamme chromatique possède les symétries ci-dessus, ce qui implique que l’on peut, par exemple transposer une gamme dans tous les tons. Mais il est également souhaitable que la gamme diatonique elle-même possède des symétries partielles et ainsi offrir la possibilité de transposer et inverser des motifs à l’intérieur même de la gamme (sans modulation).

Notre indice de mélodicité est donc défini comme l’écart moyen à la distribution équidistante:
$$
\mathcal{M}(f_1,\dots,f_{n-1})\,=\,\frac 1{n-1}
\sum_{k=1}^{n-1}\left|n\log_2(f_k/f_{k-1})-1\right|~ .
$$

L’harmonicité d’une gamme

Pour mesurer l’harmonicité d’une gamme, on considère tous les intervalles qu’elle contient et on prend la somme de leurs dénominateurs (voir dissonance et consonance). On calcule le dénominateur du rapport $f$ ainsi:
$$
\mbox{den}(f)\,=\,\min\left\{d\in\{2,\dots,19\}~:~
\left|\log_2\left(\frac{d\cdot f}{[d\cdot f]}\right)\right|<\epsilon\right\}~,
$$
où $\epsilon$ est la tolérance de l’intonation (la largeur des aires grises dans cette figure): $\mbox{den}(f)$ est le plus petit dénominateur parmi toutes les fractions à une distance au plus $\epsilon$ de $f$.

On peut également définir une ambiguïté de la manière suivante:
$$
w(f)\,=\,\mbox{den}(f)\Bigl/\sum\left\{d\in\{2,\dots,19\}~:~
\left|\log_2\left(\frac{d\cdot f}{[d\cdot f]}\right)\right|<\epsilon\right\}
~,
$$
c’est une valeur entre $0$ et $1$, d’autant plus petite qu’il y a plus de fractions simples dans le voisinage de $f$.

Enfin, l’indice d’harmonicité d’une gamme est calculé comme la moyenne de tous les dénominateurs pondérés par leur ambiguïté:
$$
\mathcal{H}(f_1,\dots,f_{n-1})\,=\,\frac
{\sum_{k=1}^{n-1}w(f_k)\mbox{den}(f_k)}
{\sum_{j=1}^{n-1}w(f_j)}~.
$$
Puisqu’un plus petit dénominateur implique une meilleure consonance, un plus petit indice $\mathcal{H}$ signifie une plus grande consonance de la gamme.

Les gammes et l’intonation

La musique est presque toujours construite en combinant deux principes esthétiques: l’harmonie de notes simultanées dont les fréquences sont reliés par des fractions simples et la mélodie composée de notes successives formant des motifs faciles à mémoriser et à reproduire (par les voix et les instruments). Les symétries de ces motifs jouent un rôle important dans notre capacité à les reproduire. Construire une gamme qui est à la fois harmonique et mélodique est fondamentalement impossible, et les gammes traditionnelles représentent donc différents compromis avec des symétries partielles et des harmonies imparfaites. A chaque style musical son lot de contradictions.

Il faut d’abord préciser qu’il y a deux types de gammes: l’ensemble fixe des notes possibles (en occident: la gamme chromatique) et les nombreux sous-ensembles qui constituent les gammes admissibles (par exemple les gammes majeures dans tous les tons). Ces deux types de gammes sont le résultat de choix plutôt arbitraires (ou de compromis pas forcément conscients), le premier détermine surtout comment on fabrique les instruments et comment on note la musique, tandis que le second dicte les règles de composition musicale.

Toutefois, ces gammes formelles ne déterminent pas entièrement comment on joue la musique. Les chanteurs et la plupart des musiciens (sauf, par exemple, les claviers) peuvent modifier la hauteur de la note pendant qu’ils la jouent: c’est le concept d’intonation, où l’art de décaler légèrement une note vers le haut ou le bas, au moment où on la joue ou la chante, différemment pour chaque note successive. En d’autre termes, une note écrite (ou nommée) définit en réalité un petit intervalle de fréquences, et quelle fréquence exacte sera jouée dépend du contexte harmonique et mélodique, des compétences du musicien, de conventions culturelles, et, finalement, de l’interprétation.

On ne parle pas ici du processus d’accordage de l’instrument, qui consiste à choisir une référence fixe, le diapason, (par exemple la$=440$ [Hz]) et ajuster des parties mobiles de l’instrument pour satisfaire cette convention. Ce choix détermine en théorie les fréquences de toutes les autres notes selon une échelle préétablie (par exemple la gamme chromatique tempérée). Toutes les considérations de cette section sont indépendantes du choix du diapason. Par exemple un diapason la$=415$ [Hz] (utilisé aujourd’hui pour la musique baroque) et la$=465$ [Hz] (apparemment en usage à Venise au XVIIe siècle) sont presque un demi-ton plus bas (resp. plus haut) que $440$ [Hz] (voir cette table), et modifient donc la tonalité perçue (ou le nom des notes), mais ne doivent pas affecter les notions de gamme et d’harmonie et le problème de l’intonation reste le même.

La notation dans la suite de cette section sera comme suit: une gamme est un ensemble fini de fréquences $\{f_0,\dots,f_{n-1}\}$ choisies parmi un ensemble préétabli (par exemple les $12$ demi-tons, d’autres possibilités seront parfois mentionnées). La valeur de $f_0$ est sans conséquence (c’est-à-dire qu’aucune considération future ne doit en dépendre), et nous choisirons donc $f_0=1$: toutes les fréquences sont exprimées en multiples de la tonique que nous appellerons, par convention, do.

La gamme est ordonnée et contenue dans une seule octave: $ 1<f_k<f_\ell<2$ pour $k<\ell\in\{1,\dots,n-1\}$.

Dissonance et consonance

La plupart des personnes (non entraînées) ont des difficultés à déterminer si deux notes jouées successivement sont égales ou légèrement différentes, mais peuvent pourtant reconnaître avec une grande précision lorsque des notes jouées simultanément sont identiques, à l’octave ou dans un rapport fractionnel simple [Oppenheim (2013), LoPresto (2015), McDermott (2010), VanHedger (2018), Jacoby (2019), Loosen (1995)]. Cela provient du fait discuté ci-dessus que les harmoniques coïncident où non, produisant parfois des battements audibles. On peut exprimer cela en disant que lorsque le rapport entre deux fréquences est un nombre rationnel avec un petit dénominateur (comme pour les intervalles diatoniques), la combinaison des ondes est une série harmonique incomplète dont manque, en particulier, la fondamentale.

Les compositeurs classiques ont établi une classification des intervalles du plus consonant au plus dissonant (voir Table 1). On peut schématiser en disant que plus la fondamentale virtuelle est éloignée, plus l’accord est considéré comme dissonant. La Figure 1 montre pour chaque note de la gamme chromatique quelle série harmonique contient à la fois cette note et le do inférieur.

ConsonanceIntervalleFondamentale virtuelle
+++Octave1
++Quinte j.2
(+)Quarte j.3
+Sixte maj.3
+Tierce maj.4
+Tierce min.5
(- -)Quarte aug.5 (18)
+Sixte min.5
Septième min.5
Seconde maj.8
– –Septième maj.8
– –Seconde min.15
Classification des intervalles. On obtient la fréquence de la fondamentale virtuelle en divisant la note la plus grave par le facteur indiqué.
Figure 1: Les intervalles et la série harmonique implicite. L’échelle verticale est en Herz. L’intervalle considéré est toujours entre le do (ligne horizontale rouge à 264 [Hz]) et le symbole plein supérieur. La fondamentale virtuelle est le symbole plein inférieur et sa série harmonique est représentée par les symboles vide de même couleur. L’escalier gris représente la gamme tempérée qui ne coïncide pas exactement avec la gamme harmonique (traits colorés).

Mathématiquement, on considère deux fréquences $\omega_2>\omega_1$ dans un rapport rationnel: $\omega_2/\omega_1 = p/q$ (fraction irréductible). On a donc une fondamentale virtuelle $\omega_0=\omega_1/q$ et on peut voir que la première harmonique commune à ces deux fréquences est $\omega_3=q\omega_2$. On peut donc “entendre” cette résonance entre les deux notes d’autant mieux que $q$ est petit.

On peut étendre ce raisonnement aux accords, tels que triades et tétrades. Par exemple une triade peut être représentée par le triplet $(1, p/q, m/n)$ (on factorise la fréquence de la note basse) et l’harmonique commune sera donc le plus petit entier multiple de $p/q$ et $m/n$, par exemple les trois triades suivantes:

(majeure: $(1,5/4,3/2)$, mineure: $(1,6/5,3/2)$ et augmentée: $(1,5/4,8/5)$) ont des degrés de consonance de, respectivement 10, 4, et 25 (harmonique commune aux trois notes, comptée depuis la quinte).

Des données expérimentales montrent que l’impression subjective de consonance corrèle avec cette mesure, sachant que les tests ont été réalisés sur des assemblages de sons synthétiques (donc des intervalles chromatiques) et que l’accord mineur, par exemple, sonne plus dissonant que le majeur si les tierces ne sont pas “justes” (si elles sont tempérées).

Figure 2: Comparaison entre la sensation de dissonance et la mesure de dissonance harmonique (première harmonique commune compté depuis la note aiguë). A gauche les intervalles (deux notes simultanées), à droite les triades (3 notes). En noir les données de McDermott (2010) (nous avons inversé l’échelle), en rouge (échelle de droite), les données de LoPresto (2015). La mesure harmonique suppose des intervalles justes (de rapports indiqués dans cette Table) alors que les expériences ont probablement été réalisées avec des sons synthétiques tempérés (affectant particulièrement la quarte augmentée et la triade mineure).

La série harmonique

Une onde sonore de hauteur mélodique définie est une fonction périodique du temps $t$, correspondant à un spectre $\{\alpha_n\,:\,n=1,2,\dots\}$ sur une fréquence fondamentale $\omega$:
$$\phi_\omega(t)\,=\,\alpha_0+\sum_{n=1,2,\dots}\alpha_n\cos\bigl(2\pi n\omega (t-\tau_n)\bigr)~.$$
La suite des fréquences apparaissant dans cette formule s’appelle la série harmonique: les fréquences ${\omega, 2\omega, 3\omega, 4\omega, \dots}$ se nomment la fondamentale ($n=1$), la première harmonique ($n=2$), la deuxième harmonique ($n=3$), etc. On peut donc identifier chacune des composantes de l’onde à une note supplémentaire comme dans la Figure 1.

La série harmonique de do. Les nombres au-dessus de la portée sont les écarts par rapport à la note tempérée.

C’est la fondamentale $\omega$ qui donne son nom à la note de musique, par exemple on appellera n’importe quelle onde sonore de fréquence fondamentale $\omega=440$ [Hz] un la, quels que soient les coefficients de la série. Deux notes dont les fondamentales sont dans un rapport de $2$ ($\omega_2=2\cdot\omega_1$) forment une octave et portent le même nom. Ainsi les notes $\omega = 110, 220, 440, 880$ [Hz] sont toutes des la. Remarquez que la série harmonique de la$=880$ [Hz] est entièrement contenue dans la série harmonique de la$=440$ [Hz], de même que pour les harmoniques de n’importe quelle autre note de la série (par exemple mi$=1320$ [Hz] ou do♯$=2200$ [Hz]). Toutefois, ces notes seraient considérées comme “fausses” dans un tempérament égal (qui prescrit mi$=1318.51$ [Hz], do♯$=2217.46$ [Hz]).

Le phénomène des battements

Prenons deux ondes sinusoïdales pures (des fondamentales sans harmoniques) de fréquences $\omega_1 < \omega_2=\omega_1+\delta$. Leur superposition peut s’écrire
\begin{eqnarray}
\phi_{\omega_1}(t)+\phi_{\omega_2}(t)&=&
\alpha\cos(2\pi\omega_1 t)
+\beta\cos(2\pi\omega_2 t+\tau)\nonumber\\
&=&
\Bigl(\alpha^2+\beta^2+2\alpha\beta\cos(2\pi\delta t+\tau)\Bigr)^{1/2}
\cos(2\pi\omega_1 t+\psi(t))~,
\end{eqnarray}
avec un déphasage défini par $\tan(\psi(t))=\frac{\sin(2\pi\delta t+\tau)}
{\alpha/\beta+\cos(2\pi\delta t+\tau)}$.
On obtient donc une note de fréquence $\omega_1$ modulée (en amplitude et en phase) avec une fréquence $\delta$ qui est la différence $\omega_2-\omega_1$ entre les deux fréquences initiales.

Plusieurs cas sont intéressants à considérer:

  • $\omega_2=k\omega_1$. Dans ce cas, la modulation est exactement à la même fréquence qu’une harmonique de l’onde elle-même, le battement n’existe pas.
  • $\frac{\omega_2}{\omega_1}=\frac pq\in\mathbb{Q}$. La fréquence du battement ($\frac{p-q}{q}\omega_1$) et la fréquence fondamentale ($\omega_1$) sont des multiples de $\frac{\omega_1}q$, donc toutes les fréquences font partie d’une même série harmonique: on a une onde périodique.
  • $\frac{\omega_2}{\omega_1}\in\mathbb{R}\setminus\mathbb{Q}$. La fréquence de modulation et la fondamentale sont incommensurables, le résultat est une onde non périodique (ce n’est pas une note identifiable).
  • $\omega_2=\omega_1+\epsilon$. La longueur d’onde de la modulation est $1/\epsilon$ [s]. Si $\epsilon$ est suffisamment petit (de l’ordre de $10$ [Hz]) on entend alors clairement les battements dans l’intensité du son (voir Figure 2 ci-dessous).

Remarquez qu’en pratique on ne peut distinguer un rapport strictement irrationel d’un rapport dont le dénominateur est grand, donc la distinction entre périodique (spectre discret harmonique) et quasi-périodique (spectre discret non harmonique) n’est pas essentielle.

Lorsque les ondes possèdent des harmoniques, on obtient la situation suivante (en notation complexe et sans les déphasages $\tau_n$):
\begin{eqnarray*}
\phi_{\omega_1}(t)+\phi_{\omega_2}(t)&=&
\sum_{n=0,1,2,\dots}\Bigl( \alpha_ne^{2i\pi n\omega_1 t}+\beta_ne^{2i\pi n\omega_2 t} \Bigr)\\
&=&\sum_{m=0}^\infty e^{2i\pi mp\omega_1 t}
\Bigl(\alpha_{mp}+\beta_{mq}+\sum_{n=1}^{p-1}\alpha_{mp+n}e^{2i\pi n\omega_1 t} +\sum_{n=1}^{q-1}\beta_{mq+n}e^{2i\pi n\omega_2 t}\Bigl)
\end{eqnarray*}
Chaque multiple $n\frac pq$ peut être décomposé en partie entière et fractionnelle:
$$
n\frac pq\,=\,\left[n\frac pq\right]+\epsilon_n\,=\, k_n+\frac{\ell_n}q~,
$$
où $0<k_n<p$ et $0<\ell_n<q$ sont des entiers. Donc on peut reformuler la dernière somme ci-dessus comme:
\begin{eqnarray*}
&&\sum_{n=1}^{q-1}\left( \frac{\ell_n}q\beta_{mq+n}e^{2i\pi\frac{\ell_n}q\omega_1 t} e^{2i\pi k_n\omega_1 t} +\frac{q-\ell_n}q\beta_{mq+n}e^{-2i\pi\frac{q-\ell_n}q\omega_1 t} e^{2i\pi(k_n+1)\omega_1 t} \right)\\
&=&\sum_{k=1}^{p-1}\left(\gamma_{mp+k}e^{2i\pi\frac{\ell_{mp+k}}q\omega_1 t} +\gamma_{mp+k}’e^{-2i\pi\frac{\ell_{mp+k}’}q\omega_1 t}\right) e^{2i\pi k\omega_1 t}~, \end{eqnarray*}
où certains coefficients $\gamma_n, \gamma_n’$ et $\ell_n, \ell_n’$ sont nuls. Finalement on trouve:
\begin{eqnarray*}
\phi_{\omega_1}(t)+\phi_{\omega_2}(t)
&=& \sum_{n=0,1,2,\dots}\Bigl( \alpha_n +\gamma_ne^{2i\pi\frac{\ell_n}q\omega_1 t}+\gamma_n’e^{-2i\pi\frac{\ell_n’}q\omega_1 t} \Bigr)e^{2i\pi n\omega_1 t}~. \end{eqnarray*}
Autrement dit chaque harmonique de la note grave est modulée en amplitude et en phase avec des fréquences multiples de $\omega_1/q$. Il existe d’ailleurs toujours certaines harmoniques dont la modulation est exactement à la fréquence $\omega_1/q$.

Figure 1: Superposition d’ondes de fréquences différentes.

La Figure 1 ci-dessus illustre les différents termes de cette décomposition pour trois spectres de fréquences différents (représentés sur la 1ère ligne, les fréquences indiquées au-dessus correspondent à une fondamentale à 440 [Hz]). Sur chaque panneau, la courbe noire représente la somme de deux ondes de même spectre et de fréquence fondamentale 440 [Hz] (la) et 660 [Hz] (mi). Les lignes 2 et 3 montrent les ondes individuelles (en orange le la, plus grave, en rose le mi, plus aigu). Le terme principal est en rouge (4e ligne) avec l’enveloppe de fréquence $660-440=220$ [Hz] en gris. Les termes de hautes fréquences sont en bleu (5e ligne), et la somme des signaux bleu et rouge (6e ligne en violet) est bien égale à la courbe noire qui est la somme des deux ondes individuelles. La même décomposition s’applique à la superposition de deux notes proches (un la à 440 [Hz] et un la “désaccordé” à 448 [Hz], Figure 2). On observe alors un battement à 8 [Hz].

Figure2: Deux notes très proches (différence $8$ [Hz]) produisent des battements identifiables à l’oreille. Les courbes correspondent à la colonne 2 de la Figure 1 (même spectre). L’axe horizontal couvre $1/4$ de secondes soit $2$ battements à $8$ [Hz].

Comme illustration pratique, remarquez que l’on peut déduire l’écart en cents entre deux notes en écoutant la fréquence des battements qu’elles produisent. Par exemple deux notes à $440$ [Hz] et $442$ [Hz] (7.85 cents d’écart) produisent des battements de 5 dixièmes de secondes.

Figure 3: Pour quatre la à quatre octaves différentes et une note simultanée à $\epsilon$ cents d’écart (axe horizontal), on représente la fréquence de battement en dixièmes de secondes (axe vertical).

Vous pouvez écouter les sons représentés dans la Figure 1 (2ème colonne, la 440 Hz et mi 660 Hz) et dans la Figure 2 (mélange 440 Hz et 448 Hz) ci-dessous:

la 440 Hz et mi 660 Hz (voir Figure 1).
la 440 Hz combiné à la 448 Hz (voir Figure 2).