L’approche centrée sur les langues

Note critique de

Jean-François Lepage
Interprétation et présentation des données linguistiques du recensement. Série thématique sur l’ethnicité, la langue et l’immigration
Ottawa, Statistique Canada, 2020, 42 pages

L’essentiel de cette publication porte sur un distinguo qu’il conviendrait de faire à propos des données statistiques concernant les langues dans les recensements canadiens. Selon M. Jean-François Lepage, analyste principal au Centre de la statistique ethnoculturelle, langue et immigration (CSELI) à Statistique Canada, il y aurait « deux grandes approches » – ou « deux perspectives » – dans le traitement des données. « La première est centrée sur les groupes linguistiques alors que la seconde est centrée sur les langues elles-mêmes » (p. 5)1.

« L’approche centrée sur les groupes linguistiques pourrait être qualifiée, dit-il, d’approche “classique” ». Au Canada, elle classe généralement la population en trois groupes : les francophones, les anglophones et une catégorie résiduelle regroupant toutes les langues tierces (allophones). Par contre, l’« approche centrée sur les langues […] pourrait être qualifiée, ajoute-t-il, d’approche “émergente” » (p. 5) afin de « rendre compte de la richesse, de la complexité et de la diversité des comportements et des situations linguistiques » (p. 5-6).

Admettons d’emblée ce distinguo, car les termes « approche » et « perspective » renvoient à la « manière d’aborder une question, un problème2 », ou à l’« aspect sous lequel on envisage quelque chose3 ». Les projections démolinguistiques illustrent bien la première approche (Termote, 2011), tandis qu’un collectif sur Les langues autochtones du Québec est un bon exemple de la seconde (Maurais, 1992).

Ainsi présentées en introduction, ces deux approches sont développées dans plus de quarante paragraphes (p. 11-23).

L’approche centrée sur les groupes linguistiques

En approfondissant la première approche, l’auteur se dit embarrassé par deux caractéristiques des données linguistiques dans les recensements. D’une part, comme certaines personnes donnent deux ou trois réponses, les compilations incluent quatre catégories de « réponses multiples » : « le français et l’anglais », « le français et une langue tierce », « l’anglais et une langue tierce » ainsi que « le français, l’anglais et une langue tierce ».

D’autre part, en ce qui a trait aux langues parlées à la maison et à celles utilisées au travail, deux questions – appelées « volets » – sont posées depuis le recensement de 2001. Les questions portant sur les langues parlées à la maison se lisaient ainsi en 2016 (p. 31) :

« 8a) Quelle langue cette personne parle-t-elle le plus souvent » ;

« 8b) Cette personne parle-t-elle régulièrement d’autres langues ? ».

Remarquons que ces embarras sont communs aux deux perspectives, car les données proviennent des mêmes sources.

Quant aux réponses multiples, voici quatre types de traitements :

  • retenir tel quel les quatre groupes recensés (OQLF, 2005, 94, 96) ;
  • les concaténer en deux groupes (Paillé, 2008 ; Lavoie, 2019) ;
  • les rassembler en un seul groupe (Paillé, 2010) ;
  • les répartir également entre trois groupes (français, anglais, autres) (Termote, 133).

Reste l’embarras des questions en deux volets.

Aux dires de l’auteur, devoir composer avec des questions à deux volets, rendrait le traitement des données « plus complexe » (p. 16, 20, 25). Dans une telle situation, la voie royale est pourtant celle des « tableaux croisés » (OQLF, 2005, p. 18-23). Bien que M. Lepage présente le croisement des deux volets sur les langues parlées à la maison (Tableau 9, p. 16), il n’en fait aucune description. Pourtant, l’essentiel ne tiendrait que dans ces alinéas :

  • en 2016, moins de 15 % des personnes recensées au Canada faisaient usage à la maison d’au moins une autre langue sur une base régulière ;
  • au sein des foyers où l’on s’exprimait le plus souvent en français, 9 % des résidents faisaient également usage de l’anglais régulièrement ;
  • par contre, seulement 2,6 % des répondants de foyers anglophones parlaient aussi le français de manière régulière ;
  • parmi les 45 % de résidents du Canada qui parlaient le plus souvent une langue tierce au foyer, l’anglais dominait largement le français comme langue parlée régulièrement (37 % contre 4 %, soit plus de 9 contre 1)4.

À propos de la seconde approche, nous pouvons lire qu’il n’y aurait « aucune nécessité que les groupes d’intérêt soient définis de façon mutuellement exclusive » (p. 18), car il y aurait rupture « avec le caractère mutuellement exclusif des groupes linguistiques propre à la démolinguistique » (p. 17).

Étonnantes affirmations.

Puisque les deux approches ne sont que des manières de faire ou des angles d’analyse, il s’ensuit que toutes répartitions en pourcentages doivent mener à des totaux égaux à 100 ٪. La démographie et ses spécialités font naturellement usage de cette règle élémentaire de la statistique. Il est d’ailleurs dans l’intérêt de toutes les disciplines en sciences exactes, en sciences sociales, en sciences humaines, etc., d’appliquer ce b.a.-ba de la statistique descriptive pour éviter toute ambiguïté.

Très rares sont les situations où des données sont regroupées dans des classes se recoupant. En matière linguistique, notons l’exception de la connaissance des langues tierces. Comme on demande aux répondants de mentionner « [toute(s)] langue(s) autre(s) que le français ou l’anglais » (Statistique Canada, 2015, question 16), il faudrait, pour épuiser toutes les situations possibles, « multiplier les catégories de réponses multiples de façon exponentielle » écrit fort à propos M. Lepage (p. 15).

Ainsi, les données sur la connaissance des langues tierces ne s’additionnent pas. Par exemple, la somme des personnes connaissant l’espagnol à celles affirmant connaitre l’italien aurait pour effet de compter deux fois les personnes qui connaissent ces deux langues. Annoncer, comme le fait M. Lepage, que les langues seront classées dans des groupes « non mutuellement exclusifs » est une manière prosaïque de dire que des données seront comptées plus d’une fois. Il importe alors d’identifier et de justifier ce type de classements des données.

À cet égard, M. Jean-François Lepage affirme que « [p]our bien prendre la mesure de la présence d’une langue, il est souvent préférable de tenir compte de toutes les mentions de la langue en question » (p. 18). Or, pour compter « toutes les mentions », il propose d’effectuer deux séries d’additions inadmissibles en statistique.

Bien que l’auteur admette que « la langue principale devrait avoir un poids supérieur à celui de la langue secondaire » (p. 28), il suggère tout de même d’additionner tous les effectifs « où il est fait mention du français pour l’un ou l’autre des deux volets » (p. 20), et d’ » ajouter toutes les réponses multiples incluant le français au groupe de langue [unique] française [et] procéder de façon analogue avec les réponses multiples incluant l’anglais et les langues tierces » (p. 14). Ainsi, les réponses multiples sont doublées ou triplées.

Conséquent avec lui-même, M. Lepage précise que l’on ne devrait pas s’étonner de trouver un résultat qui « excède le total de la population » (p. 14), soit plus de 100 % en pourcentages.

Des sommes d’occurrences

Mais où mènent toutes ces additions ?

Lors d’un examen antérieur portant sur la langue de travail (Paillé, 2019), nous avons identifié des « sommes d’occurrences » pour les termes « français », « anglais » et « autres langues » en réponses aux deux volets (question 45). Or, les sommes d’occurrences sont réputées très rudimentaires (Paillé, 2019, 221).

Dans de telles sommes, toutes les mentions prennent la même importance, car toutes les hiérarchies disparaissent. Ainsi, les langues utilisées régulièrement deviennent aussi importantes que celles utilisées le plus souvent. Quant aux réponses multiples, elles prennent ipso facto plus d’importance puisqu’elles sont au moins doublées5.

Afin d’illustrer de manière concrète et didactique les opérations effectuées par M. Lepage, nous avons construit le Tableau 1 à partir de données tirées de son étude. La population canadienne comptait en 2016 près de 35 millions de personnes. Or, à la Section A du tableau, on peut remarquer qu’il y a eu près de 40 millions de mentions linguistiques en réponses aux deux questions posées. Ainsi, le nombre de mentions dépasse de 15 % la population recensée.

Quant à la Section B, elle pousse le nombre de mentions à plus de 41,7 millions après avoir doublé ou triplé les réponses multiples. Au total, la somme des mentions dépassent de 20 % la population canadienne recensée6. Nos résultats sont confirmés par la somme des occurrences des tableaux 19 à 22 de cette publication : l’addition de 74,5 % (anglais), de 23,5 % (français), de 0,7 % (langues autochtones) et de 21,0 % (« langues immigrantes ») donne bien, après arrondissement, 120 %.

En somme, la deuxième approche de M. Jean-François Lepage se limite à des sommes d’occurrences. Des sommes du même type ont conduit Statistique Canada à voir une stabilisation de l’usage du français au travail au Québec entre 2006 et 2016. Il s’est avéré que la « stabilité » fut plutôt celle « du nombre des occurrences relativement à la population active » (Paillé, 2019, 222) alors que l’importance du français montrait un recul de son usage de 82,0 ٪ à 79,7 ٪ (Ibid., 216).

Le CSELI fait cavalier seul

Depuis la publication de Marmen et Corbeil (2004) où l’on trouve des sommes d’occurrences7, il semble que le CSELI ait fait cavalier seul. Car nous n’avons trouvé nulle part des sommes d’occurrences liées, par exemple, aux citoyennetés multiples.

Par-delà STATCAN, le Québec n’a pas adopté les façons de faire de l’organisme fédéral. En témoignent, des compilations touchant les naissances et les décès selon la langue des parturientes ou des personnes décédées. Bien que les sources contiennent les mêmes catégories de réponses multiples que dans les recensements du Canada, naissances et décès n’ont jamais été comptés plus d’une fois, notamment par l’OQLF (2005, 76-84). En somme, l’approche « émergente » n’aurait émergé qu’au CSELI.

Reste la motivation de M. Jean-François Lepage : l’approche émergente – c’est-à-dire la somme des occurrences – serait mieux « adaptée à l’étude des langues autochtones ou immigrantes » (p. 29) que l’approche classique. Est-ce à dire que nos instruments de mesure doivent changer avec l’évolution de la conjoncture, notamment l’accroissement de l’immigration et sa diversification ?

Notre réponse est catégorique : JAMAIS. Négligés dans cette publication, les tableaux croisés ne sont pas plus obsolètes en statistique que, par exemple, le calcul de l’espérance de vie en démographie. Ni les épidémiologistes ni les démographes n’ont à « s’adapter » de nos jours à la pandémie de COVID 19 par exemple. Pour « rendre compte de la richesse, de la complexité et de la diversité » linguistique – comme nous disions en introduction dans les mots de M. Lepage –, les concepts, les normes, les règles, les paramètres de la statistique sont suffisants.

Références bibliographiques

Lavoie, Émilie (2019). Langues utilisées au travail (2001-2016), Québec, OQLF.

Marmen, Louise et Jean-Pierre Corbeil (2004), Nouvelles perspectives canadiennes. Les langues au Canada. Recensement de 2001, Ottawa, Patrimoine canadien, Statistique Canada.

Maurais, Jacques, (dir.) (1992). Les langues autochtones du Québec, Québec, Conseil de la langue française.

Office québécois de la langue française (OQLF) (2005). Les caractéristiques linguistiques de la population du Québec : profil et tendances, Montréal.

Paillé, Michel (2008). Les réponses multiples aux questions sur les langues maternelles et d’usage dans la population québécoise, Montréal, OQLF.

Paillé, Michel (2010). « Canada’s Official Languages In the Provinces of Québec and Ontario: A Demographic Comparison », dans : Michael A. Morris, ed., Canadian Language Policies in Comparative Perspective, Montréal et Kingston, McGill-Queen’s University Press, 297-325.

Paillé, Michel (2019). « La langue de travail au Québec en 2006 et 2016. Examen critique du traitement des données de recensements par Statistique Canada », Cahiers québécois de démographie, 48-2, 213-228, 233-234.

Statistique Canada (2015). « Questions du Recensement de la population de 2016, questionnaire détaillé (Enquête nationale auprès des ménages) », Ottawa, [En ligne le 6 juillet 2021] https: //www12.statcan.gc.ca/nhs-enm/2016/ref/questionnaires/questions-fra.cfm

Statistique Canada (2017). « Le travail au Canada : faits saillants du Recensement de 2016 », Le Quotidien, 29 novembre.

Termote, Marc (2011). Perspectives démolinguistiques du Québec et de la région de Montréal, 2006-2056, Montréal, OQLF.


1 Les parenthèses de ce type renvoient à la pagination de l’ouvrage commenté.

4 Après répartition égale des réponses multiples, la domination de l’anglais diminue à 32 % contre 4 % (ou 8 contre 1).

5 Elles passent de 1 741 à 3 552 (Tableau 1).

6 Ce pourcentage varie grandement entre les provinces et les territoires. Il va de de 102 % pour Terre-Neuve-et-Labrador à 153 % pour le Nunavut.

7 Voir les tableaux pages 12, 21, 28, 37, 49, 56, 123, 125, 127 et 130 (version française).

* Démographe, l’auteur a fait carrière dans deux organismes de la Loi 101 (1980-2004). Il a auparavant enseigné les statistiques en sociologie (Bishop’s University, 1977-1980).

** L’auteur remercie pour leurs commentaires et leurs suggestions, l’ancien directeur des Cahiers québécois de démographie, M. Yves Carrière, ainsi que trois évaluateurs d’un texte portant sur le même sujet (Paillé, 2019). Il demeure seul responsable du présent texte.

Tableau 1 – Calcul des sommes d’occurrences, langue parlée à la maison, Canada, 2016 (en milliers)

Langue parlée à la maison

Section A (les volets)

Section B (les occurrences)

Volet 1

Volet 2

Somme des volets

Anglais

Français

Autres

Somme des occurrences

Anglais (A)

22 163

2 406

24 569

24 569

24 569

Français (F)

6 944

863

7 807

7 807

7 807

Autres (T)

3 997

1 806

5 803

5 803

5 803

A+F

160

17

177

177

177

355

A+T

1 285

45

1 330

1 330

1 330

2 661

F+T

149

13

162

162

162

324

A+F+T

69

1

71

71

71

71

212

Total

34 767

5 152

39 919

26 148

8 217

7 366

41 730

 ٪a

100 ٪

15 ٪

115 ٪

75 ٪

24 ٪

21 ٪

120 ٪

a : Calculés sur la population recensée, soit 34 787 000.

Source : Jean-François Lepage, 2020, tableau 9, p. 16.

Récemment publié