Home :: Sacha Chua

Org Mode: Export HTML, copy files, and serve the results via simple-httpd so that media files work

Mar 14, 2026| emacs, org

In Org Mode, when you use "Export to HTML - As HTML file and open", the resulting HTML file is loaded using a file:// URL. This means you can't load any media files. In my post about pronunciation practice, I wanted to test the playback without waiting for my 11ty-based static site generator to churn through the files.

simple-httpd lets you run a web server from Emacs. By default, the httpd-root is ~/public_html and httpd-port is 8085, but you can configure it to be somewhere else. Here I set it up to create a new temporary directory, and to delete that directory afterwards.

(use-package simple-httpd
  :config
  (setq httpd-root (make-temp-file "httpd" t))
  :hook
  (httpd-stop . my-simple-httpd-remove-temporary-root)
  (kill-emacs . httpd-stop))

(defun my-simple-httpd-remove-temporary-root ()
  "Remove `httpd-root' only if it's a temporary directory."
  (when (file-in-directory-p httpd-root temporary-file-directory)
    (delete-directory httpd-root t)))

The following code exports your Org buffer or subtree to a file in that directory, copies all the referenced local files (if they're newer) and updates the links in the HTML, and then serves it via simple-httpd. Note that it just overwrites everything without confirmation, so if you refer to files with the same name, only the last one will be kept.

(with-eval-after-load 'ox
  (org-export-define-derived-backend 'my-html-served 'html
    :menu-entry
    '(?s "Export to HTML and Serve"
         ((?b "Buffer"  my-org-serve--buffer)
          (?s "Subtree" my-org-serve--subtree)))))

(defun my-org-serve--buffer (&optional async _subtreep visible-only body-only ext-plist)
  (my-org-export-and-serve nil))

(defun my-org-serve--subtree (&optional async _subtreep visible-only body-only ext-plist)
  (my-org-export-and-serve t))

;; Based on org-11ty--copy-files-and-replace-links
;; Might be a good idea to use something DOM-based instead
(defun my-html-copy-files-and-replace-links (info &optional destination-dir)
  (let ((file-regexp "\\(?:src\\|href\\|poster\\)=\"\\(\\(file:\\)?.*?\\)\"")
        (destination-dir (or destination-dir (file-name-directory (plist-get info :file-path))))
        file-all-urls file-name beg
        new-file file-re
        unescaped)
    (unless (file-directory-p destination-dir)
      (make-directory destination-dir t))
    (unless (file-directory-p destination-dir)
      (error "%s is not a directory." destination-dir))
    (save-excursion
      (goto-char (point-min))
      (while (re-search-forward file-regexp nil t)
        (setq file-name (or (match-string 1) (match-string 2)))
        (unless (or (string-match "^#" file-name)
                    (get-text-property 0 'changed file-name))
          (setq file-name
                (replace-regexp-in-string
                 "\\?.+" ""
                 (save-match-data (if (string-match "^file:" file-name)
                                      (substring file-name 7)
                                    file-name))))
          (setq unescaped
                (replace-regexp-in-string
                 "%23" "#"
                 file-name))
          (setq new-file (concat
                          (if info (plist-get info :permalink) "")
                          (file-name-nondirectory unescaped)))
          (unless (org-url-p file-name)
            (let ((new-file-name (expand-file-name (file-name-nondirectory unescaped)
                                                   destination-dir)))
              (condition-case err
                  (when (or (not (file-exists-p new-file-name))
                            (file-newer-than-file-p unescaped new-file-name))
                    (copy-file unescaped new-file-name t))
                (error nil))
              (when (file-exists-p new-file-name)
                (save-excursion
                  (goto-char (point-min))
                  (setq file-re (concat "\\(?: src=\"\\| href=\"\\| poster=\"\\)\\(\\(?:file://\\)?" (regexp-quote file-name) "\\)"))
                  (while (re-search-forward file-re nil t)
                    (replace-match
                     (propertize
                      (save-match-data (replace-regexp-in-string "#" "%23" new-file))
                      'changed t)
                     t t nil 1)))))))))))

(defun my-org-export-and-serve (&optional subtreep)
  "Export current org buffer (or subtree if SUBTREEP) to HTML and serve via simple-httpd."
  (interactive "P")
  (require 'simple-httpd)
  (httpd-stop)
  (unless httpd-root (error "Set `httpd-root'."))
  (unless (file-directory-p httpd-root)
    (make-directory httpd-root t))
  (unless (file-directory-p httpd-root)
    (error "%s is not a directory." httpd-root))
  (let* ((out-file (expand-file-name (concat (file-name-base (buffer-file-name)) ".html")
                                     httpd-root))
         (html-file (org-export-to-file 'my-html-served out-file nil subtreep)))
    ;; Copy all the files and rewrite all the links
    (with-temp-file out-file
      (insert-file-contents out-file)
      (my-html-copy-files-and-replace-links
       `(:permalink "/") httpd-root))
    (httpd-start)
    (browse-url (format "http://localhost:%d/%s"
                        httpd-port
                        (file-name-nondirectory html-file)))))

Now I can use C-c C-e (org-export-dispatch), select the subtree with C-s, and use s s to export a subtree to a webserver and have all the media files work. This took 0.46 seconds for my post on pronunciation practice and automatically opens the page in a browser window. In comparison, my 11ty static site generator took 5.18 seconds for a subset of my site (1630 files copied, 214 files generated), and I haven't yet hooked up monitoring it to Emacs, so I have to take an extra step to open the page in the browser when I think it's finished. I think exporting to HTML and serving it with simple-httpd will be much easier for simple cases like this, and then I can export to 11ty once I'm done with the basic checks.

This is part of my Emacs configuration.

View Org source for this post

You can e-mail me at sacha@sachachua.com.

Comparing pronunciation recordings across time

Posted: Mar 12, 2026 - Modified: Mar 14, 2026| french, emacs, org, subed

[2026-03-15 Sun]: Added reference audio for the second set.
[2026-03-14 Sat]: I added pronunciation segments for the new set of tongue-twisters I got on Mar 13.
[2026-03-12 Thu]: I added a column for Feb 20, the first session with the sentences. I also added keyboard shortcuts (1..n) for playing the audio of the row that the mouse is on.

2026-02-20: First set: Maman peint un grand lapin blanc, etc.

My French tutor gave me a list of sentences to help me practise pronunciation.

I can fuzzy-match these with the word timing JSON from WhisperX, like this.

Extract all approximately matching phrases

(subed-record-extract-all-approximately-matching-phrases
   sentences
   "/home/sacha/sync/recordings/2026-02-20-raphael.json"
   "/home/sacha/proj/french/analysis/virelangues/2026-02-20-raphael-script.vtt")

Sentences

Maman peint un grand lapin blanc.
Un enfant intelligent mange lentement.
Le roi croit voir trois noix.
Le témoin voit le chemin loin.
Moins de foin au loin ce matin.
La laine beige sèche près du collège.
La croquette sèche dans l'assiette.
Elle mène son frère à l'hôtel.
Le verre vert est très clair.
Elle aimait manger et rêver.
Le jeu bleu me plaît peu.
Ce neveu veut un jeu.
Le feu bleu est dangereux.
Le beurre fond dans le cœur chaud.
Les fleurs de ma sœur sentent bon.
Le hibou sait où il va.
L'homme fort mord la pomme.
Le sombre col tombe.
L'auto saute au trottoir chaud.
Le château d'en haut est beau.
Le cœur seul pleure doucement.
Tu es sûr du futur ?
Trois très grands trains traversent trois trop grandes rues.
Je veux deux feux bleus, mais la reine préfère la laine beige.
Vincent prend un bain en chantant lentement.
La mule sûre court plus vite que le loup fou.
Luc a bu du jus sous le pont où coule la boue.
Le frère de Robert prépare un rare rôti rouge.
La mule court autour du mur où hurle le loup.

Then I can use subed-record to manually tweak them, add notes, and so on. I end up with VTT files like 2026-03-06-raphael-script.vtt. I can assemble the snippets for a session into a single audio file, like this:

I wanted to compare my attempts over time, so I wrote some code to use Org Mode and subed-record to build a table with little audio players that I can use both within Emacs and in the exported HTML. This collects just the last attempts for each sentence during a number of my sessions (both with the tutor and on my own). The score is from the Microsoft Azure pronunciation assessment service. I'm not entirely sure about its validity yet, but I thought I'd add it for fun. * indicates where I've added some notes from my tutor, which should be available as a title attribute on hover. (Someday I'll figure out a mobile-friendly way to do that.)

Calling it with my sentences and files

(my-lang-summarize-segments
 sentences
 '(("/home/sacha/proj/french/analysis/virelangues/2026-02-20-raphael-script.vtt" . "Feb 20")
 ;("~/sync/recordings/processed/2026-02-20-raphael-tongue-twisters.vtt" . "Feb 20")
        ("~/sync/recordings/processed/2026-02-22-virelangues-single.vtt" . "Feb 22")
        ("~/proj/french/recordings/2026-02-26-virelangues-script.vtt" . "Feb 26")
        ("~/proj/french/recordings/2026-02-27-virelangues-script.vtt" . "Feb 27")
        ("~/proj/french/recordings/2026-03-03-virelangues.vtt" . "Mar 3")
        ("/home/sacha/sync/recordings/processed/2026-03-03-raphael-reference-script.vtt" . "Mar 3")
        ("~/proj/french/analysis/virelangues/2026-03-06-raphael-script.vtt" . "Mar 6")
        ("~/proj/french/analysis/virelangues/2026-03-12-virelangues-script.vtt" . "Mar 12"))
 "clip"
 #'my-lang-subed-record-get-last-attempt
 #'my-lang-subed-record-cell-info
 t
 )

Feb 20	Feb 22	Feb 26	Feb 27	Mar 3	Mar 3	Mar 6	Mar 12	Text
▶️ 63*	▶️ 96	▶️ 95	▶️ 94	▶️ 83	▶️ 83*	▶️ 81*	▶️ 88	Maman peint un grand lapin blanc.
▶️ 88*	▶️ 95	▶️ 99	▶️ 99	▶️ 96	▶️ 89*	▶️ 92*	▶️ 83	Un enfant intelligent mange lentement.
▶️ 84*	▶️ 97	▶️ 97	▶️ 96	▶️ 94	▶️ 95*	▶️ 98*	▶️ 99	Le roi croit voir trois noix.
▶️ 80*	▶️ 85	▶️ 77	▶️ 94	▶️ 97		▶️ 92*	▶️ 88	Le témoin voit le chemin loin.
▶️ 72*	▶️ 97	▶️ 95	▶️ 77	▶️ 92		▶️ 89*	▶️ 86	Moins de foin au loin ce matin.
▶️ 79*	▶️ 95	▶️ 76	▶️ 95	▶️ 76	▶️ 90*	▶️ 90*	▶️ 79	La laine beige sèche près du collège.
▶️ 67*	▶️ 99	▶️ 85	▶️ 81	▶️ 85	▶️ 99*	▶️ 97*	▶️ 97	La croquette sèche dans l'assiette.
▶️ 88*	▶️ 99	▶️ 100	▶️ 100	▶️ 98	▶️ 100*	▶️ 99*	▶️ 100	Elle mène son frère à l'hôtel.
▶️ 77*	▶️ 87	▶️ 99	▶️ 93	▶️ 87		▶️ 87*	▶️ 99	Le verre vert est très clair.
▶️ 100*	▶️ 94	▶️ 100	▶️ 99	▶️ 99	▶️ 99*	▶️ 100*	▶️ 100	Elle aimait manger et rêver.
▶️ 78*	▶️ 98	▶️ 99	▶️ 98	▶️ 98	▶️ 92*		▶️ 88	Le jeu bleu me plaît peu.
▶️ 78*	▶️ 97	▶️ 85	▶️ 95	▶️ 85			▶️ 85	Ce neveu veut un jeu.
▶️ 73*	▶️ 95	▶️ 95	▶️ 96	▶️ 97			▶️ 100	Le feu bleu est dangereux.
▶️ 87*	▶️ 76	▶️ 65	▶️ 97	▶️ 85	▶️ 74*	▶️ 85*	▶️ 96	Le beurre fond dans le cœur chaud.
▶️ 84*	▶️ 43	▶️ 85	▶️ 79	▶️ 75			▶️ 98	Les fleurs de ma sœur sentent bon.
▶️ 70*	▶️ 86	▶️ 79	▶️ 76	▶️ 87	▶️ 84		▶️ 98	Le hibou sait où il va.
▶️ 92*	▶️ 95	▶️ 86	▶️ 92	▶️ 98	▶️ 99*		▶️ 94	L'homme fort mord la pomme.
▶️ 83*	▶️ 73	▶️ 69	▶️ 81	▶️ 60	▶️ 96*		▶️ 81	Le sombre col tombe.
▶️ 39*	▶️ 49	▶️ 69	▶️ 56	▶️ 69	▶️ 96*		▶️ 94	L'auto saute au trottoir chaud.
▶️ 82	▶️ 84	▶️ 85	▶️ 98	▶️ 94	▶️ 96*		▶️ 99	Le château d'en haut est beau.
▶️ 89	▶️ 85	▶️ 75	▶️ 91	▶️ 52	▶️ 75*	▶️ 70*	▶️ 98	Le cœur seul pleure doucement.
▶️ 98*		▶️ 99	▶️ 99	▶️ 95	▶️ 93*	▶️ 97*	▶️ 99	Tu es sûr du futur ?
		▶️ 97	▶️ 93	▶️ 92	▶️ 85*		▶️ 90	Trois très grands trains traversent trois trop grandes rues.
		▶️ 94	▶️ 85	▶️ 97	▶️ 82*		▶️ 92	Je veux deux feux bleus, mais la reine préfère la laine beige.
		▶️ 91	▶️ 79	▶️ 87	▶️ 82*		▶️ 94	Vincent prend un bain en chantant lentement.
		▶️ 89	▶️ 91	▶️ 91	▶️ 84*		▶️ 92	La mule sûre court plus vite que le loup fou.
		▶️ 91	▶️ 93	▶️ 93	▶️ 92*		▶️ 96	Luc a bu du jus sous le pont où coule la boue.
		▶️ 88	▶️ 71	▶️ 94	▶️ 86*		▶️ 92	Le frère de Robert prépare un rare rôti rouge.
		▶️ 81	▶️ 84	▶️ 88	▶️ 67*		▶️ 94	La mule court autour du mur où hurle le loup.

Pronunciation still feels a bit hit or miss. Sometimes I say a sentence and my tutor says "Oui," and then I say it again and he says "Non, non…" The /ʁ/ and /y/ sounds are hard.

I like seeing these compact links in an Org Mode table and being able to play them, thanks to my custom audio link type. It should be pretty easy to write a function that lets me use a keyboard shortcut to play the audio (maybe using the keys 1-9?) so that I can bounce between them for comparison.

If I screen-share from Google Chrome, I can share the tab with audio, so my tutor can listen to things at the same time. Could be fun to compare attempts so that I can try to hear the differences better. Hmm, actually, let's try adding keyboard shortcuts that let me use 1-8, n/p, and f/b to navigate and play audio. Mwahahaha! It works!

2026-03-14: Second set: Mon oncle peint un grand pont blanc, etc.

Update 2026-03-14: My tutor gave me a new set of tongue-twisters. When I'm working on my own, I find it helpful to loop over an audio reference with a bit of silence after it so that I can repeat what I've heard. I have several choices for reference audio:

I can generate an audio file using text-to-speech, like a local instance of Kokoro TTS, or a hosted service like Google Translate (via gtts-cli), ElevenLabs, or Microsoft Azure.
I can extract a recording of my tutor from one of my sessions.
I can extract a recording of myself from one of my tutoring sessions where my tutor said that the pronunciation is alright.

Here I stumble through the tongue-twisters. I've included reference audio from Kokoro, gtts, and ElevenLabs for comparison.

(my-subed-record-analyze-file-with-azure
 (subed-record-keep-last
  (subed-record-filter-skips
   (subed-parse-file
    "/home/sacha/proj/french/analysis/virelangues/2026-03-13-raphael-script.vtt")))
 "~/proj/french/analysis/virelangues-2026-03-13/2026-03-13-clip")

Kk	Gt	Az	Me	ID	Comments	All	Acc	Flu	Comp	Conf
👂🏼	👂🏼	👂🏼	▶️	1	X: pont	93	99	90	100	86	Mon oncle peint un grand pont blanc. {pont}
👂🏼	👂🏼	👂🏼	▶️	2	C'est mieux	68	75	80	62	87	Un singe malin prend un bon raisin rond.
👂🏼	👂🏼	👂🏼	▶️	3	Ouais, c'est ça	83	94	78	91	89	Dans le vent du matin, mon chien sent un bon parfum.
👂🏼	👂🏼	👂🏼	▶️	4	ok	75	86	63	100	89	Le soin du roi consiste à joindre chaque coin du royaume.
👂🏼	👂🏼	👂🏼	▶️	5	Ouais, c'est ça, parfait	83	94	74	100	88	Dans un coin du bois, le roi voit trois points noirs.
👂🏼	👂🏼	👂🏼	▶️	6	Ouais, parfait	90	92	87	100	86	Le feu de ce vieux four chauffe peu.
👂🏼	👂🏼	👂🏼	▶️	7	Ouais	77	85	88	71	86	Deux peureux veulent un peu de feu.
👂🏼	👂🏼	👂🏼	▶️	8		77	78	75	83	85	Deux vieux bœufs veulent du beurre.
👂🏼	👂🏼	👂🏼	▶️	9	Ouais, parfait	92	94	89	100	89	Elle aimait marcher près de la rivière.
👂🏼	👂🏼	👂🏼	▶️	10	Ok, c'est bien	93	98	89	100	90	Je vais essayer de réparer la fenêtre.
👂🏼	👂🏼	👂🏼	▶️	11	Okay	83	87	76	100	89	Le bébé préfère le lait frais.
👂🏼	👂🏼	👂🏼	▶️	12		77	92	70	86	90	Charlotte cherche ses chaussures dans la chambre.
👂🏼	👂🏼	👂🏼	▶️	13	Okay	91	90	94	91	88	Un chasseur sachant chasser sans son chien est-il un bon chasseur ?
👂🏼	👂🏼	👂🏼	▶️	14	Ouais	91	88	92	100	91	Le journaliste voyage en janvier au Japon.
👂🏼	👂🏼	👂🏼	▶️	15	C'est bien (X: dans un)	91	88	94	100	88	Georges joue du jazz dans un grand bar. {dans un}
👂🏼	👂🏼	👂🏼	▶️	16	C'est bien	88	87	94	88	85	Un jeune joueur joue dans le grand gymnase.
👂🏼	👂🏼	👂🏼	▶️	17		95	94	96	100	91	Le compagnon du montagnard soigne un agneau.
👂🏼	👂🏼	👂🏼	▶️	18		85	88	84	86	89	La cigogne soigne l’agneau dans la campagne.
👂🏼	👂🏼	👂🏼	▶️	19	grenouille	71	80	68	75	86	La grenouille fouille les feuilles dans la broussaille.

The code

Code for summarizing the segments

(defun my-lang-subed-record-cell-info (item file-index file sub)
  (let* ((sound-file (expand-file-name (format "%s-%s-%d.opus"
                                               prefix
                                               (my-transform-html-slugify item)
                                               (1+ file-index))))
         (score (car (split-string
                      (or
                       (subed-record-get-directive "#+SCORE" (elt sub 4)) "")
                      ";")))
         (note (replace-regexp-in-string
                (concat "^" (regexp-quote (cdr file))
                        "\\(: \\)?")
                ""
                (or (subed-record-get-directive "#+NOTE" (elt sub 4)) ""))))
    (when (or always-create (not (file-exists-p sound-file)))
      (subed-record-extract-audio-for-current-subtitle-to-file sound-file sub))
    (org-link-make-string
     (concat "audio:" sound-file "?icon=t"
             (format "&source=%s&source-start=%s" (car file) (elt sub 1))
             (format "&title=%s"
                     (url-hexify-string
                      (if (string= note "")
                          (cdr file)
                        (concat (cdr file) ": " note)))))
     (concat
      "▶️"
      (if score (format " %s" score) "")
      (if (string= note "") "" "*")))))

(defun my-lang-subed-record-get-last-attempt (item file)
  "Return the last subtitle matching ITEM in FILE."
  (car
   (last
    (seq-remove
     (lambda (o) (string-match "#\\+SKIP" (or (elt o 4) "")))
     (learn-lang-subed-record-collect-matching-subtitles
      item
      (list file)
      nil
      nil
      'my-subed-simplify)))))

(defun my-lang-summarize-segments (items files prefix attempt-fn cell-fn &optional always-create)
  (cons
   (append
    (seq-map 'cdr files)
    (list "Text"))
   (seq-map
    (lambda (item)
      (append
       (seq-map-indexed
        (lambda (file file-index)
          (let* ((sub (funcall attempt-fn item file)))
            (if sub
                (funcall cell-fn item file-index file sub)
              "")))
        files)
       (list item)))
    items)))

(defun my-subed-record-analyze-file-with-azure (subtitles prefix &optional always-create)
  (cons
   '("Kk" "Gt" "Az" "Me" "ID" "Comments" "All" "Acc" "Flu" "Comp" "Conf")
   (seq-map-indexed
    (lambda (sub i)
      (let ((sound-file (expand-file-name (format "%s-%02d.opus"
                                                  prefix
                                                  (1+ i))))
            (tts-services
             '(("kokoro" . learn-lang-tts-kokoro-fastapi-say)
               ("gtts" . learn-lang-tts-gtts-say)
               ("azure" . learn-lang-tts-azure-say)))
            tts-files
            (note (subed-record-get-directive "#+NOTE" (elt sub 4))))
        (when (or always-create (not (file-exists-p sound-file)))
          (subed-record-extract-audio-for-current-subtitle-to-file sound-file sub))
        (setq
         tts-files
         (mapcar
          (lambda (row)
            (let ((reference (format "%s-%s-%02d.opus" prefix (car row) (1+ i) )))
              (when (or always-create (not (file-exists-p reference)))
                (funcall (cdr row)
                         (subed-record-simplify (elt sub 3))
                         'sync
                         reference))
              (org-link-make-string
               (concat "audio:" reference "?icon=t&note=" (url-hexify-string (car row)))
               "👂🏼")))
          tts-services))
        (append
         tts-files
         (list
          (org-link-make-string
           (concat "audio:" sound-file "?icon=t"
                   (format "&source-start=%s" (elt sub 1))
                   (if (and note (not (string= note "")))
                       (format "&title=%s"
                               (url-hexify-string note))
                     ""))
           "▶️")
          (format "%d" (1+ i))
          (or note ""))
         (learn-lang-azure-subed-record-parse (elt sub 4))
         (list
          (elt sub 3)))))
    subtitles)))

Some code for doing this stuff is in sachac/learn-lang on Codeberg.

View Org source for this post

You can e-mail me at sacha@sachachua.com.

Small steps towards using OpenAI-compatible text-to-speech services with speechd-el or emacspeak

Mar 12, 2026| emacs

Speech synthesis has come a long way since I first tried out Emacspeak in 2002. Kokoro TTS and Piper offer more natural-sounding voices now, although the initial delay in loading the models and generating speech mean that they aren't quite ready to completely replace espeak, which is faster but more robotic. I've been using the Kokoro FastAPI through my own functions for working with various speech systems. I wanted to see if I could get Kokoro and other OpenAI-compatible text-to-speech services to work with either speechd-el or Emacspeak just in case I could take advantage of the rich functionality either provides for speech-synthesized Emacs use. speechd-el is easier to layer on top of an existing Emacs if you only want occasional speech, while emacspeak voice-enables many packages to an extent beyond speaking simply what's on the screen.

Speech synthesis is particularly helpful when I'm learning French because I can use it as a reference for what a paragraph or sentence should sound like. It's not perfect. Sometimes it uses liaisons that my tutor and Google Translate don't use. But it's a decent enough starting point. I also used it before to read out IRC mentions and compile notifications so that I could hear them even if I was paying attention to a different activity.

Here's a demonstration of speechd reading out the following lines using the code I've just uploaded to https://codeberg.org/sachac/speechd-ai:

The quick brown fox jumps over the lazy dog.
Now let's set the language to French so we can read the next line.
Bonjour, je m'appelle Emacs.

Screencast showing speechd-el

There's about a 2-second delay between the command and the start of the audio for the sentence.

Note that speechd-speak-read-sentence fails in some cases where (forward-sentence 1) isn't the same place as (backward-sentence 1) (forward-sentence 1), which can happen when you're in an Org Mode list. I've submitted a patch upstream.

Aside from that, speechd-speak-set-language, speechd-speak-read-paragraph and speechd-speak-read-region are also useful commands. I think the latency makes this best-suited for reading paragraphs, or for shadowing sentences for language learning.

I'm still trying to figure out how to get speechd-speak to work as smoothly as I'd like. I think I've got it set up so that the server falls back to espeak for short texts so that it can handle words or characters better, and uses the specified server for longer ones. I'd like to get to the point where it can handle all the things that speechd usually does, like saying lines as I navigate through them or giving me feedback as I'm typing. Maybe it can use espeak for fast feedback character by character and word by word, and then use Kokoro TTS for the full sentence when I finish. Then it will be possible to use it to type things without looking at the screen.

After putting this together, I still find myself leaning towards my own functions because they make it easy to see the generated speech output to a file, which is handy for saving reference audio that I can play on my phone and for making replays almost instant. That could also be useful for pre-generating the next paragraph to make it flow more smoothly. Still, it was interesting making something that is compatible with existing protocols and libraries.

Posting it in case anyone else wants to use it as a starting point. The repository also contains the starting point for an Emacspeak-compatible speech server. See See speechd-ai/README.org for more details.

https://codeberg.org/sachac/speechd-ai

View Org source for this post

You can e-mail me at sacha@sachachua.com.

La semaine du 2 mars au 8 mars

Mar 10, 2026| french

lundi 2 mars

J'ai préparé ma newsletter sur Emacs et j'ai écrit un article sur l'affichage d'indices pour des raccourcis clavier. J'ai aussi essayé l'expansion des snippets par commande vocale. Je pense que l'expansion des snippets est utile parce que quand j'insère un snippet à partir d'initiales, je dois penser à l'expression et puis penser aux lettres initiales, mais quand j'insère un snippet par commande vocale, je peux utiliser l'expression naturelle. Bien sûr, il y a un bref délai pour la transcription, mais c'est suffisamment court pour ne pas couper le fil de mes pensées.

Ma fille était trop fatiguée pour son cours de gymnastique, donc je l'ai emmenée chez la dentiste pour un examen à cause de sa douleur dentaire. La dentiste a dit que ses gencives sont un peu enflées. Elle nous a recommandé de ramollir sa brosse à dents sous l'eau chaude avant de se brosser les dents et peut-être d'utiliser un bain de bouche salin. Ma fille s'est plainte que ses dents semblent trop serrées. La dentiste a dit que c'est acceptable pour le moment, et si nous voulons, elle peut nous orienter vers un orthodontiste. Quand j'étais plus jeune, je ne supportais pas l'appareil dentaire, mais c'est possible que ma fille puisse le supporter. Je pense que c'est mieux que nous attendions que le pic de concentration virale dans les eaux usées soit passé.

Après la vaisselle et ma routine du soir, ma fille et moi avons cousu à la main notre projet de petit sac avec quelques poches.

mardi 3 mars

J'ai travaillé sur les virelangues pendant le rendez-vous avec mon tuteur. Les sons « r » et « u » ont continué à me poser des difficultés. Je vais travailler sur la différence entre « roue » et « rue », le mot « brume », et quelques autres. Il a dit que le « r » a besoin de moins d'air.

Les résultats aujourd'hui :

Je me demande quel serait une bonne méthode et une bonne interface pour m'entraîner seule à la prononciation entre les rendez-vous avec mon tuteur. Je pense que le processus comprend les étapes suivantes :

Apprendre à écouter la différence entre l'exemple et un énoncé incorrect : il s'agit d'abord de distinguer qu'ils sont différents, puis de comprendre pourquoi.
- Si j'extrais les énoncés de mes enregistrements et que je les annote avec les classifications de mon tuteur, je peux les utiliser pour l'apprentissage supervisé afin d'exercer mon oreille. Ces enregistrements seront trop ennuyeux pour d'autres, mais pour moi, il vaut peut-être mieux que je les écoute pour mieux apprendre.
Identifier lequel des deux énoncés est le meilleur.
- Je peux randomiser les courts enregistrements de l'étape précédente pour créer un jeu.
Essayer de produire des sons variés. Il faut m'entraîner, il n'y a évidemment pas d'autre solution.
Écouter la différence entre l'exemple et le son que j'ai produit. Déterminer si le son est assez bon. Réfléchir à la connexion entre les mouvements de la bouche et le son qu'ils produisent.
Produire le son de manière isolée. Connecter la sensation interne de produire le son avec le son que je veux produire, parce que le son que j'enregistre diffère du son que j'écoute en parlant.
Produire le son systématiquement.
Produire le son même si je n'écoute pas de modèle et je ne viens pas de le répéter.
Utiliser le son dans le contexte d'une expression avec des pauses.
Dire l'expression plus fluidement.
Dire l'expression sans exemple.

Si c'était un problème résolu facilement, tout le monde utiliserait et recommanderait la solution. Je pense qu'il n'y a pas de bonne solution sur le marché à l'exception de la méthode que j'ai utilisée pour la formation de mon petit projet d'intelligence humaine générale (qui a 10 ans maintenant, comme elle me le dit souvent) : une quantité massive de données. Mais bien sûr, il y a beaucoup de recherches dont je peux profiter.

Oooh, j'ai hâte d'essayer des spectrogrammes en plus des formes d'onde. Il y a quelques logiciels qui peuvent afficher les spectrogrammes même en temps réel. C'est possible que ça facilite l'analyse des voyelles.

Donc, je peux utiliser les horodatages par mot de WhisperX pour segmenter l'enregistrement. Mais je dois les écouter dans le contexte du rendez-vous pour les associer avec les commentaires de mon tuteur, sauf si la segmentation par locuteur est fiable pour identifier quels énoncés ont obtenu un « oui » ou « c'est mieux » de mon tuteur et quels énoncés lui font dire « non ». Pour le moment, je pense que c'est plus fiable si j'écoute la conversation et annote les segments moi-même, donc une interface qui affiche les formes d'onde segmentées et me permet de faire des sélections par raccourcis clavier serait utile. Si les scores sont disponibles, les afficher sous forme de graphique à barres est peut-être plus précis et plus facile à comparer que les afficher à l'aide d'un dégradé de couleurs. Je peux aller voir du côté de Label Studio ou Praat pour des idées à implémenter sur Emacs. Ou bien, si j'utilise Audino 2.0 ou d'autres projets similaires sur le web, je peux les annoter pendant mes moments perdus.

Pendant la pratique, je pense que mon interface doit lancer l'enregistrement de mon tuteur et peut-être afficher la forme d'onde ou le spectrogramme. Elle doit enregistrer ma voix, puisqu'elle doit lancer la lecture de l'exemple du tuteur et l'enregistrement de ma voix pour comparaison avec le score de confiance de WhisperX. Des raccourcis clavier lancent l'un ou l'autre.

Notre réseau

Mon tuteur a une question sur les réseaux informatiques, donc je vais profiter de cette occasion pour expliquer notre réseau en français afin d'apprendre plusieurs mots techniques en cours de route. Mon mari est principalement responsable de l'entretien de notre réseau, mais je devrais également m'y former.

Mon mari a recommandé des ressources pour les gens intéressés :

Jim's Garage : recommandé vivement, mais le Homelab 2.0 dont il a discuté dans les vidéos récentes commence à coûter cher.
Serve the Home
Reddit, bien sûr

Notre réseau :

Notre modem fibre optique du FAI se connecte à un mini-ordinateur Lenovo M920q qui fait fonctionner Proxmox pour la gestion de pare-feu et quelques machines virtuelles. Une des machines virtuelles est OPNSense, qui gère les adresses réseau, le pare-feu, le lissage du trafic réseau (y compris la règle consistant à couper l'accès à internet de notre enfant tard le soir) et divers réseaux virtuels (VLAN) pour isoler les différents appareils via l'adaptateur réseau Gigabit Intel 893647. L'Internet des objets manque souvent de mises à jour, donc mon mari veut les isoler de nos autres ordinateurs. OPNSense lui-même reçoit des mises à jour. En fait, mon mari l'a mis à jour récemment, et il est passé de 16 à 32 gigaoctets de RAM. Mon mari a dit qu'il apprécie que le Lenovo M920q soit assez silencieux.
Le M920Q se connecte à un commutateur réseau ASUS GS108Tv2, qui se connecte au Synology DS718+ pour le stockage réseau et à l'Odroid-XU4 qui fait aussi fonctionner PiHole pour réduire les publicités. Proxmox sur le M920q a aussi une machine virtuelle qui est responsable de sauvegarder les fichiers sur le Synology DS718+.
Le commutateur réseau ASUS GS108Tv2 se connecte au routeur wifi ASUS RT-AC66U qui utilise FreshTomato pour avoir plus de contrôle qu'avec le modem fibre optique. Il est capable de wifi 5 GHz et il peut traiter les réseaux wifi virtuels (deux ou plus de SSIDs dans la même bande 2,4 GHz ou 5 GHz) pour isoler les appareils comme le thermostat. De cette façon, les appareils fiables comme nos ordinateurs ne sont pas visibles par les appareils non sécurisés.
Le routeur wifi se connecte à un commutateur réseau non géré qui se connecte à un Odroid-C4 qui utilise OpenELEC et à notre vieille Sony PS3.

Nous utilisions le routeur wifi ASUS RT-AC66U avec FreshTomato pour notre réseau, mais mon mari a mis à niveau vers le Lenovo M920q pour faciliter la gestion des réseaux virtuels et pour optimiser le débit. Il a dit qu'il avait choisi les composants pour minimiser l'espace, la consommation d'énergie et le bruit. Rien n'est neuf et tout peut être acheté sur Ebay ou le marché de l'occasion. Pour le moment, la RAM et le stockage coûtent très cher, et nous n'avons pas besoin de haute disponibilité ou réplication.

Après l'école, ma fille a eu de l'énergie, donc je l'ai emmenée à un cours de rattrapage de gymnastique. C'était un cours collectif de tissu aérien. Pendant que ma fille participait en classe, j'ai étudié mes cartes Anki. Elle a globalement aimé le cours à l'exception de ses chaussettes perdues. Malheureusement, quelqu'un a pris les chaussettes de ma fille au lieu des siennes. Je me suis retenue de dire qu'elle aurait dû me donner ses affaires à garder.

mercredi 4 mars

J'ai écrit un article sur l'expansion de snippets par la reconnaissance vocale sur Emacs et sur d'autres applications.

J'ai essayé le bilan de prononciation d'Azure et la transcription des phonèmes par la bibliothèque Allosaurus, mais je pense que ceux-ci ne sont ni fiables ni adaptés à mes objectifs. Je ne sais pas si les scores d'Azure sont utiles. Allosaurus ne me donne pas l'API que je veux, même si j'analyse l'enregistrement de mon tuteur. (Je dois le vérifier avec le résultat de la synthèse vocale…)

Le cours phonologique de FSI contraste deux exemples courts similaires pour développer la compétence d'identification des différences. Pour le moment, mieux vaut améliorer mon processus pour extraire et écouter les segments vocaux de mon rendez-vous que de s'entraîner d'une façon peu fiable et probablement incorrecte mais avec assurance.

Ma fille et moi avons fait des courses. Après une pause, ma fille et moi sommes allées au parc pour jouer à Pokémon Go avec beaucoup d'autres dresseurs. Nous avons gagné quelques raids, mais ma fille n'a pas attrapé les Pokémons qu'elle voulait. Elle était un peu déçue, mais elle a dit que c'était une bonne promenade de toute façon.

Ma fille était de mauvaise humeur à l'heure du coucher à cause de mon conseil pendant le brossage. Je suis restée calme et je lui ai donné de l'espace.

jeudi 5 mars

Ma fille s'est réveillée toute seule ce matin et elle a pris son petit-déjeuner, mais elle n'a pas voulu assister à ses cours en ligne. La harceler n'est pas utile, donc je l'ai laissée gérer ses propres émotions. J'ai travaillé sur le piano. J'ai aussi amélioré l'automatisation pour rassembler les jalons de distribution pour la Bike Brigade en utilisant Spookfox. J'ai découvert que la clé est d'utiliser le code

document.querySelector('form[phx-change="update_options"]')
  .dispatchEvent(new Event('submit', {bubbles: true, cancelable:true}))

pour mettre le tableau à jour après avoir changé les dates. Spookfox ne me permet pas d'attendre le résultat s'il prend du temps, donc je dois attendre dans Emacs Lisp comme ça :

(let (result)
  (dolist (block-name '("milestone-this-month-set"
                        "milestone-this-month-get"
                        "milestone-before-month-set"
                        "milestone-before-month-get"
                        "milestone-after-month-set"
                        "milestone-after-month-get"
                        "milestone-summary"))
    (setq result
           (org-babel-execute-src-block
            nil
            (org-babel-lob--src-info block-name)
            nil 'babel-call))
    (when (string-match "-set" block-name)
      (message "Waiting after %s..." block-name)
      (sit-for 3)))
  (kill-new result)
  (message "Copied."))

De cette façon, j'ai simplifié le processus pour réduire le nombre de clics. Le code complet est ici.

vendredi 6 mars

J'ai adoré travailler sur ma prononciation via mes notes sur notre réseau sur lequel mon tuteur m'avait interrogée mardi et mon mari m'avait aidée. J'ai besoin de travailler encore sur l'alphabet, qui est nécessaire pour lire les noms de modèles à voix haute. Mon tuteur a aussi des questions sur les LLM. J'ai hâte d'écrire plus de notes.

Nous avons réarrangé des meubles parce que le nouveau lit arrive demain pour notre fille. Nous avons déplacé les étagères dans la chambre de ma fille dans un coin qui est mon nouvel espace bureau.

Ma fille était trop frustrée par l'école aujourd'hui. Elle a séché ses cours, et elle a voulu rentrer plus tôt de sa sortie avec son amie. Je pense que cette journée était un peu difficile pour elle. Je me suis rappelé de penser sur le long terme, sans harcèlement.

samedi 7 mars

Ma fille et moi avons joué à Donjons et Dragons avec mes sœurs et mes nièces. Nous avons bien aimé la partie. Dans l'histoire, il y avait des kobolds qui habitent dans une des Cavernes du Chaos et qui regrettent d'avoir attrapé un ours. L'ours avait très faim et les kobolds aussi, parce que les kobolds lui donnent leur nourriture pour éviter d'avoir mal. La clerc (ma fille) et la guerrière (une de mes nièces) ont réussi à attirer l'ours dehors avec des bleuets. Ma sœur la magicienne a mené la charge contre des maraudeurs qui habitaient dans une autre caverne, et nous les avons vaincus. Dans une chambre, nous avons vu deux coffres, mais nous avons trouvé qu'un coffre était en fait un imitateur. Après un autre combat, nous avons trouvé 150 pièces d'or, des bottes et une potion mystérieuse.

Après le déjeuner, ma fille et moi avons fait une promenade au parc pendant que nous jouions à Pokémon Go. Il faisait beau avec beaucoup de brume qui semblait un peu magique.

Puis, mon mari et moi avons démonté l'ancien lit de ma fille et quelques autres meubles dans sa chambre pour créer de l'espace pour son nouveau lit.

dimanche 8 mars

Ma fille a réussi à éviter de tomber de son nouveau lit mezzanine. Succès ! Mon mari a fini de poncer et de vernir le garde-corps qu'il fabriquait en bois, donc il l'a installé pour nous permettre d'utiliser le matelas qui est trop épais pour le garde-corps original.

J'ai commencé à externaliser mon code dans un nouveau package d'apprentissage des langues. Je ne sais pas s'il est utile aux autres, mais si je veux aider les autres à essayer, il a besoin d'un peu de travail.

Il faisait très beau. Mon mari, ma fille et moi sommes allés à IKEA pour acheter des coussins, des lumières et un tapis de gym pour le petit coin jeu sous le nouveau lit de ma fille. Pendant ce temps-là, ma fille a vu un couteau qu'elle a aimé, donc nous l'avons acheté aussi. À la maison, elle a installé le tapis et les coussins elle-même. Elle a décidé de rapporter les lumières pour se faire rembourser la semaine prochaine.

Pour le dîner, nous avons préparé des nuggets de poulet, des frites et du brocoli.

Sur l'intelligence artificielle

Dans le rendez-vous précédent, mon tuteur m'a posé des questions sur l'intelligence artificielle. Je veux réfléchir sur l'IA pour travailler ma prononciation en utilisant un sujet qui nous intéresse également, et pour trouver des points d'amélioration.

D'abord, du contexte pour expliquer ma perspective :

Je laisse de côté les questions sur l'impact environnemental ou l'éthique des données entrantes.
Jusqu'à présent, j'ai essayé l'IA pour mes centres d'intérêt comme la parentalité, l'apprentissage du français et la programmation en Emacs Lisp, en Python et en Javascript. Je l'ai aussi utilisée pour faire des recherches.
Je travaille seulement un peu comme consultante, mais en fait, c'est juste pour le plaisir. Je ne veux pas augmenter ma charge de travail parce que je me concentre sur ma fille et mes intérêts personnels. Rien ne me presse d'utiliser l'IA (comme un chef, des clients ou des concurrents). L'IA ne me menace pas. Je peux l'utiliser ou ne pas l'utiliser, à mon gré. Je peux me focaliser sur mon bonheur.
Je peux consacrer une petite partie de mon budget à des essais, mais je ne veux pas travailler davantage pour rentabiliser une dépense plus importante. Pour le moment, les limites d'utilisation gratuite de Gemini, de Claude et d'Azure suffisent pour mes idées et mon temps limité. Je n'ai pas le temps de concentration nécessaire pour justifier l'investissement dans mon propre matériel, et sinon, les progrès sont trop rapides pour m'engager dans une configuration spécifique.
J'ai une conscience aiguë des limites cognitives ou physiques à cause des difficultés de santé de ma mère et de ma sœur, et de mes expériences avec mes limitations à cause du fait que je suis la personne principalement en charge de ma fille.
Je lis très vite, mais je n'ai pas assez de patience pour les longs contenus vidéo ou audio. Je n'aime pas les textes qui contiennent beaucoup de remplissage.
J'aime la programmation, donc je comprends un peu comment l'IA fonctionne et je ne peux pas lui attribuer une vraie intelligence. Je n'aime pas non plus les résultats imprévisibles.
De mon côté, c'est facile de lancer beaucoup d'idées. C'est difficile de les mener à terme. Je peine à finaliser mes tâches parce que de nouvelles idées arrivent sans cesse. Mais presque aucune de mes tâches n'est vraiment nécessaire, donc ce n'est pas grave.
J'aime bien l'amélioration incrémentale. Je préfère les petites étapes, les petites fonctions, les petits logiciels.
Beaucoup de gens ont une réaction forte contre l'IA pour plusieurs raisons qui incluent le battage médiatique excessif dont elle fait l'objet, son utilisation à mauvais escient, et l'inondation de banalité qu'elle produit.

La programmation

Pour la programmation, je trouve qu'elle fonctionne mieux pour les logiciels courts que pour les logiciels longs. Je réécris souvent la majorité du logiciel à l'exception d'un ou deux morceaux parce que ce code ne me convient pas. De temps en temps, j'utilise l'IA pour parfaire ou vérifier une idée rapidement avant de travailler sur l'idée moi-même. Je ne veux pas l'utiliser pour les correctifs que je veux soumettre à d'autres projets parce que le code ne me semble pas correct et je ne veux pas gaspiller le temps d'autres bénévoles.

Quelques exemples concrets :

C'était utile pour implémenter une fonction qui compare deux listes et renvoie les éléments ajoutés, enlevés, ou modifiés via un algorithme classique que je comprends un peu mais pas suffisamment pour l'implémenter moi-même.
C'était utile pour tester l'idée d'un serveur de Kokoro TTS qui est compatible avec le serveur speechd parce que je ne sais pas encore comment faire un serveur multithread en Python. J'aime pouvoir lui donner trois dépôts git et des instructions pour générer un logiciel à partir d'un dépôt pour un autre via le troisième dépôt. Mais je ne veux pas le publier avant de réécrire et tout comprendre.
C'était utile pour générer des interfaces web pour mes idées personnelles.
Ce n'était pas très utile pour bricoler ma configuration (à l'exception d'identifier parfois des commandes ou des variables que je ne connais pas), parce que j'aime bien le bricolage. Spécifier mes objectifs demande souvent autant de travail que de les implémenter moi-même.

Mon mari a son propre abonnement à Claude IA. Il a dit qu'il l'apprécie parce que l'IA peut gérer plusieurs petites tâches qui autrement nécessitent beaucoup de recherches. De mon côté, j'utilise souvent Gemini IA parce que sa limite d'utilisation gratuite est généreuse. J'ai aussi essayé Claude Code, mais mes connaissances sont limitées. Il semble utile, mais je préfère l'isoler dans une machine virtuelle, donc c'est peu pratique pour moi en ce moment.

L'IA est très utile pour utiliser des commandes qui ont beaucoup d'options comme ffmpeg ou gnuplot.

Je ne trouve pas l'IA assez fiable pour la laisser agir complètement indépendamment. Peut-être un jour, mais pour moi, pas encore.

L'apprentissage du français

J'aime utiliser l'IA pour me donner des retours sur mes textes. Si j'utilise seulement le dictionnaire, je ferai beaucoup d'anglicismes à cause de la traduction littérale. Les sujets qui m'intéressent sont un peu rares, donc ce sera peut-être difficile de trouver un tuteur qui se concentre exactement sur ceux-là. C'est un peu inefficace de corriger mon écriture mot à mot avec un professionnel. Mon journal et mes pensées ne sont pas si importants. Avec l'IA, je n'ai pas à perdre de temps avec mon tuteur pour corriger beaucoup d'erreurs comme l'accord du nom et du verbe ou les mots maladroits, et je découvre de nouveaux mots et expressions. Les suggestions de l'IA sont de temps en temps bizarres, donc c'est toujours une bonne idée de vérifier avec de vraies personnes. Sans l'IA, je pourrais peut-être apprendre plus lentement avec l'aide d'Internet, qui a beaucoup de ressources comme Vitrine linguistique.

J'ai essayé l'IA pour faire des commentaires sur ma prononciation, mais je pense que ce n'est pas encore fiable et je n'ai pas l'expérience pour bien juger. Je peux peut-être vérifier mes résultats avec un tuteur, mais c'est peut-être difficile à cause des objectifs contradictoires, comme les personnes à qui l'on demande de former leurs remplaçants. En fait, je ne veux pas remplacer la connexion humaine. Je veux profiter davantage, apprendre davantage avec l'aide de vraies personnes, complétée par l'aide de l'IA. Il y a des chercheurs qui étudient les applications de l'IA à l'apprentissage des langues. Je peux attendre leurs découvertes. En attendant, je pense qu'il vaut mieux utiliser l'IA pour comprendre d'autres manières d'analyser la prononciation moi-même, et pour construire des outils personnalisés peut-être comme les résumés et les extraits de nos rendez-vous, les visualisations de mes tentatives, ou une interface pour enregistrer et écouter en temps réel.

De temps en temps, j'essaye de générer des histoires ou des articles compréhensibles de mon niveau (ou presque). Pour le moment, je préfère d'autres ressources pour la lecture, comme les sous-titres d'émissions. Néanmoins, les traductions automatiques sur Reddit m'intéressent, donc j'ai réussi à remplacer mon fil d'actualité par un flux en français.

Je ne suis pas encore prête à converser avec des IA par la voix. J'ai essayé la conversation libre et le dialogue presque scénarisé. J'adore les sous-titres simultanés, mais je n'ai pas toujours trouvé une méthode ou un système qui me convienne. Dans la conversation libre, je sais que l'interlocuteur est une IA, donc je n'ai pas une vraie curiosité pour ses «intérêts ou pensées». La conversation semblait très artificielle. En plus, je pense que je préférerais en construire un moi-même pour plus de contrôle. De toute façon, ma prononciation, ma grammaire et mon vocabulaire ont besoin de travail. Dans le dialogue scénarisé, je n'ai pas encore un vocabulaire assez riche pour discuter des sujets dans les exercices généraux. Si je répète simplement, je n'ai pas besoin d'IA pour ça.

[2026-03-12 Thu]: Quelques matière à réflexion ; aussi ; aussi ; contre slop

La parentalité

J'ai parfois utilisé Claude IA pour générer des histoires interactives sur les centres d'intérêt de ma fille. Les histoires incluent les mots que ma fille doit apprendre pour sa classe. Elles permettent de taper sur un mot pour l'écouter par la synthèse vocale et pour voir la traduction. Elle aime bien ce format. L'enseignant de ma fille n'a pas le temps de personnaliser l'apprentissage du vocabulaire à ce point, et elle est trop imprévisible pour planifier ses propres rendez-vous avec un tuteur.

Elle aime générer d'autres histoires interactives avec l'IA elle-même, comme des petits jeux sur KPop Demon Hunters ou Pokémon. Je pense que c'est une bonne façon de s'entraîner à réfléchir à ce qu'elle veut, comment l'expliquer et comment le peaufiner.

Elle a 10 ans. Personne ne sait à quoi ressemblera vraiment le monde quand elle sera grande. Je pense que c'est mieux que mon mari et moi montrions comment approcher, comment apprendre, comment décider ce que nous pensons, sans peur ni battage publicitaire.

Sans l'IA, nous pourrions improviser nos propres histoires. Mais je pense que la capacité de lui donner plus de contrôle dans une boucle de rétroaction¹ rapide est une bonne chose.

Je n'aime pas l'utiliser pour essayer de résoudre mes dilemmes de parentalité parce que l'IA confirme toujours quoi qu'on lui donne. De temps en temps, je l'utilise pour générer des questions pour réfléchir, ce qui est un peu plus utile.

Mélanges

J'aime bien la reconnaissance vocale parce qu'elle me permet de saisir plus d'idées plus vite (avant de les oublier) et d'analyser les transcriptions sans avoir à réécouter tous les enregistrements. Beaucoup de raisons peuvent empêcher une personne de taper. J'aime bien la programmation et l'écriture, et je veux continuer longtemps. J'ai hâte d'explorer des interfaces vocales.

Je pense que la manière probabiliste que l'IA utilise est prometteuse pour chercher des choses que je ne sais pas exactement, ce qui sera très utile quand on a un brouillard cérébral. Je n'aime pas les résumés qui sont souvent mauvais et qui enlèvent l'expérience de rencontrer d'autres personnes qui pensent elles aussi des choses similaires. J'aime suivre les liens où je peux en apprendre davantage. J'aime aussi poser quelques questions à l'IA avant ou au lieu de demander à une vraie personne.

Les étapes prochaines pour moi

Je vais continuer à essayer l'IA dans mes centres d'intérêt. Je veux extraire mes fonctions personnelles dans des bibliothèques de reconnaissance vocale et d'apprentissage des langues pour aider les autres, mais j'avance lentement parce que mon attention est facile à détourner. Petit à petit.

Je veux essayer les bibliothèques d'IA sous Emacs comme agent-shell. Si je peux approuver manuellement chaque commande, je pense que ce n'est pas grave.

Footnotes

Feedback loop? My tutor was not sure about the wording.

View Org source for this post

You can e-mail me at sacha@sachachua.com.

Emacs Lisp and NodeJS: Getting the bolded words from a section of a Google Document

Posted: Mar 10, 2026 - Modified: Mar 12, 2026| french, js, emacs

[2026-03-13 Fri]: Cleaned up links from Google
[2026-03-12 Thu]: Simplified getting a section or finding the bolded text by using the Org Mode format instead.

During the sessions with my French tutor, I share a Google document so that we can mark the words where I need to practice my pronunciation some more or tweak the wording. Using Ctrl+B to make the word as bold is an easy way to make it jump out.

I used to copy these changes into my Org Mode notes manually, but today I thought I'd try automating some of it.

First, I need a script to download the HTML for a specified Google document. This is probably easier to do with the NodeJS library rather than with oauth2.el and url-retrieve-synchronously because of various authentication things.

require('dotenv').config();
const { google } = require('googleapis');

async function download(fileId) {
  const auth = new google.auth.GoogleAuth({
    scopes: ['https://www.googleapis.com/auth/drive.readonly'],
  });
  const drive = google.drive({ version: 'v3', auth });
  const htmlRes = await drive.files.export({
    fileId: fileId,
    mimeType: 'text/html'
  });
  return htmlRes.data;
}

async function main() {
  console.log(await download(process.argv.length > 2 ? process.argv[2] : process.env['DOC_ID']));
}

main();

Then I can wrap a little bit of Emacs Lisp around it.

(defvar my-google-doc-download-command
  (list "nodejs" (expand-file-name "~/bin/download-google-doc-html.cjs")))

(defun my-google-doc-html (doc-id)
  (when (string-match "https://docs\\.google\\.com/document/d/\\(.+?\\)/" doc-id)
    (setq doc-id (match-string 1 doc-id)))
  (with-temp-buffer
    (apply #'call-process (car my-google-doc-download-command)
           nil t nil (append (cdr my-google-doc-download-command) (list doc-id)))
    (buffer-string)))

(defun my-google-doc-clean-html (html)
  "Remove links on spaces, replace Google links."
  (let ((dom (with-temp-buffer
               (insert html)
               (libxml-parse-html-region))))
    (dom-search
     dom
     (lambda (o)
       (when (eq (dom-tag o) 'a)
         (when (and (dom-attr o 'href)
                    (string-match "https://\\(www\\.\\)?google\\.com/url\\?q=" (dom-attr o 'href)))
           (let* ((parsed (url-path-and-query
                           (url-generic-parse-url (dom-attr o 'href))))
                  (params (url-parse-query-string (cdr parsed))))
             (dom-set-attribute o 'href (car (assoc-default "q" params #'string=)))))
         (let ((text (string= (string-trim (dom-text o)) "")))
           (when (string= text "")
             (setf (car o) 'span))))
       (when (and
              (string-match "font-weight:700" (or (dom-attr o 'style) ""))
              (not (string-match "font-style:normal" (or (dom-attr o 'style) ""))))
         (setf (car o) 'strong))
       (when (dom-attr o 'style)
         (dom-remove-attribute o 'style))))
    ;; bold text is actually represented as font-weight:700 instead
    (with-temp-buffer
      (svg-print dom)
      (buffer-string))))

(defun my-google-doc-org (doc-id)
  "Return DOC-ID in Org Mode format."
  (pandoc-convert-stdio (my-google-doc-clean-html (my-google-doc-html doc-id)) "html" "org"))

I have lots of sections in that document, including past journal entries, so I want to get a specific section by name.

(defun my-org-get-subtree-by-name (org-text heading-name)
  "Return ORG-TEXT subtree for HEADING-NAME."
  (with-temp-buffer
    (insert org-text)
    (org-mode)
    (goto-char (point-min))
    (let ((org-trust-scanner-tags t))
      (car (delq nil
                 (org-map-entries
                  (lambda ()
                    (when (string= (org-entry-get (point) "ITEM") heading-name)
                      (buffer-substring (point) (org-end-of-subtree))))))))))

Now I can get the bolded words from a section of my notes, with just a sentence for context. I use pandoc to convert it to Org Mode syntax.

(defvar my-lang-words-for-review-context-function 'sentence-at-point)
(defvar my-lang-tutor-notes-url nil)
(defun my-lang-tutor-notes (section-name)
  (my-org-get-subtree-by-name
   (my-google-doc-org my-lang-tutor-notes-url)
   section-name))

(defun my-lang-words-for-review (section)
  "List the bolded words for review in SECTION."
  (let* ((section (my-lang-tutor-notes section))
         results)
    (with-temp-buffer
      (insert section)
      (org-mode)
      (goto-char (point-min))
      (org-map-entries
       (lambda ()
         (org-end-of-meta-data t)
         (while (re-search-forward "\\*[^* ].*?\\*" nil t)
           (cl-pushnew
            (replace-regexp-in-string
             "[ \n ]+" " "
             (funcall my-lang-words-for-review-context-function))
            results
            :test 'string=)))))
    (nreverse results)))

For example, when I run it on my notes on artificial intelligence, this is the list of bolded words and the sentences that contain them.

(my-lang-words-for-review "Sur l'intelligence artificielle")

Je l'ai aussi utilisée pour faire des recherches.
Je peux consacrer une petite partie de mon budget à des essais, mais je ne veux pas travailler davantage pour rentabiliser une dépense plus importante.
Je n'ai pas le temps de concentration nécessaire pour justifier l'investissement dans mon propre matériel, et sinon, les progrès sont trop rapides pour m'engager dans une configuration spécifique.
J'ai une conscience aiguë des limites cognitives ou physiques à cause des difficultés de santé de ma mère et de ma sœur, et de mes expériences avec mes limitations à cause du fait que je suis la personne principalement en charge de ma fille.
Je lis très vite, mais je n'ai pas assez de patience pour les longs contenus vidéo ou audio.
Je n'aime pas les textes qui contiennent beaucoup de remplissage.
Beaucoup de gens ont une réaction forte contre l'IA pour plusieurs raisons qui incluent le battage médiatique excessif dont elle fait l'objet, son utilisation à mauvais escient, et l'inondation de banalité qu'elle produit.
Je réécris souvent la majorité du logiciel à l'exception d'un ou deux morceaux parce que ce code ne me convient pas.
Je ne veux pas l'utiliser pour les correctifs que je veux soumettre à d'autres projets parce que le code ne me semble pas correct et je ne veux pas gaspiller le temps d'autres bénévoles.
J'aime pouvoir lui donner trois dépôts git et des instructions pour générer un logiciel à partir d'un dépôt pour un autre via le troisième dépôt.
Mais je ne veux pas le publier avant de réécrire et tout comprendre.
Sans l'IA, je pourrais peut-être apprendre plus lentement avec l'aide d'Internet, qui a beaucoup de ressources commehttps://vitrinelinguistique.oqlf.gouv.qc.ca/Vitrine linguistique.
Je veux profiter davantage, apprendre davantage avec l'aide de vraies personnes, complétée par l'aide de l'IA.
J'adore les sous-titres simultanés, mais je n'ai pas toujours trouvé une méthode ou un système qui me convienne.

I can then go into the WhisperX transcription JSON file and replay those parts for closer review.

I can also tweak the context function to give me less information. For example, to limit it to the containing phrase, I can do this:

(defun my-split-string-keep-delimiters (string delimiter)
  (when string
    (let (results pos)
      (with-temp-buffer
        (insert string)
        (goto-char (point-min))
        (setq pos (point-min))
        (while (re-search-forward delimiter nil t)
          (push (buffer-substring pos (match-beginning 0)) results)
          (setq pos (match-beginning 0)))
        (push (buffer-substring pos (point-max)) results)
        (nreverse results)))))

(ert-deftest my-split-string-keep-delimiters ()
 (should
  (equal (my-split-string-keep-delimiters
          "Beaucoup de gens ont une réaction forte contre l'IA pour plusieurs raisons qui *incluent* le battage médiatique excessif dont elle fait l'objet, son utilisation à mauvais escient, et *l'inondation de banalité* qu'elle produit."
          ", \\| que \\| qui \\| qu'ils? \\| qu'elles? \\| qu'on "
          )
 )))

(defun my-lang-words-for-review-phrase-context (&optional s)
  (setq s (replace-regexp-in-string " " " " (or s (sentence-at-point))))
  (string-join
   (seq-filter (lambda (s) (string-match "\\*" s))
               (my-split-string-keep-delimiters s ", \\| parce que \\| que \\| qui \\| qu'ils? \\| qu'elles? \\| qu'on \\| pour "))
   " ... "))

(ert-deftest my-lang-words-for-review-phrase-context ()
  (should
   (equal (my-lang-words-for-review-phrase-context
           "Je peux consacrer une petite partie de mon *budget* à des essais, mais je ne veux pas travailler davantage pour rentabiliser une dépense plus importante.")
          "Je peux consacrer une petite partie de mon *budget* à des essais")))

(let ((my-lang-words-for-review-context-function 'my-lang-words-for-review-phrase-context))
  (my-lang-words-for-review "Sur l'intelligence artificielle"))

pour faire des recherches.
Je peux consacrer une petite partie de mon budget à des essais
, et sinon
J'ai une conscience aiguë des limites cognitives ou physiques à cause des difficultés de santé de ma mère et de ma sœur
pour les longs contenus vidéo ou audio.
Je n'aime pas les textes qui contiennent beaucoup de remplissage.
qui incluent le battage médiatique excessif dont elle fait l'objet … , et l'inondation de banalité
Je réécris souvent la majorité du logiciel à l'exception d'un ou deux morceaux
pour les correctifs … parce que le code ne me semble pas correct et je ne veux pas gaspiller le temps d'autres bénévoles.
pour un autre via le troisième dépôt.
Mais je ne veux pas le publier avant de réécrire et tout comprendre.
, je pourrais peut-être apprendre plus lentement avec l'aide d'Internet
, apprendre davantage avec l'aide de vraies personnes, complétée par l'aide de l'IA.
qui me convienne.

Now that I have a function for retrieving the HTML or Org Mode for a section, I can use that to wdiff against my current text to more easily spot wording changes.

(defun my-lang-tutor-notes-wdiff-org ()
  (interactive)
  (let ((section (org-entry-get (point) "ITEM")))
    (my-wdiff-strings
     (replace-regexp-in-string
      " " " "
      (my-org-subtree-text-without-blocks))
     (replace-regexp-in-string
      " " " "
      (my-lang-tutor-notes section)))))

my-wdiff-strings is in Wdiff
my-org-subtree-text-without-blocks is in Counting words without blocks

Screenshot:

This is part of my Emacs configuration.

View Org source for this post

You can e-mail me at sacha@sachachua.com.

2026-03-09 Emacs news

Mar 9, 2026| emacs, emacs-news

If you use kubernetes-el, don't update for now, and you might want to check your installation if you updated it recently. The repo was compromised a few days ago.

I've occasionally wanted to tangle a single Org Mode source block to multiple places, so I'm glad to hear that ob-tangle has just added support for multiple targets. Niche, but could be handy. I'm also curious about using clime to write command-line tools in Emacs Lisp that handle argument parsing and all the usual stuff.

If you're looking for something to write about, why not try this month's Emacs Carnival theme of mistakes and misconceptions?

Enjoy!

Security:
- First (?) hacked Emacs package: kubernetes-el (Reddit)
Upcoming events (iCal file, Org):
- Emacs Berlin: In-Person-Only Emacs-Berlin Stammtisch https://emacs-berlin.org/ Tue Mar 10 1900 Europe/Berlin
- OrgMeetup (virtual) https://orgmode.org/worg/orgmeetup.html Wed Mar 11 0900 America/Vancouver - 1100 America/Chicago - 1200 America/Toronto - 1600 Etc/GMT - 1700 Europe/Berlin - 2130 Asia/Kolkata – Thu Mar 12 0000 Asia/Singapore
- Computing in freedom with GNU Emacs - Protesilaos Stavrou - FLOSS@Oxford https://ox.ogeer.org/event/computing-in-freedom-with-gnu-emacs-protesilaos-stavrou Thu Mar 12 1100 America/Vancouver - 1300 America/Chicago - 1400 America/Toronto - 1800 Etc/GMT - 1900 Europe/Berlin - 2330 Asia/Kolkata – Fri Mar 13 0200 Asia/Singapore
- Atelier Emacs Montpellier (in person) https://lebib.org/date/atelier-emacs Fri Mar 13 1800 Europe/Paris
- M-x Research: TBA https://m-x-research.github.io/ Wed Mar 18 0900 America/Vancouver - 1100 America/Chicago - 1200 America/Toronto - 1600 Etc/GMT - 1700 Europe/Berlin - 2130 Asia/Kolkata – Thu Mar 19 0000 Asia/Singapore
Beginner:
- Emacs: Buffers, Frames, and Windows, A Brief Introduction « Here's The Beef (@BeefGriller@dice.camp)
Emacs configuration:
- Elpaca Version 0.1.0 (Reddit) accepts use-package :vc keyword
- Sacha Chua: Emacs Lisp: defvar-keymap hints for which-key
- Re-imagining the Emacs user experience with Casual Suite (Reddit, Irreal)
  - Charles Choi: Casual now available on NonGNU ELPA (Irreal)
- Two Years of Emacs Solo: 35 Modules, Zero External Packages, and a Full Refactor (Reddit)
Emacs Lisp:
- cosmicz/clime: Build real CLI tools in pure Emacs Lisp. Declare commands, options, and args in a single form — clime handles parsing, –help, error messages, and dispatch. ./myapp.el just works. · GitHub (Reddit)
- Async link fetching in Emacs
- Progress (GNU Emacs Lisp Reference Manual) (@kickingvegas@sfba.social)
- Emacs Internal #02: Data First — Deconstructing Lisp_Object in C | The Cloudlet (HN)
- [19] Working on Canvas API Patch - 3/8/2026, 2:28:14 PM - Dyne.org TV
- [19] Working on Canvas API Patch - 3/8/2026, 3:49:58 PM - Dyne.org TV
Appearance:
- Emacs Redux: Customizing Font-Lock in the Age of Tree-sitter
- Protesilaos Stavrou: Emacs: four new themes are coming to the ‘doric-themes’
Navigation:
- My first meaningful hack of Emacs (proper isearch) - search with recenter after threshold
- Emacs Redux: expreg: Expand Region, Reborn (Reddit, Irreal)
- Emacs Redux: Transpose All The Things (Irreal)
Dired:
- Chris Maiorana: The Emacs Way: Copying Files
Writing:
- Wai Hon: Introducing markdown-indent-mode (Reddit)
Org Mode:
- Curtis McHale: Stop Mixing DONE and TODO in Org — Auto-Sort Like a Pro (YouTube 05:15)
- a niche emacs productivity system (28:31)
- Irreal: Abrams On Literate Programming Redux
- We Should Revisit Literate Programming in the Agent Era | silly business (lobste.rs)
- TAONAW - Emacs and Org Mode: Display images with Org-attach and org-insert-link quickly and effectively
- Latex preview on Emacs tty
- Toward the Org Mode future: distributed notebooks (Reddit)
- Jeremias-A-Queiroz/chrono-org: extract logbooks for sleek, Clockify-style web visualizations using Chart.js and org-publish (Reddit)
- naiquevin/clockwise: visualize time records from org clock entries (@naiquevin@fosstodon.org)
- (update) org-supertag 5.8 & 5.8.1 - Board, Graph UI & Relation Index Optimization
- Remember to set org-latx-hyperref-template to nil if you're writing an anonymous referee report
- lazyblorg updates: tag feeds, random articles on this day, list of external URLs (@publicvoit@graz.social)
- Thanos Apollo: Gnosis: Design Mistakes Roam-inspired note-taking system, 0.8.0 release notes
- Org development: ob-tangle.el: Support tangling a source block to multiple targets
Completion:
- gggion/let-completion.el: Let-binding values in Elisp completion · GitHub (Reddit)
- Sacha Chua: Expanding yasnippets by voice in Emacs and other applications
Coding:
- Emacs Redux: Mastering Compilation Mode
- Tip on using built-in vc-mode with C-x v (useful: C-x v d, C-x v v, C-x v L)
- James Cherti: pathaction.el: execute pathaction rules, the universal Makefile for the entire filesystem (Github)
- gcv/julia-snail: An Emacs development environment for Julia · GitHub
- [EMACS LAB #2] Do zero a uma IDE para programar em C (parte 2) (01:17:59)
- Marcin Borkowski: Lispy and Iedit
- Meta Redux: What’s Next for clojure-mode?
- The Emacs Cat: Emacs, Software Development, and LLM
Math:
- Why did I create ESR (my thoughts on ESS) | Teoten's blog (@teoten@social.linux.pizza)
Evil mode:
- Sid Kasivajhula: On “Tempo” in Text Editing - normal Emacs commands in insert mode (Reddit)
Fun:
- Launching Brogue from Emacs via transient
AI:
- Bozhidar Batsov: Emacs and Vim in the Age of AI (@bbatsov@hachyderm.io)
- simple LLM text and images meets org-mode
- Claude Code + Org Mode + Git + Hooks
- Transformei meu segundo cérebro em uma IA em 4 minutos (08:43) - with org-roam
- Alvaro Ramirez: Bending Emacs - Episode 13: agent-shell charting (YouTube 28:11, Reddit)
- James Dyer: Ollama Buddy - Web Search Integration (YouTube 02:12)
Community:
- My Emacs Misconceptions — Where Are The Wise Men? (@mikehoss@appdot.net)
- Protesilaos Stavrou: I talk with Joshua Blais about Emacs and life issues
- Org Social social network summary, 2.11 update with bugfixes
- Org Social - Reading (@andros@activity.andros.dev)
Other:
- koreader json to org: convert KOReader JSON highlights to Org mode, also here (@srijan@indieweb.social)
- For Mac users: pbcopy.el spawns two subprocesses on every C-y - suggests alternate implementation
Emacs development:
- emacs-devel:
  - notes on CEDET and EDE
  - Re: Sending `quit` to a batch Emacs process - Eli Zaretskii Thinking about how to interrupt batch processes
- New user option and function 'recentf-exclude-ignored-extensions'
- New user option vc-display-failed-async-commands
- Make 'frame-use-time' more reliable. (bug#80397)
- Rename 'any' to 'member-if' and deprecate 'cl-member-if'
- New command 'unfill-paragraph'
- Revert "Rename 'any' to 'member-if' and deprecate 'cl-member-if'"
- Add mirroring for special glyphs (bug#80440)
- Rename 'any' to 'member-if' and deprecate 'cl-member-if'
- Make tree-sitter thing navigation handle nested parsers
New packages:
- emacs-lisp-intro-es: ELisp intro manual in Spanish (GNU ELPA)
- hackernews-modern: Hacker News client with modern widget UI (MELPA)
- helm-eca: Helm UI for ECA chats/workspaces (MELPA)
- let-completion: Show let-binding values in Elisp completion (MELPA)
- magit-browse-commit: Browse pull/merge requests from magit-blame (MELPA)
- markdown-indent-mode: Dynamic indentation for Markdown (MELPA)
- mathprog-ts-mode: Major mode for the GNU MathProg modeling language (MELPA)
- md-ts-mode: Major mode for Markdown using tree-sitter (MELPA)
- mutype: Type into stillness (MELPA)
- org-eval: Execute named org-mode blocks on load/save (MELPA)
- php-fill: Additional fill commands for PHP code editing (GNU ELPA)
- rtf-view: View Rich Text Format files (MELPA)
- solo-rpg: Solo roleplaying games support functions (MELPA)
- yomikata: Annotates Japanese text with reading tooltips (MELPA)

Links from reddit.com/r/emacs, r/orgmode, r/spacemacs, Mastodon #emacs, Bluesky #emacs, Hacker News, lobste.rs, programming.dev, lemmy.world, lemmy.ml, planet.emacslife.com, YouTube, the Emacs NEWS file, Emacs Calendar, and emacs-devel. Thanks to Andrés Ramírez for emacs-devel links. Do you have an Emacs-related link or announcement? Please e-mail me at sacha@sachachua.com. Thank you!

View Org source for this post

You can comment on Mastodon or e-mail me at sacha@sachachua.com.

Expanding yasnippets by voice in Emacs and other applications

Mar 4, 2026| emacs, audio, speech-recognition

Yasnippet is a template system for Emacs. I want to use it by voice. I'd like to be able to say things like "Okay, define interactive function" and have that expand to a matching snippet in Emacs or other applications. Here's a quick demonstration of expanding simple snippets:

Screencast of expanding snippets by voice in Emacs and in other applications

Transcript

00:00 So I've defined some yasnippets with names that I can say. Here, for example, in this menu, you can see I've got "define interactive function" and "with a buffer that I'll display." And in fundamental mode, I have some other things too. Let's give it a try.
00:19 I press my shortcut. "Okay, define an interactive function." You can see that this is a yasnippet. Tab navigation still works.
00:33 I can say, "OK, with a buffer that I'll display," and it expands that also.
00:45 I can expand snippets in other applications as well, thanks to a global keyboard shortcut.
00:50 Here, for example, I can say, "OK, my email." It inserts my email address.
01:02 Yasnippet definitions can also execute Emacs Lisp. So I can say, "OK, date today," and have that evaluated to the actual date.
01:21 So that's an example of using voice to expand snippets.

This is handled by the following code:

(defun my-whisper-maybe-expand-snippet (text)
  "Add to `whisper-insert-text-at-point'."
  (if (and text
           (string-match
            "^ok\\(?:ay\\)?[,\\.]? \\(.+\\)" text))
    (let* ((name
            (downcase
             (string-trim
              (replace-regexp-in-string "[,\\.]" "" (match-string 1 text)))))
           (matching
            (seq-find (lambda (o)
                        (subed-word-data-compare-normalized-string-distance
                         name
                         (downcase (yas--template-name o))))
                      (yas--all-templates (yas--get-snippet-tables)))))
      (if matching
          (progn
            (if (frame-focus-state)
                (progn
                  (yas-expand-snippet matching)
                  nil)
              ;; In another application
              (with-temp-buffer
                (yas-minor-mode)
                (yas-expand-snippet matching)
                (buffer-string))))
        text))
    text))

This code relies on my fork of whisper.el, which lets me specify a list of functions for whisper-insert-text-at-point. (I haven't asked for upstream review yet because I'm still testing things, and I don't know if it actually works for anyone else yet.) It does approximate matching on the snippet name using a function from subed-word-data.el which just uses string-distance. I could probably duplicate the function in my config, but then I'd have to update it in two places if I come up with more ideas.

The code for inserting into other functions is defined in my-whisper-maybe-type, which is very simple:

(defun my-whisper-maybe-type (text)
  "If Emacs is not the focused app, simulate typing TEXT.
Add this function to `whisper-insert-text-at-point'."
  (when text
    (if (frame-focus-state)
        text
      (make-process :name "xdotool" :command
                    (list "xdotool" "type"
                          text))
      nil)))

Someday I'd like to provide alternative names for snippets. I also want to make it easy to fill in snippet fields by voice. I'd love to be able to answer minibuffer questions from yas-choose-value, yas-completing-read, and other functions by voice too. Could be fun!

This is part of my Emacs configuration.

View Org source for this post

You can e-mail me at sacha@sachachua.com.