Integreer spraakassistenten in draagbare speakers en slimme headsets

Door Majeed Ahmad

Bijgedragen door De Noord-Amerikaanse redacteurs van DigiKey

2019-09-26

Virtuele assistenten zoals Amazon's Alexa, Apple's Siri, Microsoft's Cortana en Google Assistant stimuleren de creatie van slimme, spraakgestuurde apparaten. Deze variëren van Bluetooth-headsets die aan smartphones en andere mobiele apparaten zijn gekoppeld tot slimme speakers voor thuis- en kantoorautomatisering en consumentenelektronica zoals tv's. Terwijl spraak steeds vaker worden gebruikt voor het besturen van functies zoals naar muziek luisteren, bellen en gebruik van biometrische sensoren, blijft het voor ontwerpers een uitdaging om spraak te identificeren, vast te leggen en draadloos te verzenden in vaak zowel akoestisch als elektrisch lawaaierige omgevingen.

Wat nodig is, zijn robuuste ruisonderdrukkingstechnieken en een even robuuste draadloze interface, samen in een eenvoudig pakket, zodat ontwikkelaars kunnen experimenteren en de oplossing snel kunnen toepassen om zowel tijd als kosten te besparen.

Dit artikel introduceert verschillende spraakopnameoplossingen van Cirrus Logic, XMOS en Qualcomm om ontwerpers te helpen snel aan de slag te kunnen met next-generation spraakgestuurde mobiele apparaten en headsets.

Spraakopnameoplossing

Terwijl bedrijven zoals Apple en Microsoft hun oplossingen implementeerden in smartphones en computers, bracht Amazon Alexa op de markt met de slimme speaker Echo en breidde het gebruik vervolgens uit naar andere apparaten.

De Echo bevat echter zeven microfoons, wat te veel is voor kleine handheld-apparaten waar ruimte, kosten en vermogen prioriteit zijn. Chipfabrikanten zoals Cirrus Logic komen nu met eenvoudiger ontwerpoplossingen om ontwerpers te helpen Alexa te implementeren in verschillende slimme apparaten en andere vormfactoren van audiosystemen.

Zo zijn er bijvoorbeeld smart home-toepassingen die Alexa Voice Service (AVS) gebruiken voor spraakgestuurde verlichting en keukenapparatuur, handsfree draagbare speakers en netwerkspeakers. Om de gebruikerservaring te verbeteren, zijn oplossingen nodig die ruis en andere omgevingsgeluiden onderdrukken voor nauwkeuriger en betrouwbare spraakinteracties.

De implementatie van een spraakassistent vereist een zeer nauwkeurige activeringsfrase-herkenning en opdrachtinterpretatie, ook in lawaaierige omgevingen of wanneer er muziek wordt afgespeeld. Ook echo-opheffing is van cruciaal belang voor het bereiken van een superieure gebruikerservaring. Zo kan de gebruiker harde muziek en Alexa’s reacties onderbreken, zodat nauwkeurig op nieuwe verzoeken kan worden gereageerd.

Een goede set om mee te beginnen is de 598-2471-KIT AVS-spraakopname ontwikkelingsset van Cirrus Logic. Deze set is speciaal bedoeld voor het integreren van Alexa-mogelijkheden in compacte audioapparaten met akoestisch afgestemde audioverwerkingshardware en softwarecomponenten (Afbeelding 1). De set is gebaseerd op een Raspberry Pi 3-platform en bevat een referentiebord met de CS47L24-CWZR slimme codec van Cirrus Logic, digitale MEMS-microfoons en SoundClear^®-algoritmen voor spraakbesturing, ruisonderdrukking en echo-opheffing.

Afbeelding van de 598-2471-KIT ontwikkelingsset voor spraakopname van Cirrus Logic Afbeelding 1: De 598-2471-KIT ontwikkelingsset van Cirrus Logic voor spraakbesturing van AVS-compatibele apparaten biedt de mogelijkheid om een spraakopnamekaart (rechtsboven) via een kabel aan een Raspberry Pi 3 (linksboven) te bevestigen of als HAT boven op de Raspberry Pi 3 te plaatsen. (Bron afbeelding: Cirrus Logic)

Bouwstenen voor spraakopname

Het spraakopnameproces begint met de CS47L24-spraakprocessor die een dual-core 300 MMAC DSP combineert met een audio hub codec voor tal van energiezuinige, audioverwerkingsblokken elk met een bepaalde (Afbeelding 2). De programmeerbare DSP-kernen ondersteunen een reeks geavanceerde audioverwerkingsfuncties, zoals ruisonderdrukking met meerdere microfoons, akoestische echo-opheffing (AEC) en spraakherkenning.

Diagram van de CS47L24-spraakprocessor van Cirrus Logic Afbeelding 2: Spraakopname op de set begint met de CS47L24-spraakprocessor die een dual-core 300 MMAC DSP combineert met een audio hub codec voor tal van energiezuinige audioverwerkingsblokken elk met een bepaalde functie. (Bron afbeelding: Cirrus Logic)

De CS47L24 slimme codec maakt gebruik van een on-chip digitaal-analoog omzetter (DAC) met een monospeakerdriver van 2 watt voor hifi-audioweergave. Deze ondersteunt automatische samplefrequentiedetectie voor wideband- en narrowband-spraakoverdracht. Er zijn drie digitale audio-interfaces op de CS47L24-processor, die elk een reeks standaard samplefrequenties en seriële interface-indelingen ondersteunen.

De CS47L24 wordt gevoed door een 1,8 volt en een 1,2 volt externe voeding. De voedings-, clocking- en de uitgangsdriver-architecturen zijn allemaal ontworpen voor laag vermogen in spraak-, muziek- en standby-modi. Ook is de CS47L24 uitgerust met een afzonderlijke MICVDD-ingang voor het gebruik van een microfoon boven 1,8 volt.

De digitale MEMS-microfoon-IC en bijbehorende SoundClear-algoritmen voor spraakbesturing, ruisonderdrukking en echo-opheffing zorgen voor hoogkwalitatieve audio op de ingang en verminderen het stroomverbruik van de microfoon. De IC ondersteunt twee operationele modi: een low power-modus die geschikt is voor altijd-aan spraakdetectie en een high performance-modus die is geoptimaliseerd voor hifi-opnamen. De modus wordt bepaald door de gebruikte klokfrequentie.

De microfoon bevat een analoog-digitaal omzetter (ADC) om een single bit datastream uit te voeren met behulp van pulsmensiteitsmodulatie (PDM) codering en om efficiënt meerdere microfoons aan te sluiten in stereo- en arrayconfiguraties. Voor ontwerpers is het belangrijk om multi-microfoon-IC's te gebruiken, omdat deze kunnen worden geoptimaliseerd voor robuuste ruisonderdrukking en echo-opheffing met behulp van straalvormingstechnieken, om de helderste full-duplex communicatie en audio-opname te bereiken.

De MEMS-microfoon moet tevens een breed dynamisch bereik mogelijk maken (100 decibel (dB) is een goed startpunt) tussen de ruisvloer en het akoestische overbelastingspunt. Dit maakt hifi audio-opname mogelijk in zowel stille als luide omgevingen. Zo kan bijvoorbeeld laag niveau audio zoals klassieke muziek of stemgeluid worden opgenomen zonder achtergrondgesis. Tegelijkertijd zorgt het ervoor dat zeer harde geluiden zoals rockconcerten en windgeruis geen vervormingen veroorzaken in de microfoon.

SoundClear-algoritmen elimineren ruis door verwerkingsfuncties zoals ruisonderdrukking, Enhance™ automatische spraakherkenning (ASR) en echo-opheffing.

Farfield spraakopname

Een andere oplossing voor spraakopname is de XK-VF3500-L33-AVS VocalFusion™ stereo-ontwikkelingsset voor Amazon AVS, gemaakt door XMOS. Deze set is bedoeld voor verafgelegen (farfield) toepassingen, zoals smart-tv's, soundbars, settopboxen en digitale media-adapters. Dergelijke toepassingen vereisen stereo AEC-ondersteuning voor kamerwijde spraakinterface-oplossingen en stellen gebruikers in staat om bijvoorbeeld de tv aan te zetten en de schemerlamp te dimmen met behulp van spraakopdrachten.

Bij farfield spraakopnametoepassingen moeten AEC-referentiesignalen nauwkeurig worden gekalibreerd en de latentie zorgvuldig worden aangepast. Zo kunnen ontwerpers er zeker van zijn dat de farfield spraaktoepassingen die ze ontwerpen de spraakopdrachten van de gebruiker kunnen horen en nauwkeurig kunnen vastleggen, ongeacht het volume van de opdracht en de omgeving.

De VocalFusion-set is een lineaire microfoonarrayoplossing die door Amazon is gekwalificeerd voor farfield-prestaties. Hiermee kunnen ontwerpers Alexa in edge-of-room-apparaten installeren, zoals smart-tv's, verlichting en huishoudelijke apparaten. De set bevat de XVF3500-FB167-C spraakprocessor die tweekanaals full-duplex AEC levert ter ondersteuning van spraakopname in complexe akoestische omgevingen (Afbeelding 3). De DSP-compatibele AEC-functionaliteit vergemakkelijkt dereverberatie, automatische versterkingsregeling en ruisonderdrukking voor een gegarandeerd duidelijke spraakinteractie, zelfs in lawaaierige omgevingen.

Diagram van de XVF3500-spraakprocessor van XMOS Afbeelding 3: De XVF350-spraakprocessor maakt gebruik van adaptieve beamforming om de gewenste spraakbron te lokaliseren en spraakopdrachten effectief te isoleren van de stereo-audio, terwijl achtergrondruis en ruimte-echo's worden onderdrukt. (Bron afbeelding: XMOS)

De VocalFusion-set gebruikt vier IM69D130V01XTSA1 MEMS-microfoons van Infineon XENSIV™ die onbewerkte audiodata leveren aan de audiosignaalverwerkingsalgoritmen op de XVF3500-spraakprocessor. De IM69D130-microfoons zijn ontworpen voor opnameprestaties van verafgelegen en gefluisterde spraak en om totale harmonische vervorming (THD) van minder dan 1% bij geluidsdrukniveaus (SPL's) tot 128 dB mogelijk te maken.

Dankzij de 'barge in'-mogelijkheid van het spraakopname-ontwerp kunnen gebruikers muziek onderbreken of pauzeren. Dit biedt nieuwe mogelijkheden voor op Alexa gebaseerde ontwerpen in stereo home entertainment en AV-apparatuur (Afbeelding 4).

Afbeelding 4: Een spraakopnameprocessor en microfoon creëren samen een spraakinterface voor farfield Alexa-toepassingen. (Bron afbeelding: Infineon Technologies)

Een voorbeeld van een real-world implementatie is de kunstmatige intelligentie (AI) smart tv van Skyworth die gebruik maakt van de XVF3500-spraakprocessor. De altijd-aan smart tv wordt geactiveerd en reageert op spraakopdrachten met 180° all-dimensional geluidsbronidentificatie tot een afstand van 5 meter (m).

Slimme headsets

Aan de andere kant van het ontwerpspectrum bevinden zich oordopjes en headsets. In combinatie met smartphones en tablets vereisen deze in toenemende mate integratie van een spraakassistent voor agendabeheer, smart home-bediening, streamen van muziek en weersberichten. Net als slimme speakers vereisen Bluetooth-headsets continue verbetering om hoogkwalitatieve audio in lawaaierige omgevingen te verzenden.

De referentieontwerp- en ontwikkelingssets van Qualcomm voor AVS en Google Assistant-platforms zijn belangrijke bouwstenen waarmee ontwikkelaars snel en eenvoudig spraakgestuurde headsets en hearables kunnen ontwerpen. Referentieborden helpen ontwikkelaars om de spraakassistenten te evalueren, terwijl ontwerpsets ontwerpers in staat stellen om gebruik te maken van de volledige ontwikkelomgeving.

Neem nu de DK-QCC5124-GAHS-A-0 slimme headset ontwikkelingsset voor de Google Assistent, vervaardigd door Qualcomm. Deze set ondersteunt drukknopactivering voor de Google-spraakassistent op Android-telefoons waarop de Google Assistent-app is geïnstalleerd. De set bevat een Bluetooth audiochipset van Qualcomm die de ruisonderdrukkingstechnologie Qualcomm Clear Voice Capture (cVc™) gebruikt om de stem van een beller te verbeteren door omgevingslawaai te verminderen via ruisonderdrukking en andere audioverbeteringen.

De cVc 6.0-technologie vermindert pakketverlies en bitfouten via een reeks ruisonderdrukkingsalgoritmen, voor heldere telefoongesprekken. Een andere opmerkelijke technologie is Qualcomm aptX™ HD die lage latenties mogelijk maakt voor krachtige audiostreaming. Dit is een high-definition Bluetooth audiocodec die is ontworpen om de signaal-ruisverhouding te verbeteren en achtergrondruis te verlagen.

Qualcomm's DK-QCC5124-AVSHS-A-0 slimme headset-referentieontwerp voor Amazon AVS ondersteunt zowel cVc 6.0-ruisonderdrukking als aptX HD draadloze audiotechnologieën. Ook wordt drukknopactivering voor Alexa op mobiele telefoons met de Alexa-app ondersteund.

Het platform is gebouwd rond de QCC5124 Bluetooth transceiver-chipset van Qualcomm en ondersteunt de Alexa Mobile Accessory-set (AMA) waarmee gebruikers eenvoudig Bluetooth met de Alexa Mobile-app op Android- en iOS-apparaten kunnen verbinden (Afbeelding 5). De AMA-set vergemakkelijkt de communicatie van spraakopdrachten van de headset naar Alexa via de telefoon, terwijl Amazon AVS het zware werk doet voor een natuurlijke taalverwerking.

Diagram van het Qualcomm DK-QCC5124-AVSHS-A-0 ontwikkelingsbord Afbeelding 5: Het DK-QCC5124-AVSHS-A-0 ontwikkelingsbord voor Amazon AVS bevat de belangrijkste bouwstenen van een slim headsetontwerp. (Bron afbeelding: Qualcomm)

Dit betekent twee dingen: ten eerste hoeven ontwikkelaars het overgrote deel van programmeren voor hun Alexa-integratie niet te overzien en ten tweede hoeven ontwikkelaars behalve voor Bluetooth-connectiviteit geen andere communicatiehardware toe te voegen.

Op een hoger niveau stelt de AMA-set Amazon AVS in staat om communicatie tussen spraakaccessoires, zoals een slimme headset, en de Alexa-service te vergemakkelijken via een bedieningsmechanisme dat werkt tussen het spraakaccessoire en de Alexa Mobile-app.

Ontwikkelaars kunnen na de evaluatie een open-board ontwikkelingsset gebruiken. Voor het programmeren van de open-board ontwikkelingsset is echter een Transaction Bridge (DK-TRBI200-CE684-1) nodig die niet bij de set is inbegrepen, maar afzonderlijk kan worden gekocht.

Conclusie

Voor ontwerpers die spraakassistenten in hun volgende ontwerp willen integreren, hebben halfgeleiderleveranciers al veel van het zware werk gedaan op het gebied van activeringsfrase-herkenning, ruisonderdrukking en energiezuinige altijd-aan mogelijkheden. Met behulp van referentieontwerpen en ontwikkelingssets kunnen ontwerpers oplossingen voor spraakopname ontwikkelen voor tal van intelligente spraakbesturingstoepassingen, van slimme headsets en slimme speakers tot volledige spraakbesturing thuis.

Disclaimer: The opinions, beliefs, and viewpoints expressed by the various authors and/or forum participants on this website do not necessarily reflect the opinions, beliefs, and viewpoints of DigiKey or official policies of DigiKey.