Hur möjliggör ljud nästa generations innehåll på smartphones?

Hur möjliggör ljud nästa generations innehåll på smartphones?

Sobre el autor

Jyri Huopaniemi är Head of Technology Licensing på Nokia Technologies

Sedan lanseringen av den första smartphonen för mer än tio år sedan har FoU-team, ingenjörer och industridesigners engagerat sig i en ständigt accelererande kamp för innovation.

Konsumenter har sett sin enhetsteknik förändras snabbt. De har nu tillgång till datorfunktioner och funktioner som nyligen ansågs vara omöjliga att uppnå med en så smal formfaktor. Nu använder vi artificiell intelligens dagligen för att hitta det bästa sättet att arbeta. Vi kan strömma de senaste filmerna nästan direkt.

Några av de största framstegen har varit i den inbyggda kameran i dessa enheter. Vi bygger på korniga bilder för drygt tio år sedan och kan nu ta bilder och video i 4K-kvalitet, förstärkt med artificiell intelligens för att producera innehåll av professionell kvalitet.

I allt högre grad har FoU-team också insett möjligheterna att införliva förbättrad sensorisk teknik i smartphones. Detta är uppenbart i nuvarande trender inom AR och spel, men också alltmer i traditionella sensorer som mikrofoner. När det gäller ljud är ett av dagens uppdrag att matcha ljudkapaciteten med högupplösta bilder och videofunktioner hos dagens kameror.

Ljudfunktioner för att låsa upp nästa generations upplevelser

Utöver borttagningen av det traditionella ljudjacket har smarttelefonljudinnovationer varit begränsade de senaste åren.

Generellt sett har fokus legat på att förbättra den övergripande kvaliteten. Ljudupplevelsen har inte förändrats mycket sedan Walkman- eller MP3-spelarens dagar: stereo i bästa fall, men ofta fortfarande mono, med möjligheten att justera avläsningen.

Konsumenter förlitar sig också ofta på att köpa extern utrustning för att förbättra lästydligheten. De senaste åren har vi sett en positiv trend inom smarta högtalare och förbättrad röst- och ljudkvalitet på smartphones, vilket helt klart är ett steg i rätt riktning.

De flesta av förbättringarna i ljudenheter har till stor del begränsats till att spela upp professionellt innehåll. Innovativa FoU-team har möjlighet att tänka om ljudupplevelsen och anpassa sig till vad som kan uppnås genom bild- och videoinspelning.

Genom att integrera sensorisk teknik och intelligent programvara kan enhetstillverkare radikalt ompröva ljudupplevelsen, vilket ger användarna mer kontroll över hur de fångar ljud. Låt oss se två exempel:

  • Intelligenta ljudalgoritmer som möjliggör rumslig ljudinsamling kan också aktivera ljudzoomfunktionen. Zoomfunktionen fungerar som ett teleobjektiv för ljud och låter användare isolera och komma närmare den önskade ljudkällan och överrösta oönskat brus,
  • Samma teknik kan också dynamiskt spåra rörliga ljudkällor, samt automatiskt ta bort oönskade ljud som vindbrus. Även post-capture-redigering av ljudscenen kan nu implementeras, vilket ger mer kontroll över en inspelad scen, vilket skapar praktiskt taget obegränsade möjligheter för att berätta våra historier.
  • Föreställ dig en pappa som går på en pjäs i sin sons skola. Historiskt sett måste du kämpa mot dålig akustik och störande ljud från publiken, samtidigt som du accepterar att kvaliteten på det fångade ljudet skulle begränsas av ditt avstånd från scenen (för att inte tala om det dämpade spelandet av nervösa unga skådespelare).

    Idag kan innovativ ljudteknik mildra dessa omständigheter för att tillhandahålla nya funktioner för användarna. Även om Spatial Audio Capture återger ljudscenen under uppspelning, löser den inte problemet med omgivande brus och låter dig inte komma närmare handlingen. Det är här ljudzoom och spårningsfunktioner kommer in i bilden.

    Tack vare smarttelefonens kameragränssnitt kan användaren nu zooma in på ljud med video samtidigt som den tar bort omgivande ljud från rummet - skaka stolar, chatta över rummet och skaka barnen. Dessutom kan nyckelspelaren väljas dynamiskt och spåras, så att du kan fånga deras prestanda i varje detalj.

    Hårdvara och mjukvara äktenskap i forsknings- och utvecklingsstadiet.

    Dessa möjligheter uppnås av programvara som fungerar med hårdvara. Detta kräver inte en betydande återuppfinning av nuvarande formfaktorer. Men detta kräver en nära relation mellan enhetsingenjörer och designers.

    I samarbete med designteamet kan mjukvaruingenjörer och forsknings- och utvecklingsteam anpassa algoritmer för att fånga rumsligt ljud med de unika specifikationerna för enhetens formfaktor. Denna nära koppling är viktig eftersom placeringen av mikrofoner i smarttelefonen kommer att bidra till kvaliteten på de resulterande applikationerna. Du kommer också att bestämma vilka förmågor som kan uppnås.

    Även om optimal placering inte alltid är möjlig utan att kompromissa med formfaktorn, kan detta problem till stor del lösas tidigt i forsknings- och utvecklingsfasen. Med hjälp av akustiska laboratoriemätningar kan ljudalgoritmerna som analyserar och bearbetar de multipla mikrofonsignalerna kalibreras efter plats. Detta bidrar i hög grad till att bevara formfaktorns integritet och bestämmer också vilka funktioner som kan byggas.

    Dessa måste också fungera i harmoni med enhetens datorkraft. Detta kan inkludera integration med artificiell intelligensmotorer för att möjliggöra ljudobjektigenkänning, så att användare kan fokusera på ljud eller ta bort irriterande bakgrundsljud.

    Även om demokratisering av uppslukande ljudåtkomst är halva ekvationen, är det andra väsentliga elementet att säkerställa enkel användning av dessa funktioner. Ett effektivt användargränssnitt är en annan viktig tillgång: det måste vara lika intuitivt som hur vi använder videoinspelning idag. Återigen måste mjukvaruutvecklare arbeta nära med FoU och ingenjörer för att säkerställa att dessa funktioner är enkla att använda.

    Behovet av verkligt uppslukande innehåll

    Enhetstillverkare måste fråga varför och hur människor använder sina smartphones för att kommunicera idag. I en digital värld fylld av sociala kanaler där vi delar våra liv dagligen, kan vikten av den teknik vi använder för att fånga och dela viktiga ögonblick inte överskattas.

    Detta illustreras av det faktum att nästan 60 % av internetanvändarna laddar ner och delar videor online idag, medan nästan 80 % av tittarna konsumerar detta innehåll via smartphones.

    Att erbjuda nya upplevelser bör inte vara en reaktion på efterfrågan. Det borde vara dags att sätta standarden för innovation. Att utveckla mer meningsfulla medier för att ansluta till digitala medier, oavsett om det är användargenererat eller professionellt innehåll, borde vara smartphonetillverkarnas primära mål.

    Att utveckla sensorisk teknik som fångar den bästa bilden av vår miljö är nyckeln. Faktum är att när vi inte är fördjupade i att streama den senaste TV-serien är det vi som är historieberättarna. Enheter som gör att vi kan skapa nya nivåer av fördjupning, fördjupa relationerna med vår familj, våra vänner och en större publik, stärker oss som berättare.

    Tillverkare av originalenheter som förstår ljudets roll för att främja digitalt innehåll har sannolikt fortfarande en fördel gentemot sina konkurrenter. De kommer att ta ledningen när det gäller att tillhandahålla produkter som erbjuder verklig marknadsdifferentiering.

    Detta är allt viktigare för att kunna stödja nya former av digitalt innehåll och ny teknik. Nya mobila tekniker som 5G, såväl som de utvecklande funktionerna för virtuell och förstärkt verklighet, bör bidra till att skapa allt mer uppslukande upplevelser. Dessa avancerade ljudtekniker kommer att vara en viktig ingrediens för dess spridning.

    Jyri Huopaniemi är ansvarig för tekniklicensiering på Nokia Technologies.