Otonom araçlara duyma yeteneği vermek

Nasıl Başlıyor: Ses, Özerklik ve Kentsel İstihbarat

Otonom araçları hayal ettiğimizde, çoğumuz kameralar, radarlar ve önümüzdeki yolu tarayan lidar sensörleri resmediyoruz. Nadiren düşündüğümüz şey işitme – İnsan sürüşünde önemli bir duyusal yöntem. İnsanlar olarak, belirli durumlarda, güvenli sürüş kararları vermek için oynayan honking, sirenler, havlayan köpekler veya çocuklar gibi seslere de güveneceğiz.

Bu proje basit ama güçlü bir sorudan doğdu:

Otonom araçlar, özellikle akıllı şehirlerdeki kentsel ortamlarda çevresel ses tanımadan yararlanabilir mi?

Ve eğer öyleyse, üzerinde çalışmasını sağlayabilir miyiz Raspberry Pi gibi düşük maliyetli gömülü sistemler?


Motivasyon: Neden yeni bir veri kümesi gerekliydi?

Efendimin araştırması sırasında mevcut verilerde net bir boşluk bulduk: Çevresel Ses Tanıma için birçok veri kümesi (ESR) olsa da, hiçbiri gerçek dünya otonom araç uygulamaları için tasarlanmadı.

Mevcut veri kümelerinin çoğu:

  • Çok genel (araca özgü değil);
  • Akıllı şehirler bağlamında kentsel gürültü koşullarını temsil etmemek;
  • Sınırlı bilgi işlem gücüne sahip cihazlarda kenar dağıtım için yapılandırılmamıştır.
Otonom araçlarla ilgili ESC-10, BDLIB2 ve US8K veri kümeleri içindeki sınıfların öznel değerlendirilmesi. US8K sınıflarına göre US8K_AV veri kümesindeki sınıflar için teklif

Aynı zamanda, ses tanımanın akıllı evler, sağlık hizmetleri ve vahşi yaşam izleme gibi alanlarda etkili olduğu kanıtlanmıştır. Getirmenin zamanı gelmişti işitme ile hareketlilik.


US8K_AV veri kümesini oluşturma

Otonom sürüşün ihtiyaçlarına daha iyi uymak için iyi bilinen Urbansound8K (US8K) veri kümesini ESR'de standart bir ölçüt-uyarlayarak başladık.

1. Adım: Alakasız sınıfları filtreleme

'Air_conditioner' ve 'Gun_shot' gibi sınıflar kentsel hareketlilik bağlamında alakasız kabul edildi ve veri kümesinden çıkarıldı.

2. Adım: 'Arka Plan' sınıfını oluşturma

Bazı sınıflar (örneğin, 'sondaj', 'motor_idling', 'jackhammer', 'Street_music') genel kentsel gürültüyü temsil eden 'arka plan' adlı yeni bir sınıfa birleştirildi.

Adım 3: Yeni bir sınıf ekleme – 'Sessizlik'

Sessizliği sadece düşük hacimli ses olarak ele almak yerine, gerçek dünya sessizliği Farklı yerlerden örnekler, bunları açıkladı ve yeni bir sınıf olarak dahil etti. Bu, modellerin sessiz ortamları aktif olarak tanımasına ve tepki vermesine izin verir – Olay segmentasyonutemel kalibrasyonVe güç tasarrufu mekanizmaları.

Adım 4: Yapının korunması ve veri sızıntısını önleme

Veri kümesi dikkatlice 10 kata bölündü, bu da tek bir ses kaynağından gelen tüm dilimlerin aynı kata yerleştirilmesini sağladı. Bu, hem eğitim hem de test setlerindeki kopyalanan örnekler nedeniyle aşırı iyimser sonuçları önler.

Sonuç US8K_AV veri kümesi:

  • 4,908 açıklamalı WAV dosyası;
  • 4.94 saat ses;
  • 6 anlamlı ses sınıfları;
  • Gömülü sistemler ve gerçek dünya kullanımı için tasarlanmıştır.
US8K_AV'ın kıvrımları arasında sınıf dağılımı

Model sonuçları ve gerçek zamanlı test

Geleneksel makine öğrenme algoritmaları (SVM, lojistik regresyon, rastgele orman) ve derin öğrenme mimarileri (ANN, CNN 1D, CNN 2D) dahil olmak üzere çeşitli sınıflandırıcıları karşılaştırdık.

Bunu bulduk Log-help spektrogramları (türevleri ile) üzerinde eğitilmiş 2d konvolüsyonel sinir ağı (CNN 2D), bir Raspberry Pi 4'te konuşlandırıldığında bile doğruluk, bellek kullanımı ve hız arasındaki en iyi değişimi sağladı.

CNN 2D mimarisinin temsili

Temel önemli noktalar:

  • CNN 2D gerçek dünya verilerinde>% 80 doğruluk elde etti;
  • Raspberry Pi'de yanıt süresi <50 ms;
  • İlgili sınıflar için orijinal US8K üzerinde önemli F1-skor iyileştirmeleri.

Fall, performans, ilgili tüm kategorilerde gelişti, sınıf birleştirme ve sınıf ekleme metodolojimizi doğruladı.


Gerçek Dünya Uygulamaları

Bu veri kümesi, özellikle akıllı şehirlerdeki kentsel otonom araçlar için, CityBot gibi, pratik kullanım durumları göz önünde bulundurularak tasarlanmıştır.

Kullanım durumları şunları içerir:

  • 🚸 Oynayan Çocuklar Bir çitin arkasında – bir kamera onları göremez, ancak bir mikrofon onları duyabilir;
  • 🐕 Köpek havlaması veya 🚗 hon – kavşaklara veya kör noktalara yaklaşırken kullanışlıdır;
  • 🚨 Siren tespiti -Acil durum araçlarına sadece görme tabanlı sensörlerden daha erken yanıt verir.

Bir sessizlik sınıfı Ayrıca sistemlerin hareketsizlik dönemlerini belirleyerek enerji verimliliği ve segmentasyona yardımcı olmasını sağlar.


Öğrenilen zorluklar ve dersler

Beklenmedik bir meydan okuma mı?

Gerçek sessizlik bulmak …

Kentsel ortamlarda gerçek sessizlik nadirdir ve iyi belgelenmiş, gürültüsüz kayıtların toplanması önemli zaman ve kürasyon aldı.

Başka bir ders: dengeleme bilimsel titizlik ile pratik dağıtım. Amacımız sadece başka bir veri kümesi yayınlamak değil, aynı zamanda kullanılabilir ve tekrarlanabilir bir şey yaratmaktı – bir Raspberry Pi'de çalışabilecek ve hala gerçek dünyada anlamlı olabilecek bir şey.


Topluluğa Bir Davet

US8K_AV'ı nihai bir ürün olarak değil, gelecekteki çalışmaların temelini oluşturuyoruz.

Araştırmacıları şunlara davet ediyoruz:

  • Diğer araç türleriyle ilgili yeni sınıflar ekleyin;
  • Veri kümesini diğer bölgelerden kayıtlarla genişletmek;
  • Farklı kenar hesaplama ortamlarında kullanın;
  • Akustik ve görsel verileri birleştiren sensör füzyonunu keşfedin.

🔗 Tüm kaynak kodu, tez ve veri kümesi herkese açıktır:


Son Düşünceler: Neden İşitme Önemlidir?

Otonom araçlar giderek daha yetenekli hale geliyor. Ama yeteneği olmadan duymakhala önemli bir duyguyu kaçırıyorlar – insanların her gün güvende kalmak, kazalardan kaçınmak ve bilinçli kararlar vermek için kullandıkları.

Umudumuz, bu veri kümesinin başkalarına vizyon ve radarın ötesinde düşünmeleri için ilham vermesi ve sesi bir Zengin, az kullanılan çevresel bağlam kaynağı.

Çünkü bazen …

Bilmeniz gereken en önemli şey … duyduğunuz şey!


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir