ใช้เทคนิคการเรียนรู้ลึกเพื่อค้นหากิจกรรมของมนุษย์ที่มีศักยภาพในวิดีโอ

Anonim

เมื่อเจ้าหน้าที่ตำรวจเริ่มยกมือขึ้นในการจราจรคนขับรถตระหนักว่าเจ้าหน้าที่กำลังจะส่งสัญญาณให้หยุด แต่คอมพิวเตอร์รู้สึกว่าการกระทำต่อไปของผู้คนอาจเป็นไปได้ยากขึ้นจากพฤติกรรมปัจจุบันของพวกเขา ขณะนี้ทีมวิจัยของ A * STAR และเพื่อนร่วมงานได้พัฒนาเครื่องตรวจจับที่สามารถตรวจจับได้ว่าการกระทำของมนุษย์จะเกิดขึ้นกับวิดีโออย่างไรในเกือบเรียลไทม์

Hongyuan Zhu นักวิทยาศาสตร์ด้านคอมพิวเตอร์ของ A * STAR Institute for Infocomm Research กล่าวว่าเทคโนโลยีการวิเคราะห์ภาพจะต้องมีความเข้าใจในความตั้งใจของมนุษย์มากขึ้นหากต้องการใช้งานในรูปแบบต่างๆ คนขับรถต้องสามารถตรวจจับเจ้าหน้าที่ตำรวจและตีความการกระทำของตนได้อย่างรวดเร็วและถูกต้องเพื่อความปลอดภัยในการขับขี่เขาอธิบาย ระบบอิสระสามารถได้รับการฝึกอบรมเพื่อระบุกิจกรรมที่น่าสงสัยเช่นการต่อสู้การโจรกรรมหรือการทิ้งรายการที่เป็นอันตรายและเจ้าหน้าที่รักษาความปลอดภัยแจ้งเตือน

คอมพิวเตอร์มีอยู่แล้วที่ดีมากในการตรวจจับวัตถุในภาพนิ่งโดยใช้เทคนิคการเรียนรู้ลึก ๆ ซึ่งใช้เครือข่ายประสาทเทียมเพื่อประมวลผลข้อมูลภาพที่ซับซ้อน แต่วิดีโอที่มีวัตถุเคลื่อนไหวเป็นสิ่งที่ท้าทายมากขึ้น "ความเข้าใจในการกระทำของมนุษย์ในวิดีโอเป็นขั้นตอนที่จำเป็นในการสร้างเครื่องที่ชาญฉลาดและเป็นมิตรมากขึ้น" จู้กล่าว

วิธีก่อนหน้าในการค้นหาการกระทำของมนุษย์ในวิดีโอไม่ได้ใช้กรอบการเรียนรู้ที่ลึกและช้าและมีแนวโน้มที่จะเกิดข้อผิดพลาด Zhu กล่าว เพื่อหลีกเลี่ยงปัญหานี้เครื่องตรวจจับ YoTube ของทีมรวมเครือข่ายประสาทเทียมสองแบบแบบขนาน: เครือข่ายประสาทเทียมแบบสถิตที่พิสูจน์แล้วว่ามีความถูกต้องในการประมวลผลภาพนิ่งและเครือข่ายประสาทที่เกิดขึ้นบ่อยครั้งซึ่งมักใช้สำหรับการประมวลผลข้อมูลที่เปลี่ยนแปลงไป. "วิธีการของเราเป็นครั้งแรกที่จะนำมาตรวจสอบและติดตามร่วมกันในท่อการเรียนรู้ลึกหนึ่ง" Zhu กล่าวว่า

ทีมทดสอบ YoTube ในวิดีโอมากกว่า 3, 000 วิดีโอที่ใช้เป็นประจำในการทดสอบการมองเห็นด้วยคอมพิวเตอร์ รายงานระบุว่ามีประสิทธิภาพดีกว่าเครื่องตรวจจับที่ทันสมัยและสามารถตรวจจับการกระทำของมนุษย์ได้ประมาณร้อยละ 20 สำหรับวิดีโอที่แสดงกิจกรรมในชีวิตประจำวันโดยทั่วไปและประมาณ 6 เปอร์เซ็นต์สำหรับวิดีโอกีฬา เครื่องตรวจจับบางครั้งทำผิดพลาดหากคนในวิดีโอมีขนาดเล็กหรือถ้ามีคนจำนวนมากอยู่เบื้องหลัง อย่างไรก็ตามจู้กล่าวว่า "เราได้แสดงให้เห็นว่าเราสามารถตรวจจับขอบเขตการกระทำของมนุษย์ได้มากที่สุดในลักษณะเกือบจะเรียลไทม์"

menu
menu