แคชความหมายสำหรับการวิเคราะห์ภาพที่เปิดใช้งาน AI

Anonim

ความพร้อมใช้งานของเซ็นเซอร์ความละเอียดสูงและราคาไม่แพงได้เพิ่มปริมาณข้อมูลที่ผลิตขึ้นอย่างมากซึ่งอาจครอบงำอินเทอร์เน็ตที่มีอยู่ สิ่งนี้นำไปสู่ความจำเป็นในการคำนวณความสามารถในการประมวลผลข้อมูลที่อยู่ใกล้กับจุดที่สร้างขึ้นที่ขอบของเครือข่ายแทนการส่งไปยังดาต้าเซ็นเตอร์ระบบคลาวด์ การคำนวณตามขอบ (Edge computing) ไม่เพียงช่วยลดความเครียดในแบนด์วิดท์เท่านั้น แต่ยังช่วยลดเวลาในการรับข้อมูลจากข้อมูลดิบ อย่างไรก็ตามความพร้อมใช้งานของทรัพยากรที่อยู่ในขอบ จำกัด เนื่องจากไม่มีการประหยัดต่อขนาดซึ่งทำให้โครงสร้างพื้นฐานระบบคลาวด์มีประสิทธิภาพในการจัดการและนำเสนอ

ศักยภาพของการประมวลผลแบบ edge คืออะไรที่เห็นได้ชัดกว่าการวิเคราะห์วิดีโอ กล้องวิดีโอความละเอียดสูง (1080p) กลายเป็นเรื่องธรรมดาในโดเมนเช่นการเฝ้าระวังและขึ้นอยู่กับอัตราเฟรมและการบีบอัดข้อมูลสามารถผลิตข้อมูลได้ 4-12 เมกะบิตต่อวินาที กล้องความละเอียด 4K รุ่นใหม่ผลิตข้อมูลดิบตามลำดับของกิกะบิตต่อวินาที ข้อกำหนดสำหรับข้อมูลเชิงลึกแบบเรียลไทม์ในสตรีมวิดีโอดังกล่าวคือการขับรถใช้เทคนิค AI เช่นเครือข่ายประสาทเทียมลึกสำหรับงานต่างๆรวมถึงการจำแนกประเภทการตรวจจับวัตถุและการสกัดและการตรวจจับความผิดปกติ

ทีมงานของเราที่ IBM Research - Ireland ได้ทำการประเมินผลการปฏิบัติงานของ AI อย่างหนึ่งเช่นการจำแนกประเภทวัตถุโดยใช้เมฆที่มีจำหน่ายทั่วไปในเอกสารการประชุมเรื่อง "Shadow Puppets: การคาดเดา AI อย่างแม่นยำในระดับเมฆที่ระดับความเร็วเมฆ" บริการที่จัดไว้ ผลลัพธ์ที่ดีที่สุดที่เราสามารถรักษาความปลอดภัยคือการแสดงผลการจำแนกประเภท 2 เฟรมต่อวินาทีซึ่งต่ำกว่าอัตราการผลิตวิดีโอมาตรฐาน 24 เฟรมต่อวินาที การดำเนินการทดสอบที่คล้ายคลึงกันบนอุปกรณ์ขอบที่เป็นตัวแทน (NVIDIA Jetson TK1) ได้รับข้อกำหนดแฝง แต่ใช้ทรัพยากรส่วนใหญ่ที่มีอยู่ในอุปกรณ์ในขั้นตอนนี้

เราทำลายความเป็นคู่นี้โดยนำเสนอ Semantic Cache ซึ่งเป็นวิธีการที่ใช้เวลาในการใช้งานขอบที่ต่ำกับแหล่งข้อมูลใกล้อนันต์ที่มีอยู่ในระบบคลาวด์ เราใช้เทคนิคที่รู้จักกันดีในการแคชเพื่อปกปิดแฝงด้วยการอนุมาน AI สำหรับอินพุตเฉพาะ (เช่นเฟรมวิดีโอ) ในระบบคลาวด์และจัดเก็บผลลัพธ์บนขอบกับ "ลายนิ้วมือ" หรือโค้ดแฮชตามคุณลักษณะที่แยกออกมา จากอินพุท

โครงการนี้ได้รับการออกแบบมาเพื่อให้ปัจจัยการผลิตที่คล้ายคลึงกันทางด้านความหมาย (เช่นอยู่ในกลุ่มเดียวกัน) จะมีรอยนิ้วมือที่ "ใกล้" กันและกันตามมาตรการระยะทางบางอย่าง รูปที่ 1 แสดงการออกแบบแคช เครื่องเข้ารหัสจะสร้างลายนิ้วมือของเฟรมวิดีโออินพุตและค้นหาแคชสำหรับลายนิ้วมือภายในระยะที่กำหนด ถ้ามีการจับคู่ผลลัพธ์ที่ได้จะได้รับจากแคชจึงไม่จำเป็นต้องค้นหาบริการ AI ที่ทำงานในระบบคลาวด์

เราพบลายนิ้วมือที่คล้ายกับหุ่นเงาการฉายสองมิติของตัวเลขบนหน้าจอที่สร้างขึ้นโดยแสงในพื้นหลัง ทุกคนที่ใช้นิ้วมือเพื่อสร้างหุ่นเงาจะเป็นพยานว่าการขาดรายละเอียดในตัวเลขเหล่านี้ไม่ได้จำกัดความสามารถในการเป็นรากฐานสำหรับการเล่าเรื่องที่ดี ลายนิ้วมือคือการคาดการณ์ของอินพุทจริงที่สามารถใช้สำหรับแอพพลิเคชัน AI ที่มีชีวิตชีวาแม้ในกรณีที่ไม่มีรายละเอียดต้นฉบับ

เราได้พัฒนาหลักฐานอันสมบูรณ์เกี่ยวกับการใช้แนวคิดของซีพียูตามแนวทาง "ในรูปแบบบริการ" และการเปิดเผยบริการแก่ผู้ใช้อุปกรณ์ / เกตเวย์โดยใช้อินเทอร์เฟซ REST การประเมินของเราเกี่ยวกับอุปกรณ์ขอบที่หลากหลาย (Raspberry Pi 3 / NVIDIA Jetson TK1 / TX1 / TX2) ได้แสดงให้เห็นว่าความหน่วงในการอนุมานได้ลดลง 3 ครั้งและการใช้แบนด์วิธอย่างน้อย 50 เปอร์เซ็นต์เมื่อเทียบกับระบบคลาวด์ - เพียงอย่างเดียว

การประเมินต้นแบบของการใช้งานต้นแบบครั้งแรกของเราแสดงถึงศักยภาพ เรายังคงมุ่งเน้นไปที่แนวทางเริ่มแรกโดยจัดลำดับความสำคัญในการทดลองใช้เทคนิคการเข้ารหัสทางเลือกเพื่อเพิ่มความแม่นยำในขณะที่ยังขยายการประเมินผลไปยังชุดข้อมูลและงาน AI อีกด้วย

เราคาดว่าเทคโนโลยีนี้จะมีการประยุกต์ใช้ในการบำรุงรักษาค้าปลีกการคาดการณ์สำหรับโรงงานอุตสาหกรรมและการเฝ้าระวังวิดีโอเป็นต้น ตัวอย่างเช่นแคชความหมายอาจถูกใช้เพื่อเก็บลายนิ้วมือของภาพผลิตภัณฑ์ที่เช็คเอาท์ ซึ่งสามารถใช้เพื่อป้องกันไม่ให้สูญเสียการจัดเก็บเนื่องจากการโจรกรรมหรือการสแกนผิดพลาด แนวทางของเราถือเป็นตัวอย่างของการสลับไปมาระหว่างบริการแบบคลาวด์และขอบเพื่อให้บริการโซลูชั่น AI ที่ดีที่สุดในโลก

menu
menu