จะเกิดอะไรขึ้นเมื่อนักวิทยาศาสตร์ข้อมูลจู่โจมผ่านสามศตวรรษของโรบินสันครูโซ?

Anonim

ตั้งแต่เรื่องเรือบดของ Daniel Defoe เรื่อง "Robinson Crusoe" ซึ่งได้รับการตีพิมพ์เป็นครั้งแรกเมื่อเกือบ 300 ปีที่ผ่านมานับพัน ๆ ฉบับและเวอร์ชันสปินิกได้รับการตีพิมพ์ในหลายร้อยภาษา

ทีมวิจัยนำโดย Grant Glass, Ph.D. นักศึกษาภาษาอังกฤษและวรรณคดีเปรียบเทียบที่ University of North Carolina ที่ Chapel Hill ต้องการทราบเรื่องราวที่เปลี่ยนไปเมื่อผ่านการตีพิมพ์ฉบับต่างๆการลอกเลียนแบบและการแปลและเพื่อดูว่าส่วนไหนเป็นตัวทดสอบของเวลา

การอ่านผ่านพวกเขาทั้งหมดที่ก้าวหนึ่งวันจะใช้เวลาหลายปี แต่นักวิจัยกำลังฝึกคอมพิวเตอร์เพื่อทำสิ่งเหล่านี้

ฤดูร้อนนี้ทีมงาน Glass ในโครงการวิจัยข้อมูล + ฤดูร้อนใช้อัลกอริทึมคอมพิวเตอร์และเทคนิคการเรียนรู้ด้วยเครื่องเพื่อลอดผ่านเวอร์ชันเต็ม 1, 482 ฉบับของโรบินสันครูโซซึ่งรวบรวมจากคลังข้อมูลออนไลน์

Glass กล่าวว่าหลายครั้งที่เราคิดถึงหนังสือเล่มหนึ่งที่มีอยู่ในหิน "แต่โครงการแบบนี้แสดงให้คุณเห็นว่ามันยุ่งเหยิงมีความแตกต่างกันไปมาก"

Glass กล่าวว่า "เมื่อคุณหยิบหนังสือขึ้นมาสิ่งสำคัญคือต้องรู้ว่ามันคืออะไรเพราะมันสามารถส่งผลกระทบต่อวิธีที่คุณคิดได้

เพิ่งได้รับข้อความในรูปแบบที่คอมพิวเตอร์สามารถดำเนินการได้รับการพิสูจน์ครึ่งรบสมาชิกนักศึกษาระดับปริญญาตรี Orgil Batzaya ดยุคสองที่สำคัญในวิชาคณิตศาสตร์และวิทยาการคอมพิวเตอร์กล่าวว่า

หนังสือได้รับการสแกนและโพสต์ออนไลน์แล้วดังนั้นนักเรียนจึงใช้ซอฟต์แวร์เพื่อดาวน์โหลดการสแกนจากอินเทอร์เน็ตผ่านกระบวนการที่เรียกว่า "scraping" แต่การประมวลผลหน้าสแกนของหนังสือที่พิมพ์เก่าซึ่งบางส่วนมีรอยด่างหรือรอยเปื้อนและแปลงให้เป็นรูปแบบที่อ่านได้ง่ายกว่าที่คิด

ซอฟแวร์พยายามที่จะถอดรหัสการสะกดคำแปลก ๆ ("deliver'd" "wish'd" "perswasions" "shore" กับ "shoar") รูปแบบต่างๆระหว่างรุ่นและ quirks อื่น ๆ

อักขระพิเศษที่ไม่เหมือนใครในแบบอักษรศตวรรษที่ 18 เช่นตัวอักษร "s" ที่ทำให้ตัวมนุษย์อ่าน "diftance" และ "poffible" ด้วยความคมชัดทางจิต

ความพยายามครั้งแรกของพวกเขามากับ gobbledygook "การรับรู้อักขระออพติคอลที่เกิดขึ้นนั้นไม่สามารถใช้งานได้อย่างสมบูรณ์" สมาชิกในทีมและดยุคอาวุโสกาเบรียลเกเดสกล่าว

ในช่วงข้อมูลโปสเตอร์ + ข้อมูลในเดือนสิงหาคม Guedes, Batzaya และประวัติศาสตร์และวิทยาการคอมพิวเตอร์สองแห่งที่สำคัญลูเชียหลี่ได้นำเสนอผลการดำเนินงานเบื้องต้น: ชุดแปลงกระจายเสียงแผนที่แผนผังผังงานและกราฟเส้น

Guedes ชี้ไปที่กลุ่มจุดบนกราฟเครือข่าย "ที่นี่ฉบับสีแดงเป็นภาษาอเมริกาฉบับสีฟ้ามาจากสหราชอาณาจักร" Guedes กล่าว "กราฟเครือข่ายยอมรับความคล้ายคลึงกันระหว่างฉบับเหล่านี้ทั้งหมดและรวมกลุ่มกันไว้"

เมื่อพวกเขาเปิดหน้าเว็บที่สแกนเป็นข้อความที่อ่านได้โดยทีมงานได้ให้ข้อมูลเหล่านี้แก่อัลกอริธึมการเรียนรู้ด้วยเครื่องซึ่งวัดความคล้ายคลึงกันระหว่างเอกสาร

อัลกอริทึมจะใช้เวลาในส่วนของข้อความประโยคย่อหน้าแม้แต่นวนิยายทั้งหมดและแปลงให้เป็นเวกเตอร์ที่มีมิติสูง

การสร้างการแสดงตัวเลขของหนังสือแต่ละเล่มนี้ทำให้ Guedes สามารถดำเนินการทางคณิตศาสตร์ได้ พวกเขาเพิ่มเวคเตอร์สำหรับหนังสือแต่ละเล่มเพื่อหาผลรวมคำนวณค่าเฉลี่ยและดูเพื่อดูว่าฉบับใดใกล้เคียงกับรุ่น "เฉลี่ย" มากที่สุด มันกลายเป็นรุ่นโรบินสันครูโซตีพิมพ์ในโกล์ว 2418

พวกเขายังได้วิเคราะห์ความสำคัญของจุดที่เฉพาะเจาะจงในการกำหนดความใกล้ชิดของรุ่นที่กำหนดให้เป็นฉบับ "เฉลี่ย": แล้วช่วงเวลาไหนที่ Crusoe มองรอยเท้าบนพื้นทรายและตระหนักดีว่าเขาไม่ใช่คนเดียว? หรือเวลาที่ Crusoe และวันศุกร์หลังจากออกจากเกาะต่อสู้หมาป่าหิวใน Pyrenees?

ผลของทีมอาจจะกระทบกระเทือนกับคนที่ไม่คุ้นเคยกับการมองเห็นการเผยแพร่ในช่วง 300 ปีที่ลดลงไปจนถึงกราฟแท่ง แต่ด้วยการใช้คอมพิวเตอร์เพื่อเปรียบเทียบหนังสือหลายพันเล่มในแต่ละครั้งนักวิชาการ "มนุษยศาสตร์ดิจิทัล" กล่าวว่าเป็นไปได้ที่จะติดตามรูปแบบและแนวโน้มขนาดใหญ่ที่มนุษย์อ่านหนังสือแต่ละเล่มไม่สามารถทำได้

"นี่เป็นเพียงบางอย่างที่คอมพิวเตอร์สามารถทำได้" Guedes กล่าวชี้ไปที่แผนที่แสดงเวลาที่แสดงให้เห็นว่าเรื่องราวของ Crusoe กระจายไปทั่วโลกซึ่งสร้างขึ้นจากข้อมูลเกี่ยวกับสถานที่และวันที่ตีพิมพ์สำหรับฉบับ 15, 000 ฉบับ

"มันเป็นรูปแบบของการอ่านไกล", "Guedes กล่าวว่า "คุณใช้ข้อมูลจำนวนมากเพื่อช่วยในการสรุปข้อสรุปเกี่ยวกับประวัติศาสตร์การตีพิมพ์การเคลื่อนไหวของความคิดและความรู้โดยทั่วไปในช่วงเวลา"

menu
menu