Frederick Mosteller และ David Wallace ศาสตราจารย์ด้านสถิติจากมหาวิทยาลัยฮาร์วาร์ดและมหาวิทยาลัยชิคาโก เป็นผู้บุกเบิกรุ่นแรกๆ อีกกลุ่มหนึ่งที่ใช้การบูรณาการความรู้ด้านสถิติและการประมวลผลแบบคอมพิวเตอร์เข้ากับวิชาทางมนุษยศาสตร์และสังคมศาสตร์ในงานศึกษาเรื่อง “Inference in an Authorship Problem” ที่ใช้วิธีการศึกษาแบบ DHเข้าไปช่วยหาคำตอบในประเด็นที่นักประวัติศาสตร์ถกเถียงกันว่าระหว่าง Alexander Hamilton กับ James Madison ใครเป็นผู้เขียนบทความ 12 ชิ้นในเอกสารเฟเดลรัลลิสต์ (The Federalist Papers) ที่ทั้งคู่อ้างสถานะการเป็นผู้เขียนในบทความ 12 ชิ้นนั้น
เอกสารเฟเดลรัลลิสต์ เป็น การรวบรวมบทความ 85 ชิ้น ที่ อเล็กซานเดอร์ แฮมิลตัน, เจมส์ เมดิสัน และ จอห์น เจย์ ร่วมผลัดกันเขียนลงในหนังสือพิมพ์นิวยอร์ก เมื่อปี 1787-1788 บทความแต่ละชิ้นมีเนื้อหาเกี่ยวกับรัฐธรรมนูญฉบับใหม่ สหรัฐอเมริกา เพื่อโน้มน้าวให้ชาวนิวยอร์กลงมติผ่านร่างรัฐธรรมนูญที่ทั้งสามเป็นผู้ร่วมร่าง โดยในเวลานั้นสาธารณชนไม่มีใครรู้ว่าบทความแต่ละชิ้นถูกเขียนขึ้นโดยใคร เพราะทั้งสามต่างใช้นามปากกาเดียวกันว่า “Publius”
ต่อมาในปี 1804 อเล็กซานเดอร์ แฮมิลตัน รัฐมนตรีว่าการกระทรวงการคลังคนแรกของประเทศสหรัฐอเมริกาเขียนจดหมายหาเพื่อนของเขาชื่อ Egbert Benson พร้อมระบุผู้เขียนที่แท้จริง ในแต่ละบทความทั้ง 85 ชิ้นในปี 1817 ภายหลังที่หมดวาระจากการดำรงตำแหน่งประธานาธิบดีสหรัฐอเมริกา ได้ไม่นาน เจมส์ เมดิสันก็ออกมาเปิดเผยรายชื่อผู้เขียนที่แท้จริงในแต่ละบทความเช่นเดียวกับที่แฮมิลตันทำไว้เมื่อ 13 ปีก่อน อย่างไรก็ตาม เมื่อเอารายชื่อของเมดิสันไปเทียบกับของแฮมิลตัน ปรากฏว่ามีอยู่ 12 บทความที่ทั้งคู่ล้วนต่างอ้างเหมือนกันว่าตนเองเป็นผู้เขียน
ทั้งนักประวัติศาสตร์และนักรัฐศาสตร์พยายามหาวิธีพิสูจน์ประเด็นถกเถียงดังกล่าวมากว่า 150 ปีเช่น ด้วยวิธีพยายามแกะรอยตามอุดมการณ์ทางการเมืองที่ถูกนำเสนอออกมาในบทความ 12 ชั้นที่ไม่สามารถระบุได้อย่างชัดเจนว่าใครคือผู้เขียน ด้วยการตรวจสอบว่าบทความไหนมีความสอดคล้องกับความคิดทางการเมืองของแฮมิลตันหรือเมดิสันมากกว่ากันหรือแม้กระทั่ง จอห์น เจย์ ผู้ดำรงตำแหน่งประธานศาลสูงสุดคนแรกของประเทศสหรัฐอเมริกา แต่สุดท้ายก็ยังไม่ได้ข้อสรุปที่แน่ชัดในหมู่ผู้ศึกษาเรื่องนี้
ในปี 1963 Mosteller และ Wallace ใช้วิชาสถิติเป็นเครื่องมือในการวิเคราะห์ปัญหานี้ โดยใช้วิธีง่ายๆ ด้วยการนับความถี่ของคำทั่วไปๆ บางคำ ที่อยู่ในบทความชิ้นที่ระบุได้แน่ชัดว่าแฮมิลตันหรือเมดิสันเป็นคนเขียน ขั้นตอนต่อมาก็ใช้วิธีเดียวกันกับบทความ 12 ชิ้น ที่ทั้งแฮมิลตันและเมดิสันต่างอ้างว่าตนเป็นผู้เขียน หลังจากนั้นก็เอาความถี่ของการใช้คำทั่วไปที่ค้นพบในขั้นตอนแรกมาเปรียบเทียบกับขั้นตอนที่สอง จากวิธีการศึกษาดังกล่าว Mosteller และ Wallace พบว่า
1.เมดิสันใช้คำว่า also บ่อยมากกว่าแฮมิลตันประมาณสองเท่า
2.แฮมิลตันใช้คำว่า according ถี่มากกว่าเมดิสัน
3.ในบทความที่ถูกระบุชัดว่าเมดิสันเป็นผู้เขียน มีคำว่า whilst ในบทความกว่าครึ่งหนึ่ง ในขณะเดียวกัน ทุกบทความที่ถูกระบุชัดว่าเมดิสันเขียน ไม่มีคำว่า while อยู่เลย
4.บทความที่ถูกระบุชัดว่าแฮมิลตันเป็นผู้เขียน ไม่มีคำว่า whilst อยู่เลย แต่ในขณะเดียวกัน กลับมีคำว่า while อยู่ถึงหนึ่งในสาม
ด้วยวิธีการหาคำตอบโดยใช้หลักการพื้นฐานทางสถิติด้วยการนับความถี่ของคำต่างๆ ที่ทั้งเมดิสันและแฮมิลตันใช้เพื่อค้นหารูปแบบการเขียนของทั้งคู่แล้วนำไปเปรียบเทียบกับเอกสารเฟเดลรัลลิสต์ 12ดังกล่าว Mosteller และ Wallace พบว่าเอกสารปริศนา 12 ชิ้นนั้น มีรูปแบบการเขียนและความถี่ของคำที่ถูกเลือกใช้มีความละม้ายคล้ายคลึงกับลีลาการเขียนของ เจมส์ เมดิสัน และในปัจจุบัน อีก 50 ปีต่อมาทั้งนักวิชาการด้านประวัติศาสตร์ นักรัฐศาสตร์รวมถึงนักสถิติที่ทำงานวิจัยเพื่อค้นหาผู้เขียนเอกสารปริศนา 12 นี้ เพื่อพิสูจน์ ตรวจสอบผลการศึกษาของ Mosteller
และ Wallace ต่างได้ข้อสรุปเดียวกันว่า เจมส์ เมดิสันคือผู้เขียนเอกสาร 12 ชิ้นนั้น
ปัจจุบัน ด้วยความก้าวหน้าทางเทคโนโลยีคอมพิวเตอร์และดิจิทัลได้ช่วยให้สามารถจัดเก็บข้อมูลขนาดใหญ่ (Big Data) ไว้ในรูปแบบอิเล็กทรอนิกส์ได้อย่างง่ายดาย เทคโนโลยีดังกล่าวยังให้ช่วยให้สามารถตรวจสอบ ติดตาม ค้นหาข้อมูลจำนวนมหาศาลทั้งที่เป็น เอกสาร หนังสือ แผนที่ รูปภาพ เสียง ภาพยนตร์และอื่นๆ ที่อยู่ในรูปแบบดิจิทัลได้อย่างมีประสิทธิภาพและสะดวกรวดเร็วอย่างที่ไม่เคยเป็นมาก่อน อย่างไรก็ตามการจัดการกับข้อมูลจำนวนมหาศาลเพื่อทำให้เป็นสารสนเทศที่มีประโยชน์และมูลค่าต้องอาศัยเทคนิควิธีการที่เรียกว่า การทำเหมืองข้อมูล (Data Mining)
การทำเหมืองข้อมูลเป็นกระบวนการสกัดความรู้ที่น่าสนใจจากข้อมูลปริมาณมาก ความรู้ที่ไม่เห็นเด่นชัด ความรู้ที่บ่งบอกเป็นนัย ความรู้ที่ไม่ทราบมาก่อน ที่มีศักยภาพในการนำไปใช้ประโยชน์ การทำเหมืองข้อมูลยังมีความหมายรวมไปถึงกระบวนการหาความหมายของรูปแบบ ความสัมพันธ์ของข้อมูลที่ซ่อนอยู่หรือความรู้ใหม่อื่นๆ จากฐานข้อมูลขนาดใหญ่เพื่อนำมาใช้ในการตัดสินใจในปัจจุบันการทำเหมืองข้อมูลได้เริ่มถูกนำไปประยุกต์ใช้ในวงวิชาการด้านมนุษยศาสตร์และสังคมศาสตร์มากขึ้น....... (อ่านตอนจบในสัปดาห์หน้า)
ธิติ สุวรรณทัต
เงื่อนไขการแสดงความคิดเห็น ซ่อน
โปรดอ่านก่อนแสดงความคิดเห็น
1.กรุณาใช้ถ้อยคำที่ สุภาพ เหมาะสม ไม่ใช้ ถ้อยคำหยาบคาย ดูหมิ่น ส่อเสียด ให้ร้ายผู้อื่น สร้างความแตกแยกในสังคม งดการใช้ถ้อยคำที่ดูหมิ่นหรือยุยงให้เกลียดชังสถาบันชาติ ศาสนา พระมหากษัตริย์
2.หากพบข้อความที่ไม่เหมาะสม สามารถแจ้งได้ที่อีเมล์ online@naewna.com โดยทีมงานและผู้จัดทำเว็บไซด์ www.naewna.com ขอสงวนสิทธิ์ในการลบความคิดเห็นที่พิจารณาแล้วว่าไม่เหมาะสม โดยไม่ต้องชี้แจงเหตุผลใดๆ ทุกกรณี
3.ขอบเขตความรับผิดชอบของทีมงานและผู้ดำเนินการจัดทำเว็บไซด์ อยู่ที่เนื้อหาข่าวสารที่นำเสนอเท่านั้น หากมีข้อความหรือความคิดเห็นใดที่ขัดต่อข้อ 1 ถือว่าเป็นกระทำนอกเหนือเจตนาของทีมงานและผู้ดำเนินการจัดทำเว็บไซด์ และไม่เป็นเหตุอันต้องรับผิดทางกฎหมายในทุกกรณี