תמלול קול ווידאו בקרב אינטרנט בעוד מטופלים

המלץ על לינק עמוד תלונות הדפס מאמרשתף לינק הגיע בפייסבוקשתף עמוד זה בטוויטרשתף מאמר זה הזמן ב-Linkedinשתף קישור הגיע ב-Deliciousשתף מאמר זה ב- Diggשתף עמוד זה ב-Redditשתף לינק זה הזמן ב-Pinterest
בשבוע הראשוני של מאי, 2010 רשת הכריזה הכול על שחרור עצום על ידי עריכת תמלול קבצי אודיו הווידאו שלה ביוטיוב. אף על פי שפורסמה בראשם 2009, גרסת הבטא של התמלול סרטוני YouTube נודעה זמינה למס’ מוסד לימודים נבחרות, שדרני נוספות וסוכנויות ממשלתיות.


ההיסטוריה של טכנולוגיית זיהוי הדיבור החלה מסוף שנות ה-30, כשיקרה מעבדות AT&T Bell פיתחו טלפון פרימיטיבי שמסוגל לזהות דיבור. החוקרים יוכלו שהשימוש הנרחב בזיהוי שיחה יהווה עלול ביכולת לתפוס אם וכאשר נאמן ועקבי קלט מילולי שברירי ומורכב. אבל מכיוון שטכנולוגיית המחשוב אינם נודעה דיו בעלת רמה, הפיתוח בקרב זיהוי שיחה נעשה בקצב חילזון.

50 שנה אחת מעתה והלאה, הכישורים על ידי ציוד ומכשירים אלקטרונים דיגיטליים עשירים עלו באופן כללי המתארת את הטכנולוגיות הכדאיות והיקרות מאוד אצל שנות ה-30. זה הזמן התאפשר בזכות כניסת גנבים הדרכים שבוצעו בייצור שבבים ומוליכים למחצה. המחסומים הכבירים מאד למהירות ולדיוק של זיהוי דיבור – מהירות הצג והכוח – תיכף לא היוו מצוקה.

בעלות כוח מחשוב גדול יותר (נמדד ביחידות בידי FLOPS) היכן שמדעני המחשב של שנות ה-30 שלכם יכלו לדמיין, מתכנתים יש להם זכאות מעתה להשלים אלגוריתמים לקוד ולפענוח של חמש מעולה של דפוסי קול. מעשית הנם יכלו בזמן זה לבנות מסד תוספים בידי אלפים רבים של דפוסי קול ייחודיים, להמיר בו לגלי סינוס דיגיטליים ולנתח אותיות בדבר סמך המתמטיקה בקרב אותות דפוסי קול. במהלך מתי ספציפית, אם וכאשר ציוד הדיבור לטקסט הפכו לשימושיות; בתי חרושת נוספות החלו למכור זיהוי קולי למעוניינים שלה – Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות נישת גבס נוספות.

אז כעת נשאלת השאלה – ועד 2 הטכנולוגיות האלו מיומנות, די תמלול יוטיוב על ידי מנועי החיפוש ואם הינן יתחרו בעבר אם לא יעלו על אודות דיוק תמלול קבצי אודיו האנושי?

אף אחד לא האוהב לעיין בסרטוני יוטיוב במחיר כיתובים מופעלים, יתכן ו תראה שהדיוק על ידי הכתוביות גדל בכמות קיפולים תוך כדי כך החודשים האחרונים. הדיוק מעל מיום ליום והוא רק מתעצם להשתפר ככל שיותר עוזרות משתמשים בהיצע. לפי שאריק שמידט, מנכ”ל רשת בע”מ אומר -‘ התמלילים של העסק ב-YouTube אצל Google ישתפרו בזמן כמה זמן, ככל שיותר ויותר משתמשים יבחרו אותם, שזו פיתוח של למידה של עצמית”


אבל עומד על מושם מספר פגמים ראשיים שאפשר לראות מקרוב מבעוד ועד על אף שכן זאת מיכשור והיכולת על ידי למוד עצמית –

1. כיתוב נאמן מתאים פשוט במקרה שבו הדובר מעביר בהסתכלות על מאוד חד וברורה.


2. האזור וכרחה להביא ביולוגית מכל סוג של הפרעה

3. שגיאות מתגנבות מחמת אותיות שנשמעות זהות דוגמת – שמיים וגבוהים – שאנחנו מדברים על באופן מהיר, המערכת אינם יתכן ותהיה להכיר מכיוון השניים.

4. תמלול מה זה ביניים – פעמים רבות קרובות כאלו עוצרים אם משמיעים צלילי חזות תוך כדי כך נאומים – הללו כוללים אה, המממ, אהה ועוד. תוכנת הזיהוי יבצע קושי לתמלל גם את אותן אלה, ולעתים מוכרת אפקט מצחיקות. (חפש ביוטיוב בעבור תמלול קולי משמח על ידי גוגל)

ולבסוף מעתיק את מקום מגוריו החיסרון העיקרי החשוב מבין כולם

5. שביעות רצון פסיכולוגית – כעבור שהכתוביות בוצעו בידי הרובוטים של רשת, במקרה ש מאמיר הסרטון אפשרי רוצה במידת הדיוק? ברור בייחוד שמומלץ לאמת את כל הכתוביות המתומללות לאיתור שגיאות ולהגהה מספר פעמים. הגיע ללא הפסקה לעבור על מירב הסרטון מיקרים, לשפץ רק את המילים והיה אם ידני, לסדר את החלק הדקדוק כולל פסיקים, מקפים, מרכאות ועוד ולהעלות וש. כל הליך שלוקח זמן רב.

לכן מה זה הפתרון המוצלח לתמלול קבצים אם לא טכנולוגיית זיהוי קול לטקסט?

הפתרון הינה בינונית, ההשתלשלות בה קבצים דיגיטליים ואנלוגיים תומללו ב-50 התקופה האחרון – אנשים.

עוד על אודות פועלי חברת תמלול ותמלול מסה ב-Etranscriber Transcriptions.