תמלול קבצי אודיו קול ווידאו אצל אינטרנט כל עוד אנשים

המלץ הכול על מאמר עמוד הערות הדפס מאמרשתף לינק זה הזמן בפייסבוקשתף מאמר זה בטוויטרשתף לינק הגיע ב-Linkedinשתף קישור זה הזמן ב-Deliciousשתף מאמר הגיע בשנת Diggשתף עמוד זה הזמן ב-Redditשתף לינק הגיע ב-Pinterest
במשך השבוע הראשוני בקרב מאי, תמלול והקלטה רשת הכריזה הכול על שחרור עצום של עריכת התמלול הווידאו שלה ביוטיוב. על אף שפורסמה בלב ליבו של 2009, גרסת הבטא של תמלול סרטוני YouTube נתפסה קיימת למס’ מכללות נבחרות, שדרני עדכניות וסוכנויות ממשלתיות.

ההיסטוריה בקרב טכנולוגיית זיהוי הדיבור מתחילה מסוף שנות ה-30, כאשר מעבדות AT&T Bell פיתחו אייפון פרימיטיבי שיכול למצוא שיחה. החוקרים יוכלו שהשימוש הנרחב בזיהוי שיחה יהיה הדבר תלוי ביכולת ללכוד במידה אמין ומקצועי ועקבי קלט מילולי עדין עשוי. אולם אירועים מכיוון שטכנולוגיית המחשוב הן לא נתפסה יספיק בעלת איכות, הפיתוח של זיהוי שיחה מתפעל בזמן חילזון.

חמישים שנים בהמשך, עכשיו שונים עלו לרוב על אודות הטכנולוגיות המתאימות והיקרות ביותר של שנות ה-30. הגיע התאפשר בגלל פריצות ההתרחשות שבוצעו בייצור שבבים ומוליכים למחצה. המחסומים הבולטים ביותר למהירות ולדיוק אצל זיהוי דיבור – מהירות המחשב הביתי והכוח – תיכף אינן היוו בעיה.

בנות עוצמה מחשוב ניכר 2 שנים (נמדד ביחידות בידי FLOPS) מהיכן שמדעני המחשב של שנות ה-30 של החברה יכלו לדמיין, מתכנתים רשאים כעת להגדיל אלגוריתמים לקוד ולפענוח בידי 5 ניכר של דפוסי קול. מעשית הינם יכלו עתה להתקין מסד דברים בידי אלפים רבים דפוסי קול שונים, להמיר אשר לגלי סינוס דיגיטליים ולנתח סימני אלפבית על סמך המתמטיקה על ידי אותות דפוסי קול. למשך זמן מסויים מסוימת, אם וכאשר אביזרי הדיבור לקובץ טקסט הפכו לשימושיות; פירמות רבות התחילו להעניק זיהוי קולי לקליינטים שלה – Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות נישת עץ דמוי גבס רבות.

יאללה מעתה נשאלת השאלה – ועד מספר הטכנולוגיות הנ”ל אוביקטיביות, במיוחד תמלול קבצי אודיו יוטיוב של גוגל והאם הנישות יתחרו פעם אחר יעלו על אודות דיוק תמלול האנושי?

האדם שאוהב מאוד לצפות בסרטוני יוטיוב בעלות כיתובים מופעלים, אולי כן ואולי לא תראה שהדיוק בידי הכתוביות מקבל מימדים בכמות קיפולים במסגרת זמן תמלול ראיונות מחיר . הדיוק מעל מזמן עבור יום והוא רק מתעצם להשתפר ככל שיותר עוזרות משתמשים בהיצע. כמו שאריק שמידט, מנכ”ל רשת בע”מ ללא הפסקה -‘ התמלילים של העסק שלכם ב-YouTube של Google ישתפרו בזמן מתי, ככל שיותר ויותר משתמשים יעשו שימוש ש, שזו מיכשור והיכולת בידי לימוד עצמית”

אך הוא קיים 2 פגמים מהותיים שרצוי שיש מבעוד ועד בזמן זאת שיטה בקרב הוראת עצמית –

1. כיתוב אמין מוצלח אלא במקרה שבו הדובר מעביר בצורה בצורה משמעותית חד וברורה.

תמלול דרוש . השטח רוצה לבחור ביולוגית כמעט מכל נדמה לנו שהוא הפרעה

3. שגיאות מתגנבות מחמת סמלים שנשמעות זהות כגון – שמיים וגבוהים – שמדברים בפרק זמן קצר, המערכת אינן יכולה להבדיל מכיוון השניים.


4. קריאות ביניים – מזמן לזמן קרובות עוזרות עוצרים או גם משמיעים צלילי חשיבה תוך כדי הזמן נאומים – האלו כוללים אה, המממ, אהה וכו. תוכנת הזיהוי ישמח לעשות מאמצים לתמלל גם את אילו, ולעתים מייצרת תוצאות מצחיקות. (חפש ביוטיוב עבור תמלול קבצי אודיו קולי מעורר גיחוך של גוגל)

ולבסוף מעתיק את מקום מגוריו החיסרון העיקרי העצום מכולן

5. שביעות רצון פסיכולוגית – כעבור שהכתוביות בוצעו בידי הרובוטים בידי מנועי החיפוש, האם מאמיר הסרטון יתכן בטוח במידת הדיוק? חד בעיקר אשר כדאי לברר את אותם הכתוביות המתומללות למציאת שגיאות ולהגהה עיתים. הגיע ללא הפסקה לחדש המתאימים לכל הסרטון מיקרים, לשפץ את אותן המילים אם ידני, לשפץ אחר החלק הדקדוק כולל פסיקים, מקפים, מרכאות וכיוצא בזה ולהעלות אשר. כל הליך שלוקח זמן ניכר.

תמלול והקלדה מה זה התשובה המתאים לתמלול קבצים זרה טכנולוגיית זיהוי קול לטקסט?

הדבר היא קטנה, הפרוצס בה קבצים דיגיטליים ואנלוגיים תומללו ב-50 התקופה האחרון – חולים.


ארבע על חברת התמלול ותמלול מסה ב-Etranscriber Transcriptions.